10 глобальных проблем, откоторых нас избавит цифровая эпоха
Знание - власть: как данные изменят государство в XXI веке
20 неожиданных открытий, сделанных благодаря анализу данных
Каждому по потребности. Как данные меняют образование
Добровольцем будешь? Доставай смартфон!
Когда данных слишком много: Банки на передовой Big Data
Супермаркет в роли гинеколога: Как данные растят прибыль, раскрывая лишнее
Ураганный бизнес: как заработать на прогнозах погоды
Собеседование с роботом
Большие данные для Большого брата
Интерпретируй это. Как избежать ошибок Big Data
Учимся считать: откуда берутся специалисты по анализу Big Data
Они нас посчитали
Сети ритейла: как Big Data помогает поймать нужного покупателя
Немашинный перевод

Интерпретируй это. Как избежать ошибок BIG DATA

Знание — сила. Но на пути обретения этой силы и бизнес, и государство ждут большие препятствия. Slon разобрался, почему проваливаются амбициозные проекты по анализу данных.

Многие помнят громкий скандал вокруг розничной сети Target. Компания разработала алгоритм, позволяющий предсказывать будущие покупки клиентов по прошлым их приобретениям. Как-то раз ее служба лояльности клиентов прислала одной несовершеннолетней покупательнице скидочные купоны на детскую одежду: алгоритм вычислил, что девушка беременна. А поскольку она держала эти новости в тайне от родителей, те, увидев посылку от Target, подняли немало шума. Это, разумеется, подпортило репутацию компании: у многих возникло ощущение, что розничная сеть следит за ними.

Это один из многих провалов при попытках извлечь из данных коммерческую и иную пользу, причем далеко не самый серьезный, просто активно распиаренный. Многие начинания, связанные с анализом данных, приносят куда более серьезные проблемы и вызывают огромное разочарование. По некоторым оценкам, более половины таких проектов заканчиваются провалом. В чем дело? На поверхности лежит ответ, который повторяют многие эксперты: нехватка грамотных специалистов и адаптированного правильным образом софта.

Но эти проблемы преходящи и преодолимы. Есть же и более глубокие управленческие причины, которые мешают развернуться серьезным аналитическим проектам. Проблемы эти зачастую стары как мир: в конце концов, какие-то данные у руководителей были всегда, и менеджеры всегда пользовались ими для принятия решений. Сегодня иной масштаб данных, более мощные и изощренные методы их обработки. Данных, инструментов, идей даже слишком много. И это порождает разнообразные мифы и ошибки, мешающие нам понять, что обязанность думать, анализировать, выдвигать гипотезы с нас никто не снимает. Об этих мифах и поговорим.

Идеальный мир данных

Далеко не все руководители и эксперты сегодня понимают, с какого рода информацией им придется работать и что такое вообще анализ данных. Модные термины вроде big data заменяют ответы на содержательные вопросы: поставил систему, и она все сделает за тебя. Одна из распространенных ошибок, обусловленных этим идеализмом, — представление, что в эпоху больших данных можно знать все. Это, конечно, иллюзия: напротив, когда управление стремительно компьютеризируется, становится еще очевиднее, что и в частном, и в государственном секторе решения принимаются в условиях неопределенности, принципиально неполных и неточных данных. Сами информационные базы, на которые приходится опираться в таких условиях, все менее организованны и понятны, они составляются из самых разных источников разной степени надежности. Более того, данные порой меняются прямо в процессе сбора.

И для работы с такими плохо структурированными, беспорядочными данными нужны не просто продвинутые инструменты и продвинутые аналитики. Нужно прежде всего базовое понимание, что ваши решения будут опираться вот на эту почти что квантовую неустойчивость. Смириться с этим, впрочем, поможет осознание того факта, что глобальная экономика в целом становится все более хаотичной и непредсказуемой, а компьютеры и алгоритмы, наверное, никогда не станут всезнающими и совершенными. Это, кстати, вполне осознавала сеть Target в упомянутом примере: ее покупательницы нередко получали в одном пакете скидку на одежду для беременных и скидку на вина — пусть алгоритм и ошибется в одном, так, может, хоть другое предложение сработает.

Смерть теории и смысла

Многих впечатлили успехи искусственного интеллекта компании Google: ее поисковая машина несколько лет назад хорошо предсказывала распространение эпидемии гриппа на основе запросов пользователей. Эта удача имела поразительный эффект: как пишет экономист Тим Харфорд в FT, многие после этого уверовали в спасительную мощь сырых данных. Если ты собрал все имеющиеся данные, не нужно строить теории, гипотезы, задавать исследовательские вопросы — они, мол, нужны лишь тогда, когда решения приходится принимать на основании ограниченной выборки. А если под рукой у вас полная совокупность информации, то эти данные заговорят сами.

В действительности, когда американская система здравоохранения опубликовала более точные данные о распространении эпидемии в США, оказалось, что в Google все-таки заметно ошиблись. И никто не понимал почему — как раз в силу того, что при анализе не строились теории и содержательные модели, предполагалось, что данные сами подскажут ответ. Разумеется, у Google и не было такой задачи — это был лишь интересный эксперимент в области машинного обучения. Но если вы используете данные в управленческих целях, без подобных вопросов и теорий не обойтись. А чтобы их задать, в свою очередь, нужно глубокое знание рынка, области работы организации, ее внутреннего устройства. Поэтому аналитики Gartner советуют не набирать data scientists — аналитиков, специализирующихся на работе с данными, — на стороне, а искать и выращивать их в своей собственной среде.

Превращаем ваши данные
в новый источник эффективности

Культ алгоритма

А вот еще один пример слепой веры, только уже не в данные, а в алгоритмы. Эта проблема распространена при автоматизированном подборе кандидатов на вакансии, который сейчас начинают практиковать многие компании. Скажем, кандидату выдается некий тест в игровой форме, а потом по точности ответов и по продолжительности их обдумывания определяется, насколько человек готов к работе.

Допустим, алгоритм работает хорошо — он адекватно оценивает, насколько разные люди справляются с заданиями, умеет их сравнивать. Но, строго говоря, даже если программа не дает сбоев, она не дает и ответа, подойдет ли кандидат на вакансию (и подойдет ли она ему). Результаты теста лишь показывают, насколько успешно он справился с тестом. Но всегда ли успешное прохождение теста говорит о профпригодности? Действительно ли успех сейчас предопределяет успех в будущем? Это вопросы, которые должен ставить человек, а не алгоритм.

Данные есть данные, как бы их ни получали

У многих сталкивающихся с новыми алгоритмами сбора и анализа данных возникает надежда, что наконец-то мы будем получать реальную информацию, не подверженную тлетворному влиянию человеческого фактора. Это вам не социологические опросы, где ленивые низкооплачиваемые сотрудники норовят сами заполнить анкеты за респондентов. За дело берутся неутомимые, объективные и беспристрастные компьютеры!

На деле и здесь методы сбора информации во многом определяют ее ценность. Помимо очевидных ошибок при постановке задачи и неверных математических моделей, возникают и менее явные сложности. Например, сам принцип сбора данных может подразумевать определенный уклон.

Власти Бостона запустили приложение Street Bump, которое само собирает информацию о выбоинах на дороге. Достаточно установить его на смартфон и взять с собой в машину, и Street Bump с помощью встроенного акселерометра сам будет находить ямы и сообщать о них городской администрации (опираясь на данные GPS). Все здорово. Только практика показала, что значительно больше сообщений поступает из обеспеченных районов. Там больше людей в состоянии купить личный автомобиль и смартфон, их жители, как правило, лучше информированы о возможности помочь таким образом городским властям и чаще видят в этом смысл. Такого рода перекосы в данных приводят к тому, что дороги лучше чинят в богатых районах. А это, в свою очередь, вызывает у публики недоверие к подобным инициативам.

Отрыв от реальности

Алекс Пентлэнд, руководитель одной из лабораторий MIT по разработке искусственного интеллекта, пишет в HBR: с помощью анализа большого массива данных можно получать сколько угодно вроде бы значимых корреляций. Например, можно обнаружить, что люди, которые по понедельникам добираются до работы на машине, а не на общественном транспорте, с большей вероятностью заболевают гриппом. Такие открытия подталкивают к довольно далеко идущим выводам для компаний, в которых работают автомобилисты, а может, и для всей системы здравоохранения.

Но что, если это просто случайное совпадение? Как это понять? Нужны дополнительные исследования и эксперименты в реальном мире, а также банальный элемент здравого смысла. Исследователи же слишком увлекаются своими умными алгоритмами и забывают о реальности. Пентлэнд приводит такую оценку: 70–80% выводов, полученных в области машинного обучения, ошибочны, потому что разработчики радостно подгоняют реальность под свою модель и не думая проверить ее на практике.

«Мне лучше знать»

Это противоположная описанной чуть выше крайность, в которую впадают немало руководителей, особенно в больших и консервативных организациях. Компьютеры компьютерами, рассуждают они, а гораздо важнее реальный опыт, который они накопили за многие годы. Компьютер не работает с клиентами, как работают они, компьютеру не приходится управлять сотрудниками и учить их исправлять свои ошибки. По опросам, более 60% руководителей доверяют скорее своей интуиции, чем компьютеру, и считают, что информация, полученная из «реального мира», ценнее.

Сергей Заблодский

Директор отделения хранилищ данных IBS

За последние пару лет талантливо написанные книги и статьи о больших данных, возможно, породили у людей ощущение, что большие данные — это и есть искусственный интеллект. Но это не совсем так. Большие данные — это еще один инструмент анализа данных в дополнение к существовавшим раньше. Мы говорим не об автоматическом принятии решений, а об автоматизированном — когда решения по-прежнему принимает человек с помощью этих инструментов. И ответственность за ошибки лежит на человеке. Основных точек возникновения этих ошибок две. Первая — это выбор алгоритма обработки данных. Универсального алгоритма, который подходил бы для любых данных, не существует. И, понимая природу данных (изображения, финансовые транзакции, логи и т.д.), аналитик должен найти правильный алгоритм для их обработки.

Второе — это интерпретация. Аналитика позволяет видеть тренд, но на основе него нужно сделать вывод, принять правильное управленческое решение, что не всегда удается.

Аналитик, работающий с большими данными, не может не учитывать качество и надежность источников данных, с которыми он работает. Сегодня нельзя исключать, что какие-то исходные данные могут быть сфальсифицированы или подвергнуты манипуляциям. Например, есть мнение, что в массиве данных Wikileaks очень большая часть утечек специально сгенерирована и вброшена спецслужбами США, чтобы было невозможно сделать достоверные выводы из анализа этого массива документов. Технологии обработки таких больших массивов текстовых документов существуют, и они позволяют находить неявные зависимости между объектами и событиями. Рано или поздно кто-нибудь захочет подвергнуть базу Wikileaks такому анализу. Спецслужбы уже не могут изъять из Сети утекшие секретные документы, но вместо этого они добавили к ним в базу очень много сфальсифицированных текстов, которые делают практически невозможным выявить в общем массиве достоверные факты.

Знания тем ценнее, чем меньше людей ими владеют

Многие менеджеры, впрочем, рады, что компьютеры помогают им собирать больше информации о бизнесе или рынке. Но возникает другой соблазн: рассматривать все эти знания как секретное ноу-хау. А это далеко не всегда верно. Данные бессмысленны, если их просто копить, ими нужно делиться, пишут партнеры McKinsey Мартин Дьюхерст и Пол Уилмотт. Конечно, есть и действительно чувствительная информация, которую не стоит выдавать, но часто закрытость тормозит развитие организации. Чем больше знают сотрудники о бизнесе и о рынке, тем — в общем случае — лучше. Нередко полезна и открытость в отношениях с клиентами и партнерами; например, узнав больше о вашем производстве, они могут подсказать вам, как его оптимизировать.

Есть и другой аспект. Сегодня, когда вездесущие компьютеры горами вываливают на руководителей сырые данные и выводы из них, те рискуют утонуть в деталях, говорят Дьюхерст и Уилмотт из McKinsey. А значит, нужно учиться другим управленческим подходам — отступать на шаг в сторону, делегировать принятие решений на нижние уровни, признавать самостоятельность сотрудников, в целом ослабить узды правления, экспериментировать. В освоении нового мира данных неизбежно приходится доверяться и компьютерам, и специалистам — своим подчиненным. В организациях, где боятся это делать, новые модели и пирамиды данных принесут гораздо меньше пользы. А склонность руководителей контролировать самые мелкие решения в условиях такого обилия информации может обернуться катастрофой.

Все открыто, все доступно

Под конец нельзя не вспомнить еще раз о фундаментальной проблеме, с которой столкнулась Target и с которой столкнутся практически все, кто хочет поставить данные себе на службу. Математика, логика и правила реального мира часто совмещаются довольно плохо. Как рассказывает Пентлэнд из MIT, однажды в Давосе он обсуждал с главами крупных компаний проблему доступа к данным для их аналитических систем. И многие жаловались: попробуйте заставить департаменты внутри компании делиться информацией друг с другом!

Это серьезное препятствие. Но оно худо-бедно преодолимо при вменяемом руководстве. А теперь подумайте о другом: полноценный машинный анализ и прогнозирование требуют данных из самых разных источников, не только тех, что разложены по запертым шкафам в вашем офисе. Чтобы предсказать, сколько айфонов вы продадите завтра, недостаточно знать, сколько вы продавали вчера и год назад и сколько айфонов вы произведете на следующей неделе. Чем мощнее алгоритм анализа данных, тем больше разнообразной информации он должен учитывать, от практики конкурентов до климатических условий.

И тут встают сложнейшие вопросы, на которые еще никто не нашел однозначного ответа. Как уговорить ваших партнеров поделиться данными о работе их системы поставок? Как получить статистику от государственных органов? Как уговорить клиентов поделиться своими персональными данными? И что им предложить взамен? Для многих руководителей все это пока что звучит ново и неожиданно, признает Пентлэнд. Как пишет Information Week, поставщики корпоративного софта любят рассуждать об «озерах» и «океанах» данных. На самом деле речь идет о множестве мелких лужиц, которые еще надо научиться объединять. А некоторые из этих лужиц лишь кажутся доступными — в действительности это лишь мираж в раскаленной пустыне.

совместно с IBS

slon.ru 2014