«Признания счастливой шлюхи». «Я больной ублюдок: лучшие хиты кокаинового мэра Роба Форда». «Сирийская элита шокирована вечеринкой в гаремном стиле». Это не Daily Mail, не BuzzFeed, не LifeNews – это журналистика будущего в медийной сети Vocativ. Крупный шрифт, большие картинки, много видео. Но под таблоидной оболочкой прячется высокотехнологичный мотор, который по глубине и значимости расследований собирается посоперничать с WikiLeaks.

Vocativ запущен на деньги израильтянина Мати Кохави – бывшего офицера спецслужб, а ныне владельца фирмы AGT International, которая предоставляет разного рода услуги в сфере безопасности, дата-майнинга и проч. Одна из компаний Кохави разработала технологию глубокого поиска по ресурсам, не индексируемым поисковыми машинами: соцсети, списки, рассылки, RSS-потоки. Тот же PRISM, только по открытым источникам. Продукт называется OpenMind, изначально он предлагался полиции и правительству, чтобы управляться с большими потоками данных во время катастроф. Этой технологией и пользуются сотрудники Vocativ.

Глава сайта Скотт Коэн утверждает, что они ищут тренды и темы, еще не засвеченные в мейнстримовых медиа. «Мы знаем, что наша аудитория, двадцатилетние и тридцатилетние, любят фотки из отпусков и гифки с котиками. Но этого от нас пусть не ждут», – заявил Коэн. Весной журналисты Vocativ нашли в Facebook площадки по раздаче оружия и историю о сирийских хакерах, которые борются с режимом, публикуя интимные фото дочерей и жен чиновников. Предприятие довольно дорогостоящее: Vocativ «проедает» порядка $10 млн в год.

По внутреннему устройству Vocativ, как рассказывает журнал Fast Company, похож не столько на медиа, сколько на разведслужбу. Главные люди здесь – аналитики (их называют data ninjas), которые сидят и ковыряются в данных. А журналисты проверяют их находки и дописывают историю. Или снимают, как вот в этом репортаже о знаменитых трущобах «Башня Давида» в Каракасе:

История Vocativ – это история про Big Data, «большие данные». Объемы информации, введенной в компьютеры, растут колоссальными темпами. Мы публикуем в соцсетях и на форумах столько данных о себе и о своей работе, что не нужна никакая слежка и прослушка. В Vocativ гордятся заметкой о мрачных настроениях египетской молодежи после введения комендантского часа, которые журналисты восстановили по плей-листам в музыкальном сервисе Spotify. Таков их modus operandi: по смутному цифровому следу воссоздать реальные события. И на этом поле Vocativ совсем не одинок.

Расследования со скоростью света

Взлет Facebook и Twitter породил целую когорту компаний, которые мониторят соцсети в реальном времени и делают по ним аналитику. Одна из этих фирм – Dataminr, которая на фоне коллег – DataSift, Gnip, Topsy и др. – выделяется своей медийностью. Dataminr ищет в Twitter важные и горячие темы для инвестбанков и трейдеров с Уолл-стрит, которым важно получать новости и слухи быстрее, чем их публикуют агентства и традиционные медиа. Подписчики Dataminr узнали о срыве сделки по продаже производителя BlackBerry и о перестрелке у здания конгресса США за несколько минут до того, как сообщения появились на лентах агентств. Этим летом Dataminr привлек $30 млн.

Проект ProPublica скрестил дата-майнинг с краудсорсингом. Пользователи присылали в редакцию письма с примерами политической рекламы, ProPublica же на основе собственного алгоритма классифицировала и разбивала эту рекламу на кластеры. Так стало ясно, как меняются сообщения демократов и республиканцев в зависимости от получателя.

Как искусственный интеллект избавит журналистов от рутины
  • Виртуальное воссоздание событий и сцен преступлений
  • Анализ поведения толпы в реальном времени
  • Распознавание речи и автоматический перевод с одного языка на другой
  • Мгновенное построение графиков и прочие технологии визуализации
  • Проверка подлинности изображений, писем, твитов и т.д.
  • Определение лжи в реальном времени
  • Удобный и быстрый краудсорсинг информации (WikiLeaks 2.0)

За журналистику данных берутся и большие медиа. LA Times открыла специальный отдел, сотрудники которого разбираются в правительственных и других открытых базах данных, такой же проект есть у Guardian. The Washington Post запустила программу Truth Teller, проверяющую на правдивость высказывания политиков и бизнесменов.

У политиков и властей – свои инструменты анализа открытых источников. Недавно американские спецслужбы использовали в расследовании нелегальных финансовых операций софт Raptor X, позволяющий вскрывать отношения между частными фирмами. Он опирается на программу Social Bubble, которая восстанавливает социальные связи по сообщениям в Twitter.

Роботы вместо репортеров

Компьютерный анализ в проекте Vocativ дает журналистам только наводки. Если дата-майнинг скрестить с машинным обучением, то есть искусственным интеллектом, то наводки будут все лучше и полезнее. В какой-то момент количество перейдет в новое качество.

Один компьютерщик удивился, что журналисты, работая даже с большими массивами данных, строят в каждый конкретный момент лишь одну-две истории. У компьютера проблемы с сосредоточением нет – он может одновременно работать по десяткам новостных поводов, выдать на основе одного сырого материала две, пять, двадцать статей, не срывая дедлайнов.

Вначале, однако, нужно научить его писать так, чтобы его продукцию было интересно читать. Эта работа уже в разгаре. Чикагский стартап Narrative Science превращает статистику и другие сырые данные в осмысленный текст. До сочинения берущих за душу колонок еще далеко (см. интервью создателя Narrative Science редактору Slon). Однако Narrative Science уже пишет биржевые новости на Forbes и спортивные – на специализированных сайтах, умеет строить графики, писать твиты и т.д. В сентябре проект привлек новый раунд финансирования – $11,5 млн, а немногим раньше в него инвестировало ЦРУ.

– Через 15 лет больше 90% новостей будут писать компьютеры,
– Кристиан Хэммонд, сооснователь Narrative Science.

Родственную задачу решает стартап Summly, венчурная сенсация 2013 года: приложение 17-летнего парня Ника Д’Алоизио купил в марте Yahoo!. Summly, используя технологии Stanford Research Institute в области обработки естественного языка, превращал новости известных СМИ в краткие выжимки: мол, новое поколение не умеет потреблять медиа в старом формате. Теперь Д’Алоизио – миллионер и звезда, приложение Summly исчезло из AppStore, технология же появится в новых медийных продуктах Yahoo!.

Все это первые шаги. Но десять лет назад и эти шаги казались фантастикой.

Сейчас компьютеры умеют:
  • быстро искать данные
  • сообщать новости
  • строить аналитику и тренды
  • находить неявные связи
  • проверять утверждения
Через 1015 лет они смогут:
  • писать и редактировать тексты разного формата
  • составлять обзоры социальных сетей и прочие дайджесты
  • собирать и классифицировать мнения
  • анализировать живую речь и жесты
  • оценивать достоверность источников, сверять факты и расчеты
  • находить и доказывать заинтересованность
  • строить из отдельных новостей связные сюжеты, восстанавливать картину событий
  • объяснять причины и суть происходящего
  • вылавливать тренды и делать прогнозы

Когда-нибудь роботы научатся даже брать интервью – на границе США и Мексики уже ставят автоматы, которые допрашивают иностранцев и решают, врут те или нет, – снимать и монтировать репортажи, вести онлайн-трансляции в твиттере и фейсбуке.

Прав ли был Ассанж?

На все эти достижения можно смотреть по-разному. Опыт Vocativ и Narrative Science говорит о том, что компьютеры меняют работу журналиста и редактора. Меньше времени уходит на сбор фактуры, больше – на планирование, проектирование задач, натаскивание ботов и дронов, формулировку более тонких и глубоких вопросов, интерпретацию результатов. Строишь алгоритм, запускаешь и смотришь, что выйдет.

С другой стороны, если компьютер учится отвечать на вопросы, то со временем может научиться их задавать. Тогда журналист будет уже не писателем и даже не программистом, а сторожем, администратором.

Особенно интересно будет, когда компьютеры начнут брать на себя и редакторскую функцию – отбор и подачу материалов, настройку их под конкретного пользователя. Сегодня мяч в этой игре на стороне соцсетей и умных агрегаторов контента. Однако компьютеры помогут крупным медиа устроить персонализацию своими силами: для каждого пользователя строить особую главную страницу и ленту новостей, менять интонацию и содержание материала. Начать можно с иллюстраций, графиков, заголовков, лексики. В конечном же счете может оказаться, что два человека, одновременно зашедшие по одной и той же ссылке, будут читать разные тексты или смотреть разные ролики.

По сути, это смерть массмедиа и их замена на индивидуальные медиа. Сегодня такие эксперименты требуют больших трудозатрат (если вы не Facebook), лет через десять – двадцать ставить их будет совсем нетрудно.

Чем закончатся эти эксперименты для публики и общества, мы пока с трудом себе представляем. Но можно набросать несколько сценариев (которые не обязательно окажутся взаимоисключающими).

1Мир станет более открытым и честным, как того хотел Джулиан Ассанж. Вскрывать злоупотребления и преступления, сговоры и закулисные игры, выводить на чистую воду политиков и бизнесменов будет проще. Медиапотребление масс станет более разнообразным и здоровым: не только сенсации, секс и котики, но и новости о важных вещах, которые сейчас обычно остаются на периферии внимания.

2Начнется глобальная война компроматов. Медиа и соцсети станут полем бесконечных информационных конфликтов. Попытки разобраться в лавине компьютерных расследований закончатся разочарованием. Мы так устанем от правды, что просто перестанем следить за новостями.

3Мы сядем на информационную диету, в состав которой будет попадать только самое важное и самое достоверное. Зная, что все самое важное всегда под рукой, мы сможем расслабиться и уделять больше времени семье, друзьям, природе.

4Большинство людей поселятся в информационных пузырях, куда проникает только то, что им нравится. За этим будут тщательно следить не только Facebook и Twitter, но и роботы-редакторы крупных медиаресурсов. Медиапотребление подчинит себе и всякое другое общение: мы будем находить общий язык лишь с теми, кто живет в соседнем пузыре. Слово «истина» потеряет смысл.

У нас пока еще есть время выбрать, какие из этих сценариев станут правдой.