Новости Календарь

Года через три будет ответ на запрос: «Есть такая программка, чтобы я говорил, а она печатала?»

Года через три будет ответ на запрос: «Есть такая программка, чтобы я говорил, а она печатала?» Егор Рябошлык
 В этом году петербургская компания «Центр речевых технологий» (ЦРТ) – ведущий российский разработчик, специализирующийся на сервисах распознания и синтеза речи, – все чаще на слуху. В июне The New York Times рассказала о том, что компания разработала первый банкомат со встроенным детектором лжи. В сентябре совладельцем ЦРТ стал «Газпромбанк». Недавно петербургский разработчик попал в раздел Spy Files сайта WikiLeaks, содержащий список компаний, разработки которых используют спецслужбы разных стран. Впрочем, в самой ЦРТ сотрудничества с правоохранительными органами никогда не скрывали: в Spy Files выложены презентации продуктов компании, которые открыто продаются на рынке. 

До недавнего времени ЦРТ была известна именно как поставщик сервисных решений для организаций, государства и бизнеса. Типичные разработки компании – системы многоканальной аудиозаписи, биометрические системы, профессиональные диктофоны, декодеры, речевые платформы для контакт-центров, технологии шумоочистки и т.д.

Но в этом году в AppStore появилось первое мобильное приложение, разработанное ЦРТ, – голосовой сервис Radio RSS: система автоматически зачитывает анонсы материалов ведущих российских СМИ (среди них, кстати, есть и Slon) в стиле советских дикторов. Веб-версия Radio RSS бесплатна. В AppStore сейчас доступно приложение в бесплатной и платной версиях (десятки дополнительных каналов за $1,9 ). 

Руководитель мобильных и интернет-проектов ЦРТ Егор Рябошлык рассказал Slon, что подтолкнуло компанию к выходу на массовый рынок, и как речевые технологии завоевывают интернет. 

– До появления Radio RSS ЦРТ на интернет-рынке замечена не была. Это единичный эксперимент или часть новой стратегии?

– Radio RSS – это первый самостоятельный продукт ЦРТ для мобильного рынка. На интернет-рынке у нас уже существуют решения, например, веб-сервис синтеза. Ранее мы разрабатывали системы и для крупных игроков Рунета, но вскоре поняли, что можем и должны делать интересные мобильные приложения под собственным брендом. 

Рынок речевых технологий переживает сейчас переломный момент: Google инвестирует в эту технологическую область большие средства, Apple внедрила в последний iPhone сервис Siri, который стал главной фишкой нового устройства. То, о чем много и долго говорили в последние годы, становится реальностью: голосовые разработки оказываются на пике технологической моды. 

ЦРТ на фоне Apple и Google – небольшая компания. Но в России сегодня, пожалуй, ни у кого нет такого опыта работы с голосом, такой базы готовых речевых технологий для русского языка. Мы ставим задачу применять наши промышленные разработки на массовом рынке. И Radio RSS – первая попытка «упаковать» технологию синтеза в понятный и интересный массовому потребителю продукт. 

Что будете делать дальше? Я так понимаю, что на массовом рынке ЦРТ планирует сконцентрироваться именно на мобильных приложениях?

– Будем без дополнительных обновлений добавлять в Radio RSS другие источники. В третьей версии появится и возможность подключения собственных ресурсов. В разработке есть и другие продукты, которые совсем скоро появятся на рынке. Например, есть проект, связанный с биометрией – технологией верификации по голосу: программа «Voice Twin» («Голосовой двойник») позволит сравнивать собственный голос с голосами знаменитостей. Обязательно будет и мобильная книгочиталка с синтезом речи – первый подобный сервис, работающий именно на русском языке. 

В общем, мы последовательно и верно выходим на массовый рынок. Идей много, на все не хватает рук. Для компании, которая ориентируется на серьезные продукты, лишенные развлекательной составляющей, успех первого массового приложения – хороший знак. Пока без особых маркетинговых усилий за 2 месяца аудитория первого  приложения выросла до 20 000 человек.

– Почему речь идет о переломе? Что случилось в сфере речевых технологий в этом году? Что ожидается в следующем?

– Мы перешли рубеж, когда технологии распознавания речи достигли определенной степени совершенства. Это был постепенный процесс, похожий на те, что происходили в других рыночных нишах. Например, в какой-то момент окончательно сложились рынки поисковых систем и социальных сетей: соцсети и поисковики могут быть разными, но технологическая модель у них в большинстве случаев одинаковая. То же самое с речевыми технологиями. Системы, основанные на статистических моделях, научились распознавать речь еще лет 10 назад. Но именно сейчас происходит информационное и технологическое насыщение рынка. Все игроки почти одновременно почувствовали: да, это работает, нам хватает информации и инструментов, чтобы предложить речевые технологии массовому рынку. Это и можно назвать переломом. Большинство пользователей поверило, что эти технологии работают.

– Разработчики собрали достаточный объем речевой информации, чтобы чувствовать себя на этом рынке уверенно?

– Да, в первую очередь это касается формирования речевых баз данных. Все последние годы главная задача компаний, которые работают на этом рынке, – это добыча «речевой руды», которая потом используется для создания голосовых сервисов. И, как следствие, вторая задача – поиск источников этой руды. Показателен пример Google. Есть проект GoogleVoice, запущенный в 2009 году. У нас он известен как внутренний гугловский сервис VoIP-телефонии, не более того. Но на американском рынке у него совершенно другой масштаб. В марте этого года Google объявила о партнерстве с американским оператором Sprint – третьим по количеству абонентов в США (около 50 млн человек). Google Voice с этого момента предустанавливается в мобильные телефоны пользователей Sprint. Можно использовать свой существующий номер Sprint как номер Google Voice, и наоборот – заменить свой Sprint-номер номером Google Voice при звонках и сообщениях с телефона оператора. В принципе, на Google Voice можно замкнуть все свои телефонные номера, пользуясь, соответственно, более дешевой или вообще бесплатной телефонией. Тем самым Google получила доступ к голосовому трафику, который производят десятки миллионов абонентов Sprint, к той самой «речевой руде». Дело в том, что одна из ключевых опций Google Voice – транскрибирование голосового сообщения. Голосовой трафик расшифровывается и сохраняется в виде текста в почте пользователя. Все вместе – голос плюс его расшифровка – уникальный ресурс. Речевая база не может быть полноценной, пока звуку нет текстового соответствия. У Google теперь есть и то, и другое, причем пополнение речевой базы в результате происходит автоматически. Система начинает работать сама на себя.

– Google открыто признает, что использует для анализа и обработки голосовой трафик пользователей? Или это просто логичная версия?

– У Google есть такие возможности, и тут в общем-то нет ничего секретного, просто об этом они громко не заявляют, чтобы не пугать подозрительных пользователей. Для транскрибирования голос в любом случае проходит через сервера компании. Там же он и обрабатывается. Основная задача Google и других компаний сегодня – сесть на бесконечный источник речевого трафика. Это позволит постоянно перестраивать свои языковые модели под то, как говорят люди, и совершенствовать голосовые сервисы. Понятно, что Google Voice не единственный источник информации. Это большой довесок к тому, что у компании уже есть. Например, не менее важным источником пополнения речевой базы является голосовой поиск Google Voice Search. Посмотрите, он очень корректно работает и в вебе, и на мобильных устройствах, на разных языках, намного лучше, чем еще 2 года назад. Google собрал первичную речевую базу русского языка, сделал на ее основе сервис и вывел на рынок. Но дальше система начинает «тренироваться» и развиваться уже за счет пользователей. Каждый новый голосовой запрос – это маленький шаг системы вперед. Кстати, в настройках на Android можно поставить галочку и согласиться с тем, что Google будет собирать персонализированную информацию по вашему голосу. Бесспорно, это еще один способ улучшения речевых моделей.

– Голосовой поиск, телефония, голосовой переводчик, голосовой секретарь – где еще Google¸ кроме этих основных направлений, сможет применить свою выдающуюся базу? 

– Сегодня Google остается в рамках «запросной модели»: есть запрос, произнеси его, получи текстовый ответ. И пока не заметно, чтобы они пытались выходить за ее пределы. Другое дело, что запросы тоже бывают разные, есть большое пространство для развития: сегодня это короткие поисковые запросы, слова и небольшие предложения, завтра – сложносочиненные вопросы, на которые система будет давать конкретный ответ. Но у Google, как у любой коммерческой компании, очень простая логика: развиваем то, что можно превратить в постоянный источник дохода. Запросы прекрасно монетизируются за счет контекстной рекламы. А после того, как появился Google Voice, возможности компании в этом плане становятся почти безграничными. Google умеет предлагать пользователям контекстную рекламу, анализируя слова в наших письмах или запросы в поисковой системе. Теперь компания может анализировать еще и голос, точнее – его расшифровку. Что может быть ценнее для «контекста», чем голосовой трафик? Письма и поисковые запросы – чаще всего выверенные действия. Голосовой трафик – это поток чувств, это живая речь, она спонтанна, эмоциональна, сокровенна. Эти чувства компания и будет учиться продавать рекламодателям. И я думаю, что здесь, как и в случае с контекстной рекламой, не обойтись без мозгового штурма стэнфордских профессоров, которые соберутся вместе и придумают очередную схему «четырехсот сравнительно честных способов отъема денег у населения».

– Другой игрок на этом рынке – Apple. Почему голосовое приложение Siri на iPhone 4S привлекло столько внимания? Это неординарность технологии или удачная презентация?

– Apple, как всегда, удалось удачно презентовать продукт. Ведь что такое Siri в последнем iPhone? Это такой робот, о котором все давно мечтают. Он с тобой разговаривает, отвечает на твои вопросы. С точки зрения интерфейса, сервис можно было реализовать по-разному. Но в Apple, видимо, заметили, что роботы, использующие синтез и распознавание речи и представленные в виде виртуальных «говорящих голов», на рынке, что называется, «не пошли». Было несколько примеров, которые доказывали, что «говорящая голова» потребителем воспринимается не очень хорошо: либо пугает, либо раздражает. В Apple сделали робота, но отказались от концепции «говорящей головы». Смартфон сам по себе и есть «говорящая голова». 

Несмотря на то, что с Siri, как мне кажется, уже в общем-то наигрались и основной информационный шум уже сошел, все же Siri – это последнее завещание Стива Джобса. Очевидно, он долго и целенаправленно шел к тому, чтобы выпустить на рынок устройство, понимающее и имитирующее человеческую речь. Еще в 1984 году он показывает Macintosh, который на презентации представляет себя сам. Джобс буквально передал ему слово. Не случайно в свое время c Techcrunch разошлась информация, что Apple планирует купить компанию Nuance – мирового лидера речевых технологий с 6-миллиардной капитализацией. Что-то тогда Apple остановило. Но сам факт намерений говорит о многом. Кстати, технология Siri базируется на системе распознавания голоса, которую предоставляет именно Nuance, вот только, Apple об этом громко не заявляет, потому что, бесспорно, такое упоминание «дорогого стоит».

– Можно ли сказать, что кто-то из ключевых игроков рынка сегодня обладает уникальной компетенцией, эксклюзивными знаниями и технологиями в этой области? Есть ли у кого-то очевидное технологическое преимущество? Или на этом этапе вся конкуренция происходит на уровне концепций, маркетинга и «упаковки»?

– Прорывных технологий сейчас нет ни у кого. Все находятся примерно на одном уровне. О чем говорить, если костяк команды Google, занимающейся речевыми технологиями, примерно на 50–60% состоит из бывших специалистов Nuance. А мобильное подразделение Google возглавляет Хьюго Барра – бывший глава Nuance (Это, кстати, лишний раз подтверждает, что мобильная стратегия компании напрямую связана с развитием речевых технологий). Команды скупаются на корню, разработчики перетекают из одной компании в другую. Разница будет в речевых моделях, интерфейсах и в источниках данных. Можно собирать трафик голосовых интернет-запросов и на основе этого строить систему. Можно собирать трафик неструктурированной телефонной речи – и это будет уже другая система, ориентированная на иные задачи. 

И, думаю, в ближайшие лет 5 прорыва ждать не стоит. Игроки рынка продолжат собирать «руду», системы будут эволюционировать. Но можно рассчитывать, что уже года через три будет дан ответ на вечный запрос современного человека: «Слушай, а есть уже такая программка, чтобы я говорил, а она печатала?» Через несколько лет нас ждет другой уровень понимания человеческой речи, системы распознавания будут настолько натренированными, что вы будете сразу отправлять интервью с диктофона в виде уже готового текста куда-нибудь в редакционное «облако». Чем больше данных мы накопим, чем больше различных звуковых условий учтем, тем правильнее системы их будут использовать. Другое дело, что мы не должны обманываться – о совершенных системах говорить сейчас еще рано. В этой области, как и в любой другой, где есть большой коммерческий потенциал, много маркетинговых мифов.

– Каких?

– Главный миф в том, что уже есть распознание неструктурированной, свободной речи, что машины нас уже готовы понимать, что осталось совсем немного, накопим данных – и бытовые приборы заговорят. Ключевой вопрос здесь заключается в возможности понимания как такового. Могут быть разные трактовки, но среди прочего «понимание» – это достраивание смысла на основе личного опыта. У меня есть личный опыт, я точно знаю, скажем, что после моих слов вы не поведете себя неадекватно, и потому я их спокойно произношу. Личный опыт, конечно, определяет и смысл информации. По большему счету, даже люди друг друга не понимают. И как сделать так, чтобы тебя понимали роботы, пока вопрос непостижимый.

И Google активно работает над этим мифом. Они выносят за скобки философский вопрос о том, что понимание невозможно, сражаются с таким важным элементом, как недопонимание. Мне кажется, что они глубоко уверены, что чем больше соберут материала, чем больше накопят паттернов поведения людей из разных сред и ситуаций, в разных шумовых обстановках, чем больше учтут разных нюансов в речи, тем более достоверной будет система, которая поймет все, вплоть до интонаций, оговорок, слов-паразитов и т.д. В этом всем – великая вера американцев в то, что мы можем все понять, основываясь на бесконечном переборе бесконечных вариаций.

 Вы со своей стороны собираетесь этот миф активно развенчивать?

– Скажем так, несмотря на глубокую уверенность в том, что зазор непонимания все равно останется, мы не так давно также вышли в область того, что на Западе называют edutament, сделали образовательно-развлекательный интернет-проект «Фабрика речи», на котором выкладываем и обзоры речевых технологий и показываем, на что современные речевые технологии способны, например, озвучили синтезом ролики известной конференции TED.com, скоро сделаем голосовой тир, ну и много других интересных вещей.

Предыдущий материал

Как компания из Китая отобрала iPad у Apple

Следующий материал

RIM решила похоронить себя заживо