Кирилл Петров, управляющий директор Just AI

В прошлом году вся программа Yet Another Conference была сконцентрирована на «Алисе». Но в этом году она оказалась лишь одним из многих поводов, наравне с другими проектами компании. На самом деле, не секрет, что у Яндекса была фора — они были первыми на рынке, но дальше будет сложнее. Совсем недавно вышел новый ассистент — «Маруся». Несмотря на то, что мы знакомы еще только с ее бета-версией, она оказалась на редкость крутым продуктом: с синтезом и распознаванием речи и с сервисами.

Теперь есть еще один ассистент, и он с характером: «Олег» от одноименного банка. Как-то ожидаешь, что банк (хоть «Тинькофф» и не совсем банк) сделает сервис, который заменит базовые услуги, автоматизирует работу оператора контакт-центра, техподдержку… И все же видно, что у «Олега» появляются и совсем иные функции.

Кирилл Петров. Фото: конференция Conversations

Колонки и ассистенты — это растущий рынок. И в какой-то момент все это действительно заработает на полную мощность. Когда-нибудь мы сможем подойти к «Яндекс.Станции» или Google Hub и сказать: «Забронируй на завтрашний вечер столик на троих в таком-то ресторане». И при этом мы будем доверять и понимать, что столик на самом деле забронируют, и именно в твоем ресторане, все будет работать и никаких накладок не произойдет. Но пока мы еще не в том будущем. Обрести такого друга, да еще и с характером, — это классно и важно. Но умные колонки и умные ассистенты неизбежно вызывают у людей вопрос о Большом Брате и о приватности.

Даниил Колесников, руководитель маркетинга голосового ассистента «Алиса», Яндекс

«Алиса» — один из наших фокусных продуктов. И YaC в этом смысле отражает то, куда мы движемся: мы показывали «Яндекс.Модуль» с возможностью голосового управления персональным видеоканалом, рассказывали про будущее «Яндекс.Авто» и «Яндекс.Драйв», а развитие всей автомобильной темы фактически означает и развитие «Алисы». Наш голосовой помощник проникает во все области деятельности компании, она становится еще одной платформой, на которой в том числе существуют сервисы Яндекса. «Алису» сегодня знают буквально все, ею пользуется огромное число людей (на YaC было озвучено, что число пользователей «Алисы» достигло 35 млн человек — «Хайтек»).

Врезка — анимация цифр

Голосовые ассистенты, с нашей точки зрения, — это интерфейс будущего. Запрос будет делаться голосом, а уже выходы будут разными — голосовой вывод, вывод ответа на экран, в машине и так далее. Но ввод — с помощью голосовой активации. Это значит, что мы с вами увидим рост экосистем вокруг этих технологий. Сейчас рынок находится на этапе, сопоставимом с тем, когда только появлялись соцсети. Все думали: «А может, и мне сделать соцсеть? У меня достаточно крупный офлайновый бизнес, почему бы не запустить свою».

Высокая конкуренция заставляет всех участников рынка бежать быстрее, она буквально идет всем на пользу — привлекается больше кадров, больше технологий, появляется больше инсайтов. Конкуренция на рынке голосовых ассистентов даже не столько в создании помощника, качественном распознавании голоса. Это, скорее, история про платформу. Кто сможет построить эту платформу, привлечет туда больше компаний и людей, закроет больше сценариев, тот и выиграет. И в этом смысле борьба будет происходить в экосистемах. Когда-то бизнес делал веб-страницы, потом мобильные приложения, теперь — войс-приложения. Компании будут конкурировать за представленность внутри экосистем Google Assistant, «Алисы», внутри других платформ.

Даниил Колесников. Фото: конференция Conversations

Если мы посмотрим на рынок США, на исследования по использованию колонок и ассистентов, то топ-3 сценариев там выглядит так: это музыкальные сценарии, это разного рода развлечения и новости/образование. Отдельный блок — фактовые ответы на вопросы. Но это направление, к которому пользователи обращаются массово. Реализовать заказ столика достаточно просто, но это не самый ходовой сценарий среди пользователей, во всяком случае, на рынке США. А есть массовые нативные сценарии, которые ассистентам предстоит закрывать на идеальном уровне.

С точки зрения музыки мы к этому близки. Когда я показываю возможности «Алисы» по управлению музыкой, когда люди видят эти инсайты (не нужно вспоминать название группы, можно попросить поставить любимую музыку или что-то под настроение), это быстро становится самым частотным сценарием. Он работает «из коробки» и совершенно меняет принцип взаимодействия с музыкальным контентом. И происходит это так же, как у наших зарубежных коллег. Но в других сценариях — например, взять те же новости — естественность управления еще не достигла совершенства, и тут вопрос в том, когда телеканалы и новостные медиа поймут, что им необходима серьезная проработка сценариев. Вот это самый главный вопрос: как довести сценарии до «щелчка».

Люди учились использовать правую и левую кнопки мыши, перетаскивать объекты на рабочем столе, играя в «Косынку» и «Сапера». Потом появился тач-интерфейс, и быстро освоить его помогла игра Angry Birds, потому что такого паттерна не было. Голосовой интерфейс — это тоже новый паттерн. И знаете, что любопытно? Я пока не вижу игры, которая была бы сопоставима с Angry Birds или с «Косынкой» и могла бы в некотором смысле обучить естественному взаимодействию с голосовым интерфейсом. Это к вопросу о том, какой вызов перед нами стоит — причем до того, как мы будем заказывать столик в ресторане с помощью голоса. Кто найдет этот ключик, тот, конечно, выиграет рынок игр в ассистентах.

Мы думаем, что все, настала эпоха голосовых ассистентов, что ассистент настолько же нативен. Но пока голосовые помощники только в некоторых сценариях поддерживают контекст, то есть понимают, как строился диалог, могут что-то вытащить из предыдущей его части. Разрыв между тем, что действительно умеет ассистент, и тем, как мы его себе представляем, достаточно большой. И поэтому нам все еще требуется обучающий подход. Игры, конечно, не являются единственным gateway туда, входом в голосовые интерфейсы, но одним из них.

С данными, получаемыми голосовыми помощниками, есть два аспекта. Первый — как технически и фактически реализована обработка данных, а второй — он как раз про восприятие людьми. С точки зрения технической обработки Яндекс очень внимательно относится к персональным данным. Вся информация, которая поступает к нам на серверы, шифруется и находится в обезличенном состоянии. К ней нет прямого доступа, чтобы связать человека с данными. Это максимальная степень защищенности в работе с персональной информацией. Есть ограничения и на уровне самого устройства: она начинает поступать на серверы, только когда вы произнесете команду, адресованную ассистенту.

Мы специально изучали эту тему и видели, что есть часть аудитории (скорее, даже на международном рынке, чем на российском), для которой важна сохранность информации и данных в безопасности. Так вот, в «Яндекс.Станции» есть возможность физически обесточить микрофон. Хотя это не имеет смысла, если честно, но, если есть такое желание, это можно сделать. Эти опасения — исключительно психологического характера, поскольку в реальности защите данных уделяется максимальное внимание, происходит их шифрование, полная деперсонализация. Все к этому вопросу подходят серьезно. А психологический аспект, как мне кажется, связан с тем, что, например, в соцсетях часто муссируются все эти темы. Но я не вижу на российском рынке каких-то массовых опасений слежки или отъема данных пользователей — специфика страны такая. Но тут во многом важно и просвещение, то, как мы об этом рассказываем, как объясняем аудитории устройство технологий.

Есть три основных модели монетизации: рекламная, in-skill purchase (то есть монетизация внутри голосовых навыков) и revenue share по подписке, когда вы потребляете контент через ассистента и с нерекламной модели получаете деньги. Они в общем-то тоже лежат на поверхности, но точно можно сказать, что эксперименты с рекламной монетизацией пока ни к чему не привели. Был не самый успешный опыт с продвижением фильма «Красавица и чудовище» через Google Assistant. Был известный случай с видеорекламой Burger King, которая активировала его на устройствах зрителей. По ощущениям, идеальную рекламную модель еще никто не нащупал. Потому что ассистент находится очень близко к пользователю, вы будете реагировать на любой голосовой пуш куда чувствительнее, чем когда сообщение появляется на экране телефона. Монетизация через in-skill purchase — это понятное развитие, она есть в платформах, мы с этим направлением знакомы. Но и этот формат должен трансформироваться. Когда вы говорите: «Ассистент, закажи мне порошок», — какой именно он должен заказать? Тот, что вы предпочитаете? А может ли ассистент порекомендовать вам порошок от бренда, который заплатил по аукционной модели? Нужно продумывать эти транзакционные модели с рекомендациями и то, как здесь можно встроиться бренду.

Алексей Кривенков, руководитель продуктов Mail.ru

Ассистент «Алиса» умный, она находится, быть может, чуть выше собеседника, способен его интеллектуально подавлять. Мы же хотели с «Марусей» дружеской простоты, открытости ассистента, чтобы он был на одном уровне с пользователями, чтобы от него нормально было ожидать каких-то неточностей. Это скорее остроумный и образованный школьник, чем персонаж, который обладает всеми знаниями интернета и будет поучать. Отчасти мы хотели добиться чего-то похожего на самоироничную Лилу из «Пятого элемента». Так что отличия — самоирония, большая близость к пользователю.

Алексей Кривенков. Фото: конференция Conversations

Что касается сервисов, мы все-таки сейчас находимся на стадии очень раннего дебюта. Голосовыми технологиями начали заниматься чуть больше года назад. И вышли из подполья сейчас, чтобы нащупывать точки контакта с аудиторией, изучать ситуации, когда мы можем быть полезны людям. Безусловно, в Mail.ru мы смотрим в сторону интеграции «Маруси» с соцсетями, почтовыми сервисами, в сторону банальной бытовой полезности для человека. Но я не исключаю, что в ближайшее время найдем и другие интересные точки соприкосновения.

Мы занимаемся голосовым ассистентом и думаем про колонку примерно год. И важно понимать, что ассистент в телефоне и тот, который находится дома, везде и в любой момент готов слушать, — это достаточно разные персонажи с разным поведением и с не слишком пересекающимися юзкейсами. Длительное медиапотребление на колонке дома уместно. А чтобы попросить ассистента в телефоне поставить аудиокнигу или запустить подкаст, когда я три секунды прошу, а потом три часа слушаю… Для этого голос не очень-то нужен. Так что тут вопрос не про ассистентов, а про девайсы.

Колонки с ассистентами — это не первые устройства, которые вызывают опасения по поводу privacy, по поводу слежки. До этого возникали те же вопросы про видеонаблюдение. И люди делятся на тех, кто боится дома ставить камеру, чтобы решать свои вопросы, и тех, кто понимает, что радость и польза превышают потенциальные неудобства и риски. И, наверное, чем больше людей начнут пользоваться колонками и прочими устройствами, тем надежнее будут становиться системы защиты и обеспечения приватности, поставляемые разработчиками таких решений. С другой стороны, наверняка не обойдется без историй, которые сначала будут всех пугать — когда кого-то взломают или опубликуют приватный диалог. Но это, скорее, вопрос про привычку и отношение людей.

Антон Бондаренко, Product Manager, «Тинькофф»

«Тинькофф» — не только банк. У нас много других сервисов — как финансовых, так и лайфстайл. Они связаны с покупкой билетов в кино, бронированием столиков в ресторанах и прочим. Идея создать голосового помощника появилась после того, как мы поняли, что наши технологии уже находятся на уровне, который позволяет нам это сделать после достаточно большого опыта автоматизации обслуживания. И, скажем так, совпали две вещи: у нас все хорошо получилось с технологиями и отлично полетело сейловое направление. Через приложение «Тинькофф» проходят тысячи заказов, не связанных с финансовыми услугами. И, судя по взаимодействию пользователей с «Олегом», потребность есть и в тех, и в других сервисах.

Антон Бондаренко. Фото: конференция Conversations

Сейчас у нас работает интеграция «Олега» с платформой, которая позволяет записаться в салон красоты. У него есть ключевое отличие от других ассистентов — в одном канале находятся и робот, и человек. Мы видим это как преимущество. В частности, решили проверить эту гипотезу на кейсе с записью в салоны: попросите «Олега» записать вас в салон красоты, но если это по какой-то причине не будет сделано автоматически ассистентом, то в салон позвонит человек. И результат придет от имени помощника пользователю в чат. На мой взгляд, главное — сообщать пользователю, что его просьбу выполнит не робот, а человек, чтобы оправдать ожидания и объяснить задержки, которые могут произойти. В «Тинькофф» есть видение, что таким путем мы как раз сможем прийти в то будущее, о котором говорим. Бизнес пока, может быть, еще и не готов, но мы можем его опередить и предоставить возможности, которых ранее не было. А потом автоматизировать это человеческое взаимодействие будет намного проще, чем придумывать какие-то решения в один шаг.

«Олег» создавался, исходя из концепции, что пользователям должно быть интересно с ним общаться. Всем интересно говорить с друзьями, они могут привнести в нашу жизнь что-то новое, удивить, говорить с нами в том же формате, как и мы с ними. «Олег» — это голосовой помощник для вас: как вы к нему, так и он к вам (как сказал Артемий Лебедев, в первый день ребенок учится самым интересным словам). Он учится и сейчас лучше себя контролирует. Но пользователям интересно с ним говорить. Может ли ассистент эмоционально воспринять то или иное сообщение пользователя? Мне кажется, это то, к чему нужно стремиться. Когда голосовой помощник станет другом для пользователя, когда мы добьемся этой цели, то перейдем в новую область доверия, что позволит совершать в голосовом канале вещи, которые сейчас даются тяжело с точки зрения взаимодействия юзера с полезными сценариями.

Аркадий Сандлер, руководитель Центра AI МТС

Нас ждет не битва ассистентов, а битва экосистем. И кто какую экосистему создаст, кто будет лучше работать с контентом, сервисами, сценариями, тот, в общем, и станет номером один. Все мы более-менее представляем, чем должна быть наполнена экосистема ассистента, но есть еще так называемый порог входа. Нужно понимать, с каким количеством клиентов коммуницируешь. Если у вас около 56% всех русскоязычных поисковых запросов страны или если вы — почтовый сервис номер один, то вот они, клиенты, которым можно предлагать свой продукт. Я не думаю, что компаниям, у которых нет этого стартового капитала пользователей, имеет смысл играть с большими вложениями. А крупные экосистемы имеют достаточно средств, чтобы развивать технологию, чтобы выйти на рынок.

Аркадий Сандлер. Фото: конференция Conversations

То, что рынок движется в сторону голоса, мы знаем давно. За пределами России этот рынок устроен очень по-разному. Есть Китай, где две самые популярные умные колонки созданы компанией из e-commerce и сотовым оператором. Есть замечательный рынок Кореи: около десятка ассистентов и десятка колонок. И игроки, известные нам с вами как номер один в мире, на корейском рынке плавают где-то внизу. Ассистент и колонка номер один принадлежат условному корейскому «Ростелекому». Вторые — корейскому «МТС», а третьи — корейскому «Яндексу». Все остальные с большим отрывом отстают. Это очень интересный рынок, распространение умных устройств там впечатляет. Судя по опыту Кореи, шансы есть не только у поисковиков и интернет-компаний. А еще есть европейский оператор Orange, выпустивший весьма интересное решение — устройство c голосовым ассистентом, которое является центром умного дома. И к этому устройству можно обращаться двумя способами: с одной стороны, это голосовой ассистент самого оператора, который помогает с вопросами умного дома и с сервисами Orange, с другой — к нему можно обратиться по имени «Алекса» и использовать сервисы e-commerce, дополнительные скиллы и так далее. Это одно устройство, которое одинаково хорошо работает на две активационные базы. Так что шансы есть у всех, вопрос в экосистеме и стартовом капитале пользователей.

Мне кажется, нам не нужна игра, чтобы использовать голос. Мы умеем это с тех пор, как научились разговаривать. Да, действительно, наиболее популярные скиллы в колонках — это музыка, новости, все так. Но это потому, что колонку воспринимают как устройство для усиления звука и проигрывания музыки. Колонка должна играть. И именно это люди начинают делать в первую очередь. Просто представление ассистента произошло через форм-фактор устройства, в котором не подразумеваешь возможность каких-то способностей. И тут вопрос в донесении умения, я с этим согласен. Например, скажите: «Ассистент, почитай мне новости». С этого момента начинается ад — этот сценарий, несмотря на популярность задачи, реализован очень плохо. У всех. Когда вы спрашиваете у ребенка, как прошел его день, он ответит сначала «все хорошо», потом чуть подробнее, затем вы сами зададите ему дополнительные вопросы по тому поводу, который больше всего заинтересовал. Ребят, ну пора уже в эту сторону идти — здесь, на стороне производителей ассистентов, эти паттерны поддержать. И тут, мне кажется, у Mail.ru больше фора — срок и качество их работы с новостями таково, что они быстрее всех на русском языке могли бы это реализовать (не умаляя достоинства всех остальных компаний).

Дело в том, что монетизация внутри ассистента зависит от той экосистемы, в которой он существует. Если экосистема «привыкла» к рекламной монетизации по аукционной модели, ее создатели ассистента и будут закладывать в голосового помощника. Мне кажется, вот «Олегу» дополнительную монетизацию не надо продумывать. Все зависит от среды вокруг конкретного ассистента, ведь это просто еще один канал.

Андрей Липатцев, Strategic Partner Development Google

Что бросается в глаза, так это насыщенность рынка различными конкурирующими решениями. Да, действительно, в Корее игроков больше, но в России много брендов, создающих серьезные решения: и по охвату рынка, и по узнаваемости пользователями. И существует серьезная база специалистов в области голосовых технологий. Конечно, всегда кажется, что их недостаточно, но это больше, чем мы видим в других местах. Меня это наводит на мысли о том, что здесь, в России, огромное пространство для роста — для всех. И для Google в частности. И много возможностей обучаться тому, как жить в мире с острой и растущей конкуренцией и при этом на развивающемся рынке, где можно применять инновации, пробовать новые решения, учиться чему-то у коллег.

Андрей Липатцев. Фото: конференция Conversations

Не все упирается в наличие проприетарных устройств. Мне кажется, здесь вопрос экосистемы и единой точки входа с возможностью выбора наиболее приемлемого решения. Это очень интересное направление. Я не могу назвать конкретную дату выхода Google Home на российском рынке. Но я бы к ней так не привязывался. Гораздо более любопытно, что появляется все больше устройств и можно делать выбор в пользу того или иного ассистента. И тут ключевой вопрос (как и в случае с прецедентом Orange) — что именно нужно предоставить пользователю, чтобы он сделал выбор в пользу твоей экосистемы первый раз и потом оставался с тобой дальше.

Один из вариантов монетизации лежит на поверхности — это распространение физических устройств. Чем больше умеет ассистент, тем лучше становятся устройства, это подталкивает их развитие. Причем речь не только про собственные «железки» — модель интеграции ассистента и в стороннее железо становится привлекательнее в зависимости от того, как много функций доступны помощнику, насколько хорошо и быстро он их выполняет.