Искусственный интеллект
Следующая большая техническая революция произойдет в вашем ухе


Эксперты в области пользовательского восприятия, искусственного интеллекта и дизайна продуктов оценивают новую веху в обработке данных
«Как бы я хотел прикоснуться к тебе», — говорит Теодор, лежа в кровати. Его встречает молчание. Отторжение. Пока она не говорит нерешительно: «Как бы ты прикоснулся ко мне?»
Это совершенно пронзительная сцена из фильма «Она», в которой персонаж по имени Теодор собирается заняться любовью с искусственным интеллектом, живущим в его ухе. Но вспомогательные устройства, которые вставляются в ухо, — уже не научная фантастика. Они становятся неизбежной реальностью.
© 2013 Warner Bros. Entertainment Inc.
На самом деле, сегодня заметное количество скрытых беспроводных наушников, подтверждающих эту идею, уже появляются на рынке. Sony недавно выпустила свою первую «ушную» гарнитуру Xperia Ear, Intel показала в прошлом году опытный образец подобного рода. Гарнитура Bragi Dash, способная говорить и мониторить состояние здоровья, скоро будет запущена на Kickstarter. Другой стартап, Here, уже собрал 17 миллионов долларов, для того чтобы выйти на рынок умных наушников. Apple собирается убрать разъем для наушников в будущих iPhone и заменить их парой беспроводных наушников Beats. «Люди и понятия не имеют о том, как близко мы подобрались к фильму "Она"», — говорит Марк Стивен Мидоус, основатель фирмы Botanic.io, разрабатывающей разговорный интерфейс.

Но чтобы достичь сильных «феротонов» Скарлетт Йоханссон, нам для начала надо решить значительные культурные, эргономические проблемы и проблемы технического дизайна.
Момент голосового управления iPhone
Отчасти благодаря успеху Amazon с голосовым управлением (компания выпустила две новых версии Echo) разговор с компьютером дома наконец-то ощущается прямо-таки по-домашнему. Но пока у Amazon есть узнаваемость бренда, согласно исследованию MindMeld, только 4% пользователей смартфонов использовали Alexa. В то же время, 62% этого рынка занято искусственным интеллектом с голосовым управлением, вроде Siri, Google Now и Cortana. Вот почему ранний успех Echo в этом пространстве вскоре может затмиться новой волной персональных девайсов от Sony, Apple и небольшого количества стартапов. Это если только Amazon не найдет способа «пробраться вам в ухо».
Bragi
Siri или Alexa смогут «свернуться калачиком» рядом с вашей барабанной перепонкой
Эта категория продуктов — ушная гарнитура, которая может слышать и отвечать глубоким шепотом — достаточно нова. Примечательно, что эксперты отрасли верят: эта технология появится на рынке в течение нескольких лет. Представьте себе персонального ассистента, делающего записи о ваших разговорах; полезного помощника, автоматически ищущего на IMDb имя актрисы, которое вы не можете вспомнить; компаньона, который выслушает ваши проблемы и даже окажет психологическую помощь, параллельно консультируясь с коллективным разумом экспертов в отрасли. Новый форм-фактор (скрытый беспроводной динамик и микрофон, помещённый в ваше ухо) будто бы выплыл из научно-фантастического произведения, но именно он сейчас набирает популярность на рынке.
Новый уровень близости… Но с кем?
Внутренняя близость этих устройств будет диктовать, как и где их использовать. Любой прохожий может увидеть, что у вас на экране компьютера. Даже наши телефоны не являются полностью частными. Но даже если бы ИИ был не в курсе ваших потаенных секретов, он все равно находится в вашем ухе.
Here Active Listening — беспроводные наушники
«Через Apple Watch я обращаюсь к машине. Я разговариваю с вещью на своем запястье. Это по-прежнему очень специфичная функция», — говорит Марк Ролстон, бывший директор по работе с клиентами Frog и основатель Argodesign. — В свою очередь, у идеи того, что в моей голове есть еще кто-то, гораздо более глубокие психологические последствия».
Ролстон полагает, что природа этого приватного интерфейса изменит наши отношения с ИИ. Вы буквально будете полагаться на него в наиболее интимных вопросах. Хотя вы можете и не захотеть, чтобы Apple Watch напоминали, что пора принимать контрацептивы, голос, который будете слышать только вы, будет говорить вам о том же, только в абсолютно приемлемом ключе. И со временем любое задание, которое слишком неудобно искать в телефоне в присутствии людей, можно будет легко выполнить с помощью находящегося в вашем ухе ИИ.
«Представьте себе, что я слушаю вас правым ухом, а Siri дает мне подсказки в левое, — говорит Ролстон. — И я беру потрясающее интервью, потому что компьютер параллельно подкидывает мне дополнительные вопросы и идеи».
В то же время к голосу в ухе легко привыкнуть. Пользователи могут начать почитать эти платформы как всеведущих богов, а не как программное обеспечение, и будут горько разочарованы.
Эта несоизмеримость между тем, что ИИ-ассистент может сделать для нас, и тем, что мы ожидаем от технологии, уже является проблемой для существующих ИИ-технологий вроде Siri. «Если вы преждевременно пойдете слишком быстро, у вас будет слишком много тупиковых ситуаций, в которых программа не сработает», — говорит Дэн Айзенхардт, главный управляющий подразделения Headworn для группы новых устройств компании Intel. «Что до Siri, я продолжаю давать ей шанс, но один или два раза за день она не работает, и я разочарован... Так что я практически ее не использую».
В Intel Айзенхардт решает эту проблему, создавая основанные на звуке переносные приборы, заточенные под более определенные контексты. Во время Выставки бытовой электроники в Лас-Вегасе Intel дебютировала с технологией под названием Радар. Это комбинация очков и наушников, которая позволяет бегунам и велосипедистам задавать вопросы вроде «как далеко я пробежал?» или «каков мой сердечный ритм?». Поскольку эта система знает вас, она может быть персонализирована. К примеру, вы интересуетесь своим пульсом, а затем обращаетесь к ней позже с вопросом «ну как теперь?». Система поймет, что вы все еще говорите о пульсе.
Intel
Что ещё неизвестного в ушных гарнитурах? Будет ли с нами всеми разговаривать одна и та же «личность», или каждая компания будет разрабатывать своих собственных голосовых ассистентов? До сих пор различные компании пытались адаптировать Alexa от Amazon для управления своими приложениями или продуктами. Но они постепенно пытаются создать собственных голосовых ассистентов.
«С Alexa я могу заказать пиццу Domino или Uber. Но это все компании, которые тратят миллионы долларов на установку своего голоса в качестве бренда, — говорит Ролстон. — Скоро наступит время, когда это смогут сделать сотни тысяч брендов, но они должны быть записаны в ядро Siri и Alexa. Однако последние не очень хороши в качестве представителей пиццерии, которая находится за углом. Мне нужен настоящий доставщик пиццы, а не Алекса».
«Решением может быть создание отдельного голоса под каждый бренд, — продолжает Ролстон. — Таким образом, если у меня есть приложение внутри Siri, то это — пиццерия. И я обращаюсь к ней не "Эй, Siri", а "Эй, Pizza Pizza". Поскольку эти ребята производят пиццу и хотят быть самими собой».
Решение
В Botanic Марк Мидоус предложил потенциальное решение: «аватары». Это дополнительные «личности» для чат-ботов, с которыми вы можете говорить. Эти личности могут информироваться экспертами. Так, например, психологи могли бы поделиться своими коллективными знаниями через единого виртуального психолога, а механик мог бы помочь коллективному виртуальному механику. Мидоус фактически запатентовал систему оценки для этих аватаров, потому что, как он объясняет, люди абсурдно доверчивы по отношению к машинам – и такая близость дает им невероятную власть.

Мидоус указывает на McDonald's, который превратил коробки Happy Meal в гарнитуры виртуальной реальности. Он предполагает, что фастфуд-рестораны могли бы использовать такую технологию, чтобы создать аватар Рональда Макдональда, который бы разговаривал непосредственно с ребенком. И за этим разговором вы как родитель не смогли бы наблюдать. «Отношения [с аватаром] дает брендам возможность втираться в доверие ребёнку так глубоко и так эмоционально, что Рональд Макдональд будет не просто странным клоуном, которого он видит по телевизору, но очень близким другом, который нашептывает ему советы».
Мидоус думает, что система оценки могла бы послужить противовесом злоупотреблениям этой властью. Он запатентовал «номерной знак», который мог бы стать идентификатором для всех пользователей ИИ и помочь в определении потенциальных злоумышленников. Технология стоит на пересечении авторизации в Twitter и системы рейтингов, которые вам известны по Amazon.
Инфраструктурный вызов
Для пользователя iPhone Siri представляет собой не более чем обновление программного обеспечения. Поэтому ее реальная стоимость невидима. Вся информация по этому вопросу спрятана в Северной Каролине, где Apple, прежде чем развернуть технологию Siri, создала за миллиард долларов первый в мире информационный центр. Облако, как оказывается, действительно существует. И оно стоит дорого. Скрытая цена вычислений таких ассистентов объясняет, почему Amazon, который держит одну из самых больших серверных сетей на планете, настолько доминирует в сегменте речевого интеллекта. Даже сейчас наших серверных мощностей недостаточно, чтобы воплотить будущее, как в фильме "Она". Мало того, они не смогли бы повысить уровень даже нашей современницы — относительно тупой Siri.
«Если каждый человек на планете сегодня захочет взаимодействовать с Siri или Cortana постоянно, дата-центры просто не потянут такого рода нагрузку, — говорит Джейсон Марс, ассистент профессора в Университете Мичигана и содиректор Clarity-Lab. — Есть определенный масштаб, которого мы не может пока достичь технологически. Та же ситуация и с мобильными телефонами: ну не могут все телефоны мира одновременно качать видео с интернета. Нам просто не хватит на это коммуникационных мощностей. Точно так же у нас нет в распоряжении вычислительной инфраструктуры, способной поддерживать постоянные разговоры миллиардов людей с умными ассистентами».
Марс считает, что сегодня Siri невозможно поднять на новый уровень. «Достаточно лишь немного улучшить качество или увеличить количество пользователей, чтобы стоимость зашкалила». Чем умнее становится ИИ, тем больше мощностей он требует. Решение не просто в том, чтобы присоединить дополнительные серверные центры. Нам требуется на порядок увеличить скорость обработки информации по сравнению с нынешним уровнем. Вот почему в своей лаборатории Марс исследует возможности для увеличения мощности серверов в 10, а то и в 100 раз.
Sony
Таким образом, неясно, возможно ли даже предоставить необходимую вычислительную "огневую мощь", чтобы сделать этих ассистентов вездесущими. Если инфраструктура может только поддерживать малый сегмент пользователей, как компании выберут тех, кто получит технологию первым? И насколько умнее будут те люди всех остальных? Марс верит, что ушные гарнитуры очень быстро станут помехой для работы серверов. Что произойдет потом, остается лишь догадываться.
Разработка аппаратной составляющей внутри уха
Конечно, серверные парки – всего лишь одна часть аппаратной проблемы. Просто потому, что умные наушники уже продаются, не означает, что они будут хорошо работать в час пик. И Гади Амит, основатель дизайнерской фирмы NewDealDesign из Кремниевой долины, считает, что сама по себе существующая ушная гарнитура не так уж и хороша, как её расписывают Sony или специализированные стартапы.
Во-первых, наушники не очень хороши с точки зрения комфорта. Посмотрите, например, как некоторые люди искренне считают наушники от Apple совершенством, в то время как другие не могут носить их даже в течение нескольких секунд. Как только разработчики удалят провода, которые вообще-то своим собственным весом удерживают наушники, у нас не останется способа и места фиксировать их, кроме как наружного слухового прохода.
«Одна из основных проблем заключается в том, что они выпадают и будут выпадать всякий раз, когда вы активно двигаетесь, — говорит Амит. — Никто не придумал решения для этой проблемы. Единственное решение — какое-то крепление, обёрнутое вокруг ушной раковины». И как только вы обертываете эту штуку вокруг уха, всё изящество устройства куда-то пропадает, плюс вас начинает беспокоить ушной хрящ.
Другой проблемой, на которую указывает Амит, является качество звука. Гоняясь за лучшим качеством, люди приобретают олдскульные громоздкие наушники. Учитывая медленный темп изменений за последние 10 лет, в ближайшем будущем улучшения в сфере микроаудиоустройств не предвидятся. Точно так же есть ограничения у микрофонов и систем распознавания речи, точность которых, несмотря на их качество, колеблется в пределах 90%.
«Звучит ужасно. Представьте, что вы не можете понять уже 5% разговора. Это неприятно, — говорит Амит. — Для некоторых приложений это не так уж и плохо, но нам всё равно некуда деться от наших ушей, из-за которых мы ещё несколько лет ничего не сможем поделать с графическим пользовательским интерфейсом».
Вместо этого Амит полагает, что ближайшее будущее будет «гобеленом» взаимодействий, из которых «ушные» компьютеры и системы управления голосом будут лишь частью мозаики. У нас уже есть технологии, которые могут считывать жесты и выражение лица, у нас есть виртуальные гарнитуры, которые могут погрузить нас в видеоконтент, и устройства тактильной обратной связи, которая может передавать также и физические ощущения.
«У нас есть пять чувств, и мы должны пользоваться ими, для того чтобы взаимодействовать с умными технологиями, — считает Амит. — И реальная трудность в разработке этих проектов в том, чтобы найти правильное сочетание и дать людям достаточно гибкости, чтобы адаптировать эти технологии под их уровень комфорта. Гибридизация – одна из насущных проблем. Технологии у нас уже есть. Как их правильно соединить?»
Как указывает Мидоус, когда эти технологии работают вместе, они становятся более точными синтаксически и эмоционально адекватными. Они могут понять, что мы говорим и что мы чувствуем.
Вот, может быть, почему Apple недавно приобрела два новых проекта. Компания купила Emotient — программу распознавания настроения, которое может считывать эмоции с лица со скоростью доли секунды, и Faceshift — ПО, которое может записать и создать аватар с живого человека. Эти покупки показывают, что Siri может быть куда умнее, если она будет не только слышать, но и видеть человека. И она могла бы быть намного более чуткой, если бы вы смогли видеть ее тоже.
Недостающее звено: социальная интуиция
Самая большая проблема, связанная с появлением на рынке ушных гарнитур, куда масштабнее, чем информационные центры, эргономика и даже потенциальное злоупотребление близостью со стороны операторов чат-ботов. Этой проблемой будет множество крошечных социальных факторов, которые живущему у вас в ухе ИИ придётся учитывать.
«Например, программа может вмешаться тогда, когда вы ведете машину, пересекаете улицу или когда вы, наконец, заводите серьезный разговор с любимым человеком, — говорит Дон Норман, директор проектной лаборатории и автор книги The Design of Everyday Things. — Самое трудное для ИИ — разобраться в социальных тонкостях, синхронизироваться с вами, знать, когда нужно говорить, а когда — нет».
Ушным гарнитурам придется часто интуитивно реагировать на эти социальные моменты. Норман полагает, что одним из самых полезных навыков ушной гарнитуры является способность подавать 5-, 10-, или 30-секундные импульсы в течение рабочего дня — в те моменты, когда у человека есть время на проверку электронной почты, что в общем может занять довольно много времени. Но его также беспокоит потенциально опасная грубость социально неадекватного компьютера.
«Меня волнует вопрос безопасности. Нам известно, что люди ранят себя, читая на ходу с мобильника. Они врезаются в препятствия, но, по крайней мере, сотовый телефон находится под их контролем. Вы можете перестать его использовать, если захотите, — говорит он. — Например, я никогда не читаю с телефона, пересекая улицу. Но если это — ассистент, дающий совет, рекомендующий то, что мне интересно, я не могу контролировать, как и когда это происходит. Это может быть опасно».
В своей лаборатории Норман изучает некоторые из этих сложных социальных границ через призму автомобильной автоматизации, а именно как будет действовать беспилотный автомобиль, проезжая через оживленные пешеходные переходы. «Автомобилям приходется быть агрессивными, или они никогда не пройдут через поток пешеходов», — говорит он. Поэтому машину придётся запрограммировать под местную культуру автодвижения. В Калифорнии это означает, что машина медленно продвигается вперед, чуть ли не по дюйму, и люди дают ей дорогу. В Азии автомобилю придется прямо таки продираться сквозь толпу. Если поменять их местами, то калифорнийский автомобиль в Азии застрянет на весь день на переходе, в то время как азиатский просто переедет калифорнийцев. В общем, дело сложное.
Пессимистам, которые верят, что технология, показанная в фильме "Она", заставит нас игнорировать друг друга, стоит напомнить, что мы уже проверяем смартфоны по 150 раз на дню. Если человечество от этого ещё не пострадало, то вряд ли ещё одна технология сможет поставить общество на колени.

Источник: Fastcodesign.
Перевод: Артем Франич.
Артем Франич