Внутри мира Викиданных – свободной базы знаний, которую могут использовать как люди, так и машины

Истории 28 февраля 2019

Анна Самойдюк

Ex-редактор направления «Истории».

Анна Самойдюк

Когда-то мы часами сидели в интернете, чтобы найти нужную нам информацию. Сегодня мы просто говорим «Алекса!», и виртуальный ассистент делает всю грязную работу за нас. Проблема только в том, что компьютеры не умеют говорить на человеческом языке.

Издание Wired рассказало о свободной и бесплатной базе знаний Викиданные, благодаря которой это возможно. Ее могут понимать, использовать и анализировать как люди, так и машины.

Подписаться на RB.RU в Telegram

Наши глубокие, надежные источники знаний зашифрованы в древней, непонятной для машин технологии – прозе. Она не вызывает никаких сложностей, когда вы пишете свой вопрос в Google. Поисковым машинам не нужно читать. Им нужно найти самые актуальные веб-страницы. Но когда вы спрашиваете Google Assistant или Alexa о том, в какой день родилась какая-то знаменитость, машина должна самостоятельно найти ответ на этот вопрос. Тем не менее, ни одна технология не может просто и быстро выделить смысл среди тысяч предложений и абзацев в интернете. Ей нужен проводник.

Викиданные (Wikidata) – родственный проект Википедии – стремится в конечном итоге представить все во Вселенной в доступной для компьютерного понимания форме. Эта база данных, которую поддерживают армии волонтеров, служит беспрецедентной цели; она стала просто необходимой, когда ИИ и распознавание речи стали неотъемлемой частью нашей жизни. «Язык основывается на понимании смысла, к которому у компьютеров нет доступа», – утверждает Денни Врадечич, программист и редактор Википедии, основавший Викиданные в 2012 году. Он увидел необходимость в таком месте, где люди и боты могли бы делиться знаниями на более равных условиях.

Внутри мира Викиданных каждая концепция представлена в виде цифрового кода. Например, в декабре проект добавил в базу шестидесятимиллионный предмет – белок, обнаруженный в митохондриях паразита, вызывающего малярию у человека – Q133969 (префикс Q перед каждым кодом – дань уважения жене Врадечича, Камарнисо).

Фото: Wikidata

Предметы взаимосвязаны и классифицируются по тегам, чтобы компьютеры могли анализировать отношения между ними. Вместо того, чтобы искать в Википедии ответ на вопрос, чей дух вселился в Гарри Поттера (Q3244512), бот может увидеть, что тег «дух вселился» (P4292) указывает на Волан-де-Морта (Q176132). В других случаях тег, обозначающий «спорность» (P1310) помогает ботам понять, что не все истины признаны повсеместно – например, при поиске ответа на вопрос, является ли Иерусалим столицей Израиля.

Данные могут добавлять в базу как люди, так и машины. Редакторы добавляют новые факты и предоставляют ссылки на свои источники, прямо как в Википедии. Некоторая информация автоматически поступает из других баз данных.

В мире Викиданных все же есть место и для креативности. Например, код Q1 представляет понятие Вселенной. Писатель Дуглас Адамс записан как Q42 – это отсылка на то, что суперкомпьютер из его книги «Автостопом по галактике» назвал «ответом на главный вопрос жизни, вселенной и всего такого» число 42. Q1337 – кодовая запись для leet.

Cуть этого проекта – не сделать машины похожими на людей, а помочь им обновлять, искать и объединять информацию так, как этого не делали прежде. Связи и закономерности в Wikidata позволяют компьютерам отвечать на сложные вопросы меньше чем за секунду, без необходимости анализа нескольких баз данных. Виртуальные ассистенты лучше выполняют свою работу благодаря Wikidata.

Тот факт, что технологии ведущих мировых компаний полагаются на команду энтузиастов-волонтеров, напоминает нам о том, что ИИ куда более ограничен, чем нам иногда кажется. Wikidata – неполная база, и зачастую в ней встречаются ошибки. И все равно технологические гиганты используют Wikidata, потому что наши глупые алгоритмы так отчаянно нуждаются в помощи для понимания мира.

Фото: Wired

Такая зависимость может сыграть нам на руку. Знания будущих машин могут быть сформированы мной и вами, не только докторами наук и большими корпорациями. Викиданные поддерживаются немецким отделением Фонда Викимедиа – некоммерческой организацией, которая поддерживает инфраструктуру для работы ряда мультиязычных краудсорсинговых вики-проектов, включая Википедию. После того, как исполнительный директор Викимедиа Кэтрин Маэр предложила мегакорпорациям использовать эти бесплатные ресурсы, не прося многого взамен, Amazon и Facebook заплатили им по миллиону долларов. Google недавно объявила о намерении пожертвовать организации $3,1 млн.

Эти средства помогут фонду исправить ошибки и сделать сообщества и хранилища информации более представительными. Маэр считает, что все пробелы можно заделать, если компании перестанут только добывать информацию из Википедии и Викиданных и начнут что-то делать. «Это произойдет только тогда, когда к этому достоянию станут относиться как к возобновляемому ресурсу, а не добываемому», – сказала она. Если же общество предпримет коллективные усилия по созданию информационной основы для ИИ, мы и наши будущие друзья-боты сможем достичь Q238651 – мира во всем мире.

Источник.

Материалы по теме:

Facebook рассказал о работе над чипами для искусственного интеллекта

Пять проблем, которые пока не может решить искусственный интеллект

Как искусственный интеллект помогает лучше понять клиентов

Новые лекарства скоро можно будет создавать при помощи ИИ

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ