Rusbase

Го оставалась единственной игрой, в которой компьютер не мог одолеть человека




Почему победа Google в го — это такое большое событие? Rusbase публикует адаптированный перевод статьи
с The Verge.
Девятого марта в Сеуле начался матч между программой DeepMind AlphaGo и одним из сильнейших игроков в го Ли Седолем. Седоль проиграл в первом же раунде. Десятого марта он сдал и вторую игру. Несмотря на то что в четвертой игре победил Ли Седоль, большинство партий все равно выиграла программа.

Грандиозная победа DeepMind — это великий момент в истории искусственного разума, который, по прогнозам, должен был свершиться через десятилетия. «Я был очень удивлен», — сказал Ли после первого раунда. — «Я не ожидал, что проиграю. Не думал, что AlphaGo будет играть настолько совершенно».
Почему это событие впечатляет? Для того чтобы в этом разобраться, нужно понять основы игры и что сделала команда DeepMind.
Мы всегда были так горды, что го оставалась единственной игрой, в которой компьютер не мог одолеть человека.
Ли Ха Чин
Генеральный секретарь Корейской Ассоциации игры в падук
Один из самых великих интеллектуальных видов спорта в мире

Го, также известная как «вэйци» (围棋) в Китае, «иго» (囲碁) в Японии и «падук» (바둑) в Корее, — это настольная стратегическая игра, история которой насчитывает около 3000 лет. В нее играют на сетке 19х19. Игроки ходят по очереди, размещая черные и белые фишки, чтобы окружить точки на сетке и захватить территорию противника.

«Это один из самых великих интеллектуальных видов спорта в мире», — говорит Тоби Мэннинг, распорядитель Британской Ассоциации го. «В простоте правил и кроется ее сложность». Мэннинг цитирует классическую цитату шахматиста и игрока в го 20 века Эдварда Ласкера: «В то время как причудливые правила шахмат могли быть созданы только людьми, правила го настолько элегантны, органичны, и строго логичны, что если где-то во вселенной существуют разумные формы жизни, они, наверняка, играют в го».
Игроки в го становятся экспертами после многих лет практики, оттачивая свою интуицию и учась распознавать приемы игры. «Поначалу вас притягивает то, что правила просты и легки для понимания. А потом вас затягивает многогранность. Вы не устаете от игры», — говорит генеральный секретарь Корейской Ассоциации игры в падук Ли Ха Чин (на фото). «Всегда есть чему учиться, и вы чувствуете, что можете стать лучше и сильнее».

Начав играть в возрасте 5 лет, Ли Ха Чин показала настолько большой потенциал, что родители решили отправить ее в частную школу го в Сеуле. Ли ходила в обычную школу днем, а после приходила к учителю и играла в го по нескольких часов каждый вечер. И в итоге стала профессионалом в возрасте 16 лет. Сегодня она Генеральный секретарь Корейской Ассоциации игры в го.

Если посмотреть на офис Корейской Ассоциации игры в падук, можно понять престиж игры в этой стране. На одном этаже члены Корейской Женской Лиги проводят матчи в полной тишине. На другом — находится комната, заставленная трофеями, многие из которых напоминают жутковатые бестелесные руки (одно из старых метафорических названий игры переводится как «разговор руками»). В подвале расположен операционный центр кабельного телеканала Baduk TV, посвященного го.
AlphaGo совершенствуется, играя сама с собой
«Шахматы и шашки не требуют сложных функций оценки», — говорит Джонатан Шеффер, ученый из Университета Альберты, написавший Chinook — первую программу для игры в шашки. «К примеру, в шахматах и шашках ценность единицы преобладает над другими аспектами в положении на доске. Если у меня на доске больше слонов, чем у оппонента, то я почти всегда одержу победу. В го не действуют главные эвристические правила. С человеческой точки зрения, понимание твоего положения в игре основано на множестве факторов, приемов игры, и это сложно описать в программе. До AlphaGo никто не мог написать алгоритм оценки».

Так как же DeepMind удалось это? AlphaGo использует принципы глубинного обучения и нейронные сети для самообучения игре в го. Google Photos позволяет искать снимки с кошками, потому что в памяти сервиса содержится бесчисленное количество изображений кошек. Так же и AlphaGo учится на миллионах изображений позиций и ходов, сделанных игроками в го.
AlphaGo постоянно укрепляет свои силы благодаря возможности играть против дублированной версии самой себя. Это развивает «дальновидность» системы и «оценочные» способности. AlphaGo предусматривает все возможные ходы и комбинации и выбирает тот, который наиболее вероятно приведет к победе. Объединенные нейронные сети избавляют AlphaGo от лишней работы: система предугадывания уменьшает диапазон поиска возможных ходов, в то время как система оценки позволяет избежать перегрузки во время выбора верного решения из огромного массива информации о матчах.

Такая система обучения делает AlphaGo более человекоподобной и «умной» чем, например, система Deep Blue от IBM, которая победила шахматного гроссмейстера Гарри Каспарова с помощью грубой силы вычислительной мощности для поиска лучших ходов — то, что просто не работает в случае с го.

Члены сообщества игроков ошеломлены тем, какую изобретательность и агрессивность проявила AlphaGo для победы. «Если бы я сходил так же, — говорит президент Американской ассоциации игры Энди Окун, — мои учителя выпороли бы меня!»
Что дальше?
В DeepMind считают, что принципы AlphaGo можно применять в других сферах, помимо игры в го. В Google уверены, что методы машинного самообучения будут полезны в робототехнике, разработке программ-ассистентов для смартфонов и здравоохранении. В прошлом месяце в DeepMind объявили о заключении сделки с Национальной службой здравоохранения Великобритании.
Есть один серьезный вопрос. В игре в го есть некоторые устоявшиеся ортодоксальные принципы. Но что же нам откроется дальше? Изменится ли все после этой победы? Возможно, мы обнаружим, что некоторые вещи, которые мы считали правильными, на самом деле таковыми никогда не были.
Эндрю Джексон
Инженер по программному обеспечению Google
Завершающая игра Ли Седоля против AlphaGo состоится 15 марта.
Алексей Зеньков