Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Модераторы: Grey, Модераторы форума

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение Эльвина » 15 мар 2016, 12:58

Играя сама с собой программа может прийти к "идеальной партии" (хорошо, что Сай не увидит как это произошло). Возможно таких партий не одна, а 100 или 1000. Очевидно что вариантов хоть и много, но всё же конечное количество. Но даже после полного решения игры этой программой, мы сможем наслаждаться новыми партиями если создадим "оппонента". Достаточно чтобы одна программа тренировалась играть по китайским правилам а другая по японским и уже взгляд на позицию будет разным. А представляете, если при этом одна программа играет белами и думает, что коми дадут 6.5 , а другая чёрными и в ней заложено, что коми надо отдать 7.5 . Мы получим гладиаторские бои))) Надеюсь всё же, что это ещё долго будет областью фантастики.
Аватара пользователя
Эльвина
 
Сообщения: 91
Зарегистрирован: 01 ноя 2013, 11:18

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение Филиппов Вадим » 15 мар 2016, 13:05

В теории. На деле времени и ресурсов на такое не хватит. Программа. которая просто переберёт все возможные варианты до конца решит игру. Никакой интеллект не решит игру, потому что доказательство это перебор всех вариантов.
Так что скорее мы будем наблюдать как брутфорс пересчитывает нейронную сеть или ИИ в будущем.
Заголовки газет "ИИ проиграл программе полного перебора в Го, последняя преграда перед калькуляторами пала."
Аватара пользователя
Филиппов Вадим
 
Сообщения: 58
Зарегистрирован: 05 дек 2014, 00:24

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение akarika » 15 мар 2016, 14:11

Добрый день.
А объясните, пожалуйста, на пальцах для непрограммистов - как работает АльфаГо?

Я читала эти две статьи:
https://habrahabr.ru/post/279071/ (АльфаГо на пальцах)
https://nplus1.ru/material/2016/03/10/gogogo (Го:речь поражения)

Но при попытке пересказать людям, далёким от го, в чем собственно особенность АльфаГо - "понимаю, что ничего не понимаю", так как на простые вопросы ответить не могу.

Насколько я поняла, главный "провал" в моём понимании - что же является результатом обучения нейросетей (те самые "обученные кирпичики" из первой статьи). Это сохраняется в виде неформализиуемых алгоритмов, известных только сети? В виде каких-то "баз данных" со всеми изученными позициями и которыми потом пользуется АльфаГо? Правильно я понимаю, что действительно используются образы при обучении?

В общем, есть каша в понимании и я думаю, что многие были бы благодарны за подобную статью для непрограммистов.
Аватара пользователя
akarika
 
Сообщения: 17
Зарегистрирован: 23 окт 2013, 12:09

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение could » 15 мар 2016, 14:25

akarika писал(а):Насколько я поняла, главный "провал" в моём понимании - что же является результатом обучения нейросетей (те самые "обученные кирпичики" из первой статьи). Это сохраняется в виде неформализиуемых алгоритмов, известных только сети? В виде каких-то "баз данных" со всеми изученными позициями и которыми потом пользуется АльфаГо? Правильно я понимаю, что действительно используются образы при обучении?


Не уверен, что получится на пальцах, но попытаюсь.
Изображение

На картинке приведен пример простой двухслойной нейронной сети. Сеть состоит из нейронов. У каждого нейрона есть много входов и один выход. У каждого входа есть свой вес (w). На вход входы нейрона подается число. Это число умножается на вес, далее все суммируется и вычисляется какая-то функция (например, если больше Х то 1 иначе 0). Нейроны организуются в слои. Выход каждого нейрона из предыдущего слоя соединяется с каждый нейроном следующего. На каждое такое соединение определяется случайный вес (W).

Обучение нейронной сети сводится к тому, чтобы подобрать такие веса для всех связей, чтобы входным данным соответствовали определенные выходные. Для обучения сетей есть куча разных алгоритмов, так что делать это человеку не нужно :)

В Альфа го на вход сети подается информация о позиции (где стоят мои камни, где стоят камни противника, сколько нужно сделать ходов чтобы убить камень и т.п.), далее эти синалы расползаются по многослойной сети, как то преобразуются и на выходе мы получаем полезность хода в каждый из пунктов. Уникальность решения DeeepMind и альфаГо в частности в том, что разработчики создали сеть, которая умеет сама обучаться сравнивая полученный результат с ожидаемым.

Т.е. сеть не знает ничего про правила Го, нет никаких гошных алгоритмов, есть только веса.
Аватара пользователя
could
 
Сообщения: 75
Зарегистрирован: 29 окт 2013, 10:44
Откуда: Новосибирск

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение Филиппов Вадим » 15 мар 2016, 14:43

А после того как нейронная сеть нашла ход? АльфаГо его делает?
Аватара пользователя
Филиппов Вадим
 
Сообщения: 58
Зарегистрирован: 05 дек 2014, 00:24

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение WinPooh » 15 мар 2016, 14:47

could писал(а):Т.е. сеть не знает ничего про правила Го, нет никаких гошных алгоритмов, есть только веса.


Не совсем так. Некоторое априорное знание о Го системе задаётся. Например, в качестве одного из факторов, поступающих на вход value network, в статье упоминается
статус камня как ситё-прерывателя. Всё-таки это уже часть теории Го, уровнем выше, чем аксиоматика о взятии одиночного камня или группы. Вообще, что именно подавать на вход нейросети - задача достаточно нетривиальная. В машинном обучении это называется feature engineering, и представляет собой особый раздел магии.
Аватара пользователя
WinPooh
 
Сообщения: 54
Зарегистрирован: 26 ноя 2015, 13:59

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение WinPooh » 15 мар 2016, 14:55

Филиппов Вадим писал(а):А после того как нейронная сеть нашла ход? АльфаГо его делает?


Там есть несколько сетей. Алгоритм примерно такой:

1. Берем позицию и скармливаем её первой сети.
2. На выходе она даёт нам набор из некоторого количества ходов, которые стоит рассмотреть.
3. Запускаем с этими ходами движок Монте-Карло.
4. Тут важный момент, что в процессе монте-карленья могут добавляться и какие-то другие ходы, с разной степенью вероятности.
5. При поиске (переборе по дереву) позиции оцениваются ещё одной сетью, которая даёт им оценку и управляет поиском.
6. Ход, набравший наилучшую статистику Монте-Карло, делается на доске.

То есть Монте-Карло и нейросети работают плечом к плечу, как партия и Ленин. Кто из них более Го-истории ценен - сказать невозможно.
Аватара пользователя
WinPooh
 
Сообщения: 54
Зарегистрирован: 26 ноя 2015, 13:59

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение could » 15 мар 2016, 15:07

WinPooh писал(а):Не совсем так. Некоторое априорное знание о Го системе задаётся. Например, в качестве одного из факторов, поступающих на вход value network, в статье упоминается
статус камня как ситё-прерывателя. Всё-таки это уже часть теории Го, уровнем выше, чем аксиоматика о взятии одиночного камня или группы. Вообще, что именно подавать на вход нейросети - задача достаточно нетривиальная. В машинном обучении это называется feature engineering, и представляет собой особый раздел магии.

Я не совсем верно выразился. Сеть не знает что такое формы, не знает как резать и соединяться, не знает про джосеки, вторжения и т.п.
Аватара пользователя
could
 
Сообщения: 75
Зарегистрирован: 29 окт 2013, 10:44
Откуда: Новосибирск

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение Филиппов Вадим » 15 мар 2016, 15:09

Спасибо, Владимир.
Это точно и понятно. Есть Царь Монте-Карло. К нему приходит позиция и задаёт вопрос.
Два советника шепчут царю разные ответы, много вариантов, основываясь на записях. В этот момент происходит выбор десятков различных продолжений в 1 ход, без всяких вариантов, которые однако учитывают линейные, форсированные продолжения.
Потом Царь, начинает скрипеть мозгами, доигрывая партию до конца как попало, считая результат и записывается 1, если он выиграл или 0 если проиграл, сколько выиграл или проиграл ему не важно, историки запишут его победителем и при 0.5 и при +100 очках. Так получается вероятность победы при том или ином ходе.
Кто в этот системе главный сказать сложно, согласен. Один без другого существовать не может.
Нейронная сеть значительно сокращает кол-во вариантов, что позволяет царю получить более близкий к полному перебору результат.
Среди предложенных ходов хватает всего, это видно по 4-й партии. Царь начинает метаться, потому что всё плохо. Всё что говорят ему советники тоже плохо, поэтому принимает решения почти наугад.
Аватара пользователя
Филиппов Вадим
 
Сообщения: 58
Зарегистрирован: 05 дек 2014, 00:24

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Сообщение WinPooh » 15 мар 2016, 15:16

Филиппов Вадим писал(а):Спасибо, Владимир.
Это точно и понятно. Есть Царь Монте-Карло. К нему приходит позиция и задаёт вопрос.


Да, вот это очень точная метафора получилась!
Включая безумие царя :))
Аватара пользователя
WinPooh
 
Сообщения: 54
Зарегистрирован: 26 ноя 2015, 13:59

Пред.След.

Вернуться в Основной раздел

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 88