Форум Российской федерации Го

**SanKingTim** » 10 мар 2016, 15:33

Ха, а я как обычно в плюсе! :)))))
Поражение Ли компенсируется отсутствием своих финансовых потерь :)

**breakfast** » 10 мар 2016, 23:02

Краткий разбор первой партии матча (на русском):
http://vk.com/go_secrets?w=wall-105196334_4846

Сейчас заливаю на ютуб разбор второй игры

**Эшу** » 11 мар 2016, 14:00

Статья приведённая Александром в группе вконтакте (https://nplus1.ru/material/2016/03/10/gogogo), внушает некоторый осторожный оптимизм.
AlphaGo не чистая нейросеть, играющая в Го, а чудище о трёх головах: алгоритм Монте-Карло, нейросеть оценивающая позицию (лично я боялся, что AlphaGo состоит только из неё) и ещё одна нейросеть подражающая ходам "человеков".
Статья любопытна тем, что там приведена оценка игры этих голов по отдельности (перепечатка из Nature, но читать Nature дано не всем). Так вот без подражания людям две оставшиеся головы играют чуть слабее 7 любительского дана.
Так что предложения играть против AlphaGo нечто абсолютно нестандартное имеют право на жизнь. Если Ли Седоль сможет "отключить" свою встроенную базу фусек и джосэк, и будет играть основываясь исключительно на своём понимании игры и интуиции, - это может дать ему преимущество.
Лично мой низкодановский опыт свидетельствует, что при таком подходе падения силы игры вообще не происходит. 9p полагаю всё же что-то потеряет, но не настолько, чтобы перестать быть про.

**Эшу** » 11 мар 2016, 17:54

Посмотрел разбор Александром 2 партии. Заметил, что ещё возникают вопросы о знании AlphaGo джосек.
Как раз третья голова AlphaGo (Policy network) и знает все фусеки, джосеки, хамете, отклонения от джосеки, стандартные розыгрыши и ошибки в них. Ей разработчики и "скармливали" все справочники, базы партий (в том числе и с KGS).
Смысл её существования - быть похожей на человека. Она не знает, что такое победа или поражение, хороший/плохой ход. Её задача в том, чтобы каждый ход был максимально похож на человеческий.

Исправление:
Перечитал статью. Изначально я неправильно понял. Нейросеть, подражающая человеку, была промежуточным звеном. Затем её заставили играть саму с собой миллионы партий, чтобы отличить хорошие человеческие ходы от человеческих ошибок. И в результате как раз получилась Policy network. Тем не менее она представляет из себя квинтэссенцию человеческого опыта, полученную из "скормленных" нейросети партий.

**WinPooh** » 11 мар 2016, 20:05

Нейросеть, подражающая человеку, была промежуточным звеном. Затем её заставили играть саму с собой миллионы партий, чтобы отличить хорошие человеческие ходы от человеческих ошибок. И в результате как раз получилась Policy network. Тем не менее она представляет из себя квинтэссенцию человеческого опыта, полученную из "скормленных" нейросети партий.

Вот совершенно не факт, что финальная версия обученной программы будет оперировать человеческими ходами.
Представим, что на этапе обучения перед policy network стоит задача отсортировать 300 возможных ходов в какой-то стандартной позиции. Она присвоит им всем веса, и в дальнейшем алгоритм Монте-Карло будет оперировать этими весами при выборе случайного варианта. Да, на первых итерациях человеческие ходы - несколько десятков - будут иметь наибольшие веса. Их будут испытывать в первую очередь. Но случайный поиск не ограничивается человеческими ходами! Другие ходы тоже будут испытываться. И если окажется, что они не хуже, их веса на следующем этапе возрастут.
Сортировка ходов на начальном этапе по данным с КГС-а нужна только для затравки, чтобы стартовать в пространстве ходов с какой-то осмысленной точки. Можно в качестве начальных весов задать случайные значения - процесс обучения всё равно к чему-то сойдётся. Возможно, за несколько большее время. Но то, к чему он сойдётся, совершенно не обязано быть "квинтессенцией человеческого опыта".

**WinPooh** » 11 мар 2016, 20:12

В качестве иллюстрации. Вот я решал как-то "игрушечную" задачу про веса шахматных фигур:
https://habrahabr.ru/post/254753/
Методология примерно та же - берём партии людей, и в зависимости от результатов партий градиентным спуском модифицируем вектор из пяти значений. В качестве стартового вектора брал все нули - тем не менее, решение сошлось почти к традиционной шкале стоимостей шахматных фигур из учебников... Можно было дальше взять массив из партий программы с самой собой - полученные значения уже мало бы зависели от "затравочных" партий гроссмейстеров.

**AlexanderK** » 11 мар 2016, 21:23

Эшу писал(а):читать Nature дано не всем

Я выше приводил ссылку на оригинальную статью в открытом доступе.
Повторю ее: http://www.nature.com.sci-hub.io/nature ... 16961.html

**Эшу** » 12 мар 2016, 01:48

AlexanderK писал(а):
Эшу писал(а):читать Nature дано не всем

Я выше приводил ссылку на оригинальную статью в открытом доступе.
Повторю ее: http://www.nature.com.sci-hub.io/nature ... 16961.html

Мне не дано её прочесть из-за крайне посредственного знания английского. 98% населения планеты не дано понять её содержания, даже если перевести её на их родной язык. Чтобы читать научные статьи необходим солидный базис знаний по их тематике.

WinPooh писал(а):Вот совершенно не факт, что финальная версия обученной программы будет оперировать человеческими ходами.
Представим, что на этапе обучения перед policy network стоит задача отсортировать 300 возможных ходов в какой-то стандартной позиции. Она присвоит им всем веса, и в дальнейшем алгоритм Монте-Карло будет оперировать этими весами при выборе случайного варианта. Да, на первых итерациях человеческие ходы - несколько десятков - будут иметь наибольшие веса. Их будут испытывать в первую очередь. Но случайный поиск не ограничивается человеческими ходами! Другие ходы тоже будут испытываться. И если окажется, что они не хуже, их веса на следующем этапе возрастут.

Представить можно многое. Я хочу разобраться, что из себя представляет конкретно AlphaGo на основе имеющейся у нас информации. Пока что имеется только статья в Nature (как я понял), если конечно не считать её фейком, призванным скрыть истинные методы DeepMind (но это уже какая-то патологическая конспирология). В русскоязычной статье написано, что предсказательная сеть играла против самой себя. О использовании при этом случайного поиска и Монте-Карло в статье нет.

Призываю всех способных понимать содержание научных статей на английском ответить: соответствует ли содержание оригинальной статьи Nature той русскоязычной, которую я привел выше. Может что-то искажено, или что-то существенное упущено.

**could** » 12 мар 2016, 04:56

Эшу писал(а):Призываю всех способных понимать содержание научных статей на английском ответить: соответствует ли содержание оригинальной статьи Nature той русскоязычной, которую я привел выше. Может что-то искажено, или что-то существенное упущено.

Рассматривайте русскоязычную статью как вольный пересказ простыми словами без потери первоначального смысла.

**Чебур** » 12 мар 2016, 16:26

Я в глубоком трауре.Скорблю.
Вот если бы Ли выиграл 2 оставшиеся...

Форум Российской федерации Го

Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Re: Ли Седоль, 9-дан о своих шансах в матче с AlphaGo

Кто сейчас на конференции