Ха, а я как обычно в плюсе! :)))))
Поражение Ли компенсируется отсутствием своих финансовых потерь :)
Модераторы: Grey, Модераторы форума
Нейросеть, подражающая человеку, была промежуточным звеном. Затем её заставили играть саму с собой миллионы партий, чтобы отличить хорошие человеческие ходы от человеческих ошибок. И в результате как раз получилась Policy network. Тем не менее она представляет из себя квинтэссенцию человеческого опыта, полученную из "скормленных" нейросети партий.
Эшу писал(а):читать Nature дано не всем
AlexanderK писал(а):Эшу писал(а):читать Nature дано не всем
Я выше приводил ссылку на оригинальную статью в открытом доступе.
Повторю ее: http://www.nature.com.sci-hub.io/nature ... 16961.html
WinPooh писал(а):Вот совершенно не факт, что финальная версия обученной программы будет оперировать человеческими ходами.
Представим, что на этапе обучения перед policy network стоит задача отсортировать 300 возможных ходов в какой-то стандартной позиции. Она присвоит им всем веса, и в дальнейшем алгоритм Монте-Карло будет оперировать этими весами при выборе случайного варианта. Да, на первых итерациях человеческие ходы - несколько десятков - будут иметь наибольшие веса. Их будут испытывать в первую очередь. Но случайный поиск не ограничивается человеческими ходами! Другие ходы тоже будут испытываться. И если окажется, что они не хуже, их веса на следующем этапе возрастут.
Эшу писал(а):Призываю всех способных понимать содержание научных статей на английском ответить: соответствует ли содержание оригинальной статьи Nature той русскоязычной, которую я привел выше. Может что-то искажено, или что-то существенное упущено.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0