СТАТИСТИЧЕСКИЕ ОСНОВЫ РЕЙТИНГ-СИСТЕМЫ
Отчет по статистической обработке российских турниров с учетом коррекции шкалы и без нее и общему мониторингу рейтинг-системы РФГ(Б).
Подготовлен рейтинг-комиссией РФГ(Б) по результатам статистических исследований и с учетом обсуждений на специализированном подфоруме по проблемам рейтинга форума "Кидо" в 2008 году
В 2008 году в рейтинг-систему РФГ(Б) были внесены изменения (коррекция шкалы, модернизация алгоритма), а также к программе пересчета рейтингов был подключен блок статистических расчетов. На основании проведенных детальных статистических исследований рейтинг-системы (РС) получены результаты, излагаемые ниже в виде подробного отчета, включающего обзорную теоретическую часть (Введение, разделы по выбору коми и параметров шкалы, мониторингу РС) и общее описание результатов статистического анализа (раздел "Статистика турниров").
Обозначения и сокращения:
РС - рейтинг-система
ИИ - идеальный игрок
Дан - ранг для оценки уровня мастерства опытных игроков
Кю - ступень (ранг) для оценки уровня основной массы любителей, не достигших уровня данов
Анкер - стабильно выступающий игрок с незначительными колебаниями уровня игры
Рейтинг - числовая оценка уровня игры с достаточно мелкой шкалой, согласованной с рангами дан-кю
Рейтинговое событие - мероприятие по го (в т.ч. и отдельная партия), по результатам которого производится пересчет рейтинга участников
Рейтинговый период - интервал времени, охватывающий не менее одного рейтингового события, в течение которого рейтинги участников считаются неизменными в целях пересчета рейтингов
Ранжировка - распределение какой-либо совокупности объектов по списку с предпочтением по выделенному признаку; на шкале данов и кю таким признаком является ранг игрока, а в РС - рейтинг
Коми - компенсация в равной партии за право первого хода, которую начинающий первым (как правило черные) передает сопернику, или адекватная какой-то разнице в рейтинге добавка к форе в очках результата партии в го
Принцип гандикапа - способ выравнивать шансы сторон в партии при существенной разнице в силе игры
Схема Бернулли - статистический способ учета результатов серии партий в виде отображения последовательности побед и поражений с помощью чисел 1 и 0
Стандартное отклонение схемы Бернулли - статистическая характеристика разброса частот побед в случайном процессе формирования последовательности нулей и единиц в схеме Бернулли (этот процесс подчиняется так называемому биномиальному распределению); стандартное отклонение схемы Бернулли равно корню квадратному из суммы произведений P (1 - P) вероятностей побед (P) и поражений (1 - P) и при вероятностях, близких к 50%, примерно равно половине корня квадратного из числа учитываемых партий
ЕГФ - Европейская Го Федерация
ЕВСК - Единая Всероссийская Спортивная Классификация
ВВЕДЕНИЕ
"Статистика знает все"
Игра го обладает уникальным свойством, отличающим ее от всех других распространенных интеллектуальных игр: здесь широко применяется форовый принцип (или "принцип гандикапа"), позволяющий очень точно выравнивать шансы в партиях между соперниками разного уровня мастерства. Такая особенность игры го очень важна в статистических расчетах, связанных с уточнением параметров РС.
В любых единоборствах парные сопоставления (игры или партии) между участниками РС служат статистической базой для расчета рейтингов. При этом более сильный соперник побеждает чаще, априорная вероятность его победы в партии больше 0.5 и задается определенной функцией вероятностей, постулируемой в РС. На основе результатов множества партий все игроки распределяются с помощью заданного алгоритма РС в виде ранжировки по некоторому числовому параметру ("рейтинг-коэффициенту" или просто - "рейтингу"). Шкала рейтингов в той или иной РС является достаточно условной и можно вводить бесконечно много шкал и РС, которые будут давать примерно адекватные ранжировки, т.е. с достаточно правдоподобными соотношениями "силы игры", выражаемыми числовыми рейтинг-коэффициентами. Однако РС, позволяющие всех расставить в единой шкале независимо от того, насколько часто играются партии меду представителями разных регионов и клубов, практически не существуют в большинстве игр, за исключением игры го именно за счет использования в ней форового принципа.
Как же на практике принцип гандикапа позволяет построить единую универсальную шкалу в го? Фора реализуется в виде выставления более слабым соперником ряда камней на доску перед началом партии. Фактически это означает определенное преимущество, предоставляемое данной стороне за счет нескольких ходов "вперед". Так как результат партии определяется числом набранных каждой стороной очков и любой "правильный" ход в самом начале партии также оценивается определенным числом очков, примерно (в среднем) одинаковым для оптимальной игры при первых 10-15 ходах, то число камней форы может служить ориентиром для построения грубой шкалы "рангов", предположительно однородной и линейной. Если задать начальный фиксированный ранг какому-то одному стабильному игроку ("анкеру"), то за счет форовых игр с ним можно ранжировать сначала всех близких по уровню мастерства к данному анкеру, а затем и остальных участников - через форовые игры с уже ранжированными игроками. Такая шкала используется в го с давних времен и единственная в этом случае проблема - привязка шкалы к какой-то единой точке отсчета. Обычно сильнейшие профессиональные игроки Востока получают ранг 9 дан, затем к ним привязываются другие профессиональные игроки и сильнейшие любители - с шагом в один ранг вниз вплоть до 1-го дана, потом остальные более слабые - по шкале от 1 кю (на один ранг ниже 1-го дана) и далее в принципе неограниченно вниз с ростом ступеней кю. Сегодня в Японии и в большинстве других стран используется обычно 20 ступеней кю.
Под однородностью шкалы кю-данов понимается то, что преимущество в очках результата партии, определяемое форой, не зависит от расположения игроков на фиксированной шкале, а линейность означает одинаковый прирост очкового преимущества с ростом числа камней форы. Если постулировать линейность и однородность шкалы кю-данов и задать определенное число пунктов рейтинга на один ранг (обычно 100 пунктов), то можно получить числовую шкалу рейтингов с мелким шагом в один пункт (1/100 ранга), привязанную к сильнейшим профессионалам, в которой каждому рангу будет в среднем соответствовать целое число, кратное с множителем 100 номеру ранга. Такая шкала должна иметь точку отсчета, т.е. некоторый фиксированный сдвиг, определяемый условным максимальным значением, приписываемым виртуальному игроку, который никому не проигрывает. Предполагается, что такой "идеальный игрок" (сокр. "ИИ") не совершает ошибок в ходе партии, т.к. обладает оптимальной стратегией, а такая стратегия всегда существует для игр типа го, что доказывается математическими методами. На основе описанного подхода и строятся сегодня рейтинговые шкалы и РС, используемые в разных национальных федерациях и международных организациях по игре го.
Итак, при построении современной РС в го, базирующейся на форовом принципе, требуется ответить на следующие вопросы:
Все выше перечисленные вопросы решаются на основе статистического анализа на больших выборках партий с привлечением современных методов теории вероятностей и прикладной математической статистики, в том числе с проведением при необходимости численных экспериментов, моделирующих поведение конструируемой РС во времени. Часть из обозначенных проблем рассматриваются в последующих разделах, а некоторые, имеющие алгоритмический характер, изложены в описании РС РФГ(Б).
РАЗМЕР КОМИ И ШАГ ШКАЛЫ
Коми в равных партиях стало использоваться относительно недавно - только после образования Японской Ассоциации го ("Нихон-Киин") в 20-х годах прошлого века. Первоначально размер коми был принят в 4.5 очка и с таким коми играли вплоть до конца 70-х годов. Пол-очка являются условной величиной для определения победителя при равном счете очков.
Однако статистика равных партий между профессионалами Японии показала, что такое коми является недостаточной компенсацией белым и размер коми был увеличен до 5.5 очков. В 80-х годах в Японии неоднократно публиковалась статистика игр с новым коми, в соответствии с которой черные побеждали примерно в 60% партий. Теоретико-вероятностный анализ при некоторых предположениях о распределениях силы игры профессионалов дает для ошибки определения величины коми оценку примерно в 2-3 очка. Поэтому в 90-х годах постепенно перешли на коми 6.5 очка, а в ряде турниров сегодня уже применяется коми в 7.5 очка. В РФГ(Б), как и в большинстве национальных и международных организаций по игре го, в настоящее время принято коми в 6.5 очка.
Шаг рейтинговой шкалы не имеет существенного значения - важно только, чтобы он обеспечивал необходимую точность ранжировки игроков. Обычно он выбирается кратным 100 и в большинстве РС принята шкала 100 пунктов на ранг (кю или дан). Нестабильность силы игры и, соответственно, отклонений рейтинга обычно имеют порядок от нескольких десятков пунктов (доли ранга) для уровня данов до нескольких сот пунктов (2-3 ранга) - для нижних кю. Поэтому шкала с шагом в 100 пунктов на ранг имеет достаточно мелкую "цену деления", чтобы обеспечить адекватную оценку уровня игры по рейтингу.
Размер правильного коми, т.е. обеспечивающего выравнивание шансов сторон при игре без форы, является внутренним свойством самой игры и в партии двух идеальных игроков (ИИ) конечный очковый результат должен быть в пользу черных ровно на величину коми (с точностью до условных пол-очка). К сожалению, определить теоретически точное значение правильного коми или экспериментально проверить адекватность используемого значения с абсолютной достоверностью практически невозможно. Остается только проводить мониторинг на основе статистики партий сильнейших профессионалов и наблюдать за согласием частот побед с ожидаемыми 50%. Однако на такую статистику влияет ряд факторов субъективного характера и прогресс в теории игры, и вполне возможно, что размер принятого на практике коми еще будет уточняться.
Между разницей в рангах (или рейтингах) двух игроков и ожидаемым средним очковым результатом партии между ними при не очень большой разнице в рангах имеется практически 100% корреляция. Поэтому правильное коми также должно соответствовать определенной разнице рейтингов. Если предполагать линейность и однородность шкалы рейтингов, то правильное коми должно быть эквивалентно половине шага шкалы (50 пунктов рейтинга при шаге шкалы в 100 пунктов на ранг). Т.е. два игрока с разницей уровней в полранга (50 пунктов рейтинга) в партиях без коми, когда черными играет более слабый соперник (фора 1), должны иметь равные шансы и частота побед любой из сторон при росте числа партий обязана приближаться к 50%. Сформулированное выше утверждение о соответствии правильного коми половине шага шкалы рейтингов доказывается следующим образом.
Итак, пусть установлен некоторый шаг шкалы, например 100 пунктов на ранг. По предположению о линейности, нарастание очкового преимущества при добавлении камней форы происходит всегда на одно и то же число. Адекватная новой форе разница рангов увеличивается на соответствующее целое число, а адекватная разница рейтингов - на кратное шагу рейтинговой шкалы (100 пунктов) пропорционально добавленной разнице рангов или добавленных камней форы. Из симметрии ситуации при смене цвета соперников в игре без форы и без коми ясно, что размер коми должен соответствовать половине разницы ожидаемых очковых результатов партии при игре черными и белыми соответственно, т.к. переход от игры черными к игре белыми соответствует изменению ожидаемого результата партии на два коми. С другой стороны, добавление камня форы можно рассматривать как пас белых, и аналогично смена цвета эквивалентна пасу черных. Следовательно, смена цвета (два коми) эквивалентна разнице в один ранг, и коми в пунктах рейтинга эквивалентно половине шага шкалы (50 пунктов).
Таким образом, при построении РС, согласованной с принципом гандикапа, необходимо учитывать, что фора в камнях эквивалентна разнице рейтингов пропорционально числу камней форы со сдвигом на полкамня (полранга), т.е. сдвиг эквивалентен одному коми, или 50 пунктов рейтинга при шаге шкалы 100 пунктов на ранг. Для обычно используемой форы от 1 до 9 камней получаем следующее соответствие между форой и адекватной ей разницей рейтингов: фора 1 (право первого хода без коми) = 50 пунктов, фора 2 (пас белых после первого хода черных) = 150, ..., фора 9 (8 пасов белых) = 850. Соответственно ожидаемый результат партии без форы между игроками разных рангов пропорционален удвоенному коми и составляет 13-15 очков на один ранг разницы в уровнях игры, если исходить из принятых на практике величин коми. Этот вывод хорошо согласуется с данными, известными из разных источников, по которым оценка очкового преимущества черных при форе в 9 камней составляет порядка 130-140 очков. Если вспомнить о том, что коми 5.5 было предположительно определено с ошибкой в 2-3 очка в пользу черных, то для форы 9, эквивалентной 850 пунктам разницы в рейтинге или 17 коми, получим оценку ~ 127 очков при коми 7.5, 136 очков при коми 8.
ТОЧКА ОТСЧЕТА ШКАЛЫ И ФУНКЦИЯ ВЕРОЯТНОСТЕЙ
Со времен А.Эло, который начал свои исследования по РС в 60-х года прошлого века, принято шкалу рейтинга для логических игр типа шахмат, шашек или го брать в диапазоне 0-3000 пунктов. Выбор максимальной точки отсчета не имеет существенного значения - можно взять для этой отметки шкалы любое другое число, например 4000 или еще какое подходящее значение. Главная цель любой РС - ранжировка участников по силе игры относительно друг друга, а сдвиг шкалы не меняет ранжировку. В частности, шкала может быть и неограниченна сверху или снизу.
Однако для логических игр двух лиц с полной информацией, к которым относятся шахматы, шашки, го и многие другие игры, справедлива теорема о существовании оптимальной стратегии. Игрок, обладающей такой стратегией (идеальный игрок, сокр. ИИ), не совершает ошибок и при равных стартовых условиях в партии не может проиграть. С другой стороны, реальные игроки совершают ошибки и результат партии определяется тем, кто меньше суммарно совершит ошибок (с учетом их значимости). В играх с качественным исходом партии (мат в шахматах, уничтожение материала соперника в шашках) не имеет особого значения, какой рейтинг приписать ИИ, в том числе его можно принять и бесконечно большим.
В го результат партии определяется очками, набранными соперниками, и ИИ должен набирать максимально возможную сумму, которая может в практических целях считаться ограниченной сверху, в то время как реальный игрок совершает ошибки почти при каждом из 120-150 ходов в партии. Результат партии в го, таким образом, определяется разницей набранных очков, вернее разницей суммарно сделанных соперниками ошибок, и каждый ход или его ошибочность могут теоретически быть оценены также в очках результата. При этом результат всегда конечен, и шкала рейтингов, согласованная со шкалой рангов, имеет тоже конечные оценки по разнице набираемых соперниками очков. Известно также, что с ростом мастерства уровень и частота совершаемых при отдельных ходах ошибок в среднем снижаются, а у ИИ уровень ошибок всегда равен 0. Поэтому правдоподобным выглядит предположение о конечности рейтинга ИИ, а рейтинг реальных игроков может неограниченно приближаться к этой отметке, никогда ее не достигая. Т.е. рейтинг ИИ должен быть конечным и являться асимптотическим значением на шкале рейтингов.
Исходя из выше изложенного, необходимо при построении РС для го после определения шага шкалы выбрать отметку, которая будет соответствовать рейтингу ИИ. Можно назначить такую точку отсчета произвольно, но можно исходить и из существующих ранжировок игроков и подбирать адекватное значение рейтинга ИИ на основе анализа статистических данных. Именно так и поступили в ЕГФ в 1998 году, когда приняли РС Чешской Ассоциации го (автор А.Чеплы). База партий ЕГФ содержала на тот момент более 100 000 партий, в том числе около 12% партий с гандикапом.
Здесь следует сказать сразу же и о выборе функции вероятностей, т.к. обработка статистики партий часто осуществляется с учетом прогнозируемых исходов. Исторически в первой РС Эло, внедренной в ФИДЕ в начале 70-х годов, была принята формула (точнее таблица вероятностей) на основе интеграла Гаусса (нормальное распределение). В РС ЕГФ и некоторых других применяется функция c дробно-экспоненциальной зависимостью вероятностей исходов от разницы рейтингов. Это семейство функций, асимптотически выходящих на 0 и 1 соответственно при бесконечно большой отрицательной и положительной разнице рейтингов, аналогично семейству нормальных распределений и имеет также два свободных параметра. Графики таких функций симметричны относительно средней точки, где вероятность равна 50%, и общее наименование класса - логистические кривые. Формула вероятностей на основе логистической кривой для парных сопоставлений впервые была предложена в 1953 году (модель Брэдли-Терри). Она выводится теоретически из предположения о транзитивности отношения частот побед (подробнее - см. сайт ЕГФ например), а статистического обоснования для игр, похоже, не существует.
Само по себе предположение о транзитивности отношений частот является далеко не очевидным и поэтому не подходящим для постулирования при построении РС. Любое другое предположение, например о нормальном поведении распределения вероятностей, ничем не хуже. Более того, интеграл Гаусса является интегро-экспоненциальной функцией с аналогичными свойствами, что и у логистической кривой, и они могут использоваться для взаимной аппроксимации (возможно, что логистические кривые появились вообще из экспериментов над случайными нормально распределенными величинами как упрощение нормальной гауссовой формы).
Теоретико-вероятностный анализ показывает, что для асимптотических свойств сходимости РС к адекватной ранжировке вид функции вероятностей не так важен. Однако в практических целях достоверного прогнозирования исходов конечного числа турнирных партий роль правильного выбора функции вероятностей невозможно переоценить. Как же выбрать функцию вероятностей, если ничего практически неизвестно об индивидуальных распределениях силы игры участников РС? И тут снова игра го оказывается в исключительном положении, опять благодаря все тому же форовому принципу.
Если начальное распределение рейтингов произвольно и задана какая-то формула вероятностей и нет других механизмов извлечения информации, кроме парных сопоставлений (без форы или иных коррекций разницы в рейтингах), а все игроки уже стабилизировались и не меняют своего уровня, то вероятно распределение рейтингов будет сходиться к равновесному состоянию, где все наблюдаемые частоты побед будут в среднем совпадать с ожидаемыми исходами, рассчитанными по некоторому вероятностному закону. Точнее, есть основания считать, что если играются только форовые партии, то сходимость будет к некоторому универсальному распределению, не зависящему от исходной формулы вероятностей. Скорость сходимости в подобных случайных процессах крайне низка, но механизм стабилизации РС за счет форовых партий на порядок более эффективен, чем "автокоррекции" за счет равных партий.
Действительно, в го начальные распределения рангов (и порождаемых ими рейтингов) фактически всегда довольно точно соответствуют правильным форовым соотношениям. Аналогично обстоит дело и с рангами новых игроков, т.к. их экспертные оценки тоже как правило основаны на партиях с форой. Правильность форовых соотношений в шкале рангов (рейтингов) является очень устойчивым признаком, если играется достаточное количество форовых партий. Устойчивость определяется тем, что фора как правило выбирается близкой к реальному соотношению рангов и вероятности исходов приближаются к 0.5 независимо от вида заложенной в РС формулы вероятностей. Т.е. форовый принцип подавляет ошибки формулы вероятностей, и из статистики равных партий в сообществе игроков с правильными форовыми соотношениями можно получить информацию об истинном виде распределения вероятностей. Это фундаментальный вывод, подтверждающийся экспериментально: в ЕГФ хорошо выполняются форовые соотношения, что регулярно проверяется и подтверждается при мониторинге РС, однако формула вероятностей, основанная на логистической кривой, дает большие расхождения с наблюдаемыми частотами в равных партиях и это расхождение никак не уменьшилось за последние 5 лет, хотя объем статистики из более чем 108000 партий за тот же период вырос примерно в полтора раза.
С другой стороны, в России прекратили учитывать в рейтинговых расчетах форовые партии примерно лет 20 назад и за последующий период вплоть до введения нового проекта РС-2005 форовые соотношения не могли не искажаться - по ряду причин. Во-первых, формула вероятностей, применявшаяся с 1990 года, не подходила для всей шкалы, потому что область корректного ее применения ограничивалась зоной данов, т.к. статистическая выборка, на основе которой выбирались параметры этой формулы, содержала только партии 1-5 данов. Во-вторых, мониторинг РС не осуществлялся и вообще никак не контролировались возможные деформации шкалы рейтингов. Наличие деформаций было выявлено позже в 2008 году, после того как принятый новый проект РС-2005 отработал 3 года и был накоплен свежий статистический материал. Есть и другие причины накопления искажений, например неточные ЭО новых игроков, несоответствие рейтинга силе игры у быстро прогрессирующих, которые не достаточно эффективно правились рейтинг-системой, и т.д.
Поскольку статистика ЕГФ, как показано выше, пригодна для выявления истинных вероятностных соотношений, то такая работа по статистическому анализу была проделана в 2003 году и было выяснено, что наиболее подходящим для выбора функции вероятностей из достаточно простых классов кривых является дробно-гиперболическое семейство. В общем виде формула вероятностей по проекту РС-2005 содержит постоянный член 0,5 и добавок в виде дроби, в числителе которой стоит разница рангов (рейтингов), а в знаменателе - некоторое среднее расстояние партнеров по шкале рейтинга от точки отсчета - рейтинга ИИ. Сравнение средних частот по всем рангам при средней разнице между партнерами в 1, 2 или 3 ранга дало очень хорошее согласие при простых коэффициентах базовой формулы, и только при разнице в 4 ранга было более существенное расхождение, превышающее допустимую статистическую погрешность. Последующие повторные сопоставления частот и ожидаемых результатов на расширенной статистике ЕГФ показали такое же хорошее согласие - за прошедшие годы не изменилось практически ничего.
Следует сказать, что распределения рейтингов игроков (или точнее поправок) будут всегда асимптотически нормальны, независимо от конкретных индивидуальных распределений вероятностей, т.к. это свойство схемы Бернулли, от стандартного отклонения которой поправки в РС типа Эло зависят линейно (корреляция 100%). Принятый в РС РФГ(Б) вид формулы вероятностей можно, при определенных предположениях, вывести теоретически из аппроксимации нормального распределения вероятностей, которое вполне естественно было бы постулировать, учитывая большое число совершаемых в партии ходов. В этом случае вполне вероятно (но не с абсолютной достоверностью) соблюдаются условия применимости центральных предельных теорем теории вероятностей, и тогда сумма случайных величин, каковыми являются ошибки соперников, совершаемые ими в ходе партии, является асимптотически нормальной.
МОНИТОРИНГ РС НА ОСНОВЕ СТАТИСТИКИ ПАРТИЙ
Какую РС в го, базирующуюся на форовом принципе, можно считать идеальной? Очевидно такая РС должна давать прогнозы результатов партий, незначительно отклоняющиеся от наблюдаемых частот побед/поражений, т.е. в среднем по всей шкале отклонения частот от прогнозов должны находиться в пределах статистической погрешности, а заданный шаг шкалы (у нас принято 100 пунктов на ранг) должен правильно отражать форовые соотношения между игроками, т.е. при точно выбранной по разнице рейтингов форе частоты должны сходиться к 50%. Обычно фора задается неточно (с недобором в пользу белых), поэтому частоты в форовых играх просто должны быть адекватны прогнозу, вычисленному по рейтинговой разнице между соперниками с учетом даваемой форы. Если играются в достаточном количестве форовые игры, то шкала в большей своей части сохраняет правильные форовые соотношения даже при неправильной формуле вероятностей, что подтверждается на статистике ЕГФ (12% форовых партий), где ведется мониторинг выполнения форовых соотношений, показывающий хорошее согласие с условием "100 пунктов рейтинга на один ранг", в то время как статистика равных партий показывает значительные расхождения частот и прогнозов (в некоторых случаях более 10%, что на статистике в тысячи партий в группах по рангам в несколько раз превышает допустимую статистическую погрешность).
В России в период с 1985 по 2005гг. практически не проводились форовые рейтинг-турниры. Коме того, формула вероятностей, принятая в РС-90, была выбрана на основе статистики равных игр 1-5 данов и не годится для всей шкалы от 7 дана до 20 кю. Кроме того, параметры функции вероятностей в РС-90 были постоянными и одинаковыми для всех уровней игроков. Поскольку обычно во всех РС имеется еще и переток рейтинга от стабильных игроков к растущим, то можно было ожидать, что статистика российских партий за 2005-2007гг. позволит выявить какие-либо деформации в шкале рейтингов. Ниже перечислим еще раз основные факторы, влияющие на возникновение деформаций, и рассмотрим механизмы действия этих факторов на шкалу рейтингов.
Фактор 1. Отсутствие форовых рейтинг-партий.
Фактор 2. Неправильная формула вероятностей.
Фактор 3. Переток рейтинга от стабильных игроков к растущим.
Как уже отмечалось, без учета в РС форовых партий реальная шкала рейтингов не может быть адекватной теоретической шкале, получаемой из традиционной лестницы кю-данов на основе постоянного шага в 100 пунктов рейтинга на один ранг. Действительно, все применяемые на практике формулы вероятностей с точностью до величин третьего порядка от разницы рейтингов для равных партий инвариантны относительно растяжений-сжатий шкалы с центром в рейтинге ИИ (точка отсчета шкалы, у нас 3000) и такие деформации не могут быть обнаружены "изнутри системы". Если играются только равные партии, то рейтинги стремятся постепенно занять положение, при котором частоты минимально отклоняются от вероятностей, какой бы неправильной не была сама формула, и шаг становится отличным от 100. Таким образом, если формула задана с ошибкой, то возникает деформация шкалы со следующим механизмом ее формирования.
Рассмотрим формулу вероятностей РС-90 и возьмем середину шкалы. Пусть изначально шкала адекватна лестнице рангов и вообще правильная, а игрок с рейтингом 1000 (11 кю) встречается попеременно с соперниками выше его на один ранг, которым проигрывает, и ниже его на один ранг, у которых выигрывает. Ошибка формулы вероятностей в этом случае составляет около 11% и симметрична: вероятность победы по предположительно правильной формуле РС-2005 составляет 55% во встречах с более слабыми, 45% - с более сильными. Формула РС-90 дает соответственно 66% и 34%. В итоге при коэффициенте динамичности 100 (это значение не принципиально, для простоты берем круглое число) получим, что при выигрыше у более слабого в РС-90 игрок недополучает при пересчете 100 х 0,11 = 11 пунктов рейтинга. Но точно на такую же величину игрок теряет меньше чем положено при проигрыше старшим, т.е. шкала в средней части в обычных условиях стабильной игры не деформируется, хотя колебания рейтинга по амплитуде существенно увеличиваются по сравнению со случаем применения правильной формулы. Для рассмотренного примера: при 20 партиях с более слабыми и таком же числе с более сильными ожидаемое число побед и поражений соответственно 11/9, при совпадении частот с прогнозом при правильной формуле изменение рейтинга в обоих случаях равно нулю, а по формуле РС-90 -202 и +202 соответственно (в сумме тоже 0).
Однако на краях шкалы симметрия нарушается: снизу игрок обычно встречается в основном с более старшими по рейтингу, и хотя чаще им проигрывает, но при этом у него отбирается меньшее число очков, чем положено по правильной формуле, а при более редких выигрышах он получает лишние очки. В итоге баланс рейтинга самого нижнего участника РС даже без роста мастерства оказывается положительным и рейтинг слабейших в РС игроков начинает расти. Затем избыток рейтинга может частично или полностью поглащаться естественным в этой части шкалы ростом мастерства или просто перераспределяется среди чуть более сильных соседей, и тогда этот процесс оттока рейтинга к самым слабым компенсируется снижением рейтинга остальных участников РС, в основном в нижней части шкалы, т.е. эта часть шкалы растягивается книзу с уплотнением шкалы вблизи рейтинга самых слабых (образуется "горбик" в распределении отклонений частот от вероятностей - что-то типа солитона).
Вверху шкалы ситуация прямо противоположная, за исключением того, что избыток рейтинга, получаемый лидерами, никуда рассосаться уже не может, т.к. им присуща стабильность в игре и они сохраняют лидирующие позиции длительное время. В итоге лидеры начинают отрываться по рейтингу от остальной группы чуть более слабых стабильных игроков, снижая их средний рейтинг. Это явление было подтверждено экспериментально в РС-90 при анализе рейтинга А.Динерштейна: его российский рейтинг по РС-90 в 2003 году был уже 2878, что превышало его европейский рейтинг 2762, примерно адекватный в среднем в верхней части шкалы российскому рейтингу, на 116 пунктов. После экспертной оценки рейтинга А.Динерштейна в 2800 пунктов, сделанной в 2005 году для нового проекта РС-2005, он сохранил в последующие 3 года тот же уровень с незначительным снижением рейтинга (в пределах 20-25 пунктов), причем рейтинги в ЕГФ и РФГ(Б) у А.Динерштейна очень близки в течение всего рассматриваемого периода (обе формулы вероятностей в области 6-7 данов дают близкие прогнозы).
Чтобы еще раз наглядно представить скорость отрыва лидера в РС-90, рассмотрим обычного среднего соперника А.Динерштейна в российских турнирах - это как правило игрок 5-6 дана, отстающий от него в среднем на 2 ранга (200 пунктов). Если принять стартовый рейтинг Динерштейна в 2700 пунктов (конец 90-х годов), а его соперника - 2500, то их средний рейтинг равен 2600 (400 пунктов от ИИ) и вероятность победы старшего по РС-2005 будет 100%, а по РС-90 только 80%. Таким образом, выиграв 10 партий у 5-х данов, Динерштейн зарабатывал около 20 пунктов рейтинга просто так, за счет ошибки формулы вероятностей. Поэтому нет проблемы лет за 5 набрать 100 "лишних" пунктов. Заметим еще раз, что такой процесс отрыва лидера приводит к снижению среднего рейтинга основной части игроков дан-уровня без реального снижения уровня игры, и эта волна деформации постепенно смещается вниз шкалы.
Следует еще раз подчеркнуть, что описанные выше процессы дефоромации шкалы существенно проявляются только при отсутствии достаточного числа учитываемых в РС форовых партий. Так как фора сводит все вероятности побед/поражений примерно к 50% независисмо от конкретного вида функции вероятностей, применяемой в той или иной РС, то ошибки в расчете вероятностей подавляются при пересчете форовых партий и форовый принцип, таким образом, является мощным стабилизатором всей рейтинговой шкалы.
Последний из рассматриваемых факторов - рост мастерства игроков - также приводит в целом к деформации шкалы типа растяжения, т.к. растущий игрок отнимает лишние пункты рейтинга в основном у более старших, и продвигаясь по шкале вверх вплоть до своего уровня стабилизации может суммарно отнять у стабильных игроков тысячи пунктов рейтинга. В самом деле, пусть игрок вошел в РС с рейтингом 1000 (11 кю), а стабилизировался на уровне 2000 (1 кю). Тогда этот прирост в 1000 пунктов, если не было экспертных оценок и аномалок, полностью получен за счет отбора примерно такого же количества пунктов у остальных игроков (сначала только у соперников, с которыми встречался растущий, а потом этот дефицит рейтинга перераспределяется между всеми остальными участниками). Если в РС кроме растущего еще 10 стабильных игроков, то они понизятся в рейтинге каждый на целый ранг! При 100 игроках среднее снижение уже не так заметно - всего 10 пунктов. Однако при достаточном количестве в РС растущих игроков стабильные игроки постоянно теряют рейтинг. По оценкам для РС-90 эта скорость потери рейтинга стабильной группой данов составляла до 20 пунктов в год и за 15 лет эксплуатации РС общие потери рейтинга достигали порядка 300 000 пунктов.
Описанная выше ситуация с деформациями шкалы в период 1985-2004гг. хорошо согласуется со статистикой 2005-2007гг. При этом анализ статистики показал, что уже к концу 2005 года расхождения частот и прогнозов стали уменьшаться за счет резкого увеличения числа форовых игр (18% в 2005 году, в среднем 13% в последние три года), а также за счет применения более правильной функции вероятностей и использования более динамичного алгоритма, основанного на усовершенствованном методе аномальной коррекции и применении формул Гликмана с индивидуальными отклонениями рейтинга. Но скорость такой сходимости крайне низка, в последующие два года скорость автокоррекции упала и для исправления шкалы внутри самой РС без коррекции административным способом пришлось бы ждать лет 10-15, т.е. примерно столько же, сколько деформации накапливались.
СТАТИСТИКА ТУРНИРОВ
1. Вводные замечания
Для корректной обработки статистики турниров по го необходимо прежде всего выделить группы учета партий по уровням мастерства соперников. Здесь возможны два подхода:
При первом подходе принято для минимальных групп учета принимать партии игроков примерно одного ранга, затем к ним добавляются группы партий по увеличивающейся на один ранг разнице в силе игры. В этом случае базовыми группами учета будут партии на равных между игроками одного ранга, потом партии игроков, отличающихся на один, два, три, четыре ранга и т.д. Это самое мелкое деление шкалы рейтинга, которое используется на практике для статистического учета партий в го. Данный подход является традиционным и используется в статистике Европейской Го Федерации (ЕГФ) и ниже приводится пример такой статистики.
Следует отметить еще раз, что при поранговом учете статистики средние вероятности побед для пар из соседних базовых групп учета (отдельные ранги) меняются при смещении по шкале, т.к. вероятности побед зависят не только от разницы в силе игры, но и от уровня соперников. Поэтому при обработке статистики партий российских турниров был выбран второй подход: в этом случае вероятности в различных группах учета в среднем оказываются примерно одинаковыми по всей шкале (при фиксированной разнице между средними партнерами по шкале групп).
В го имеется естественная разбивка игроков по разрядам Единой Всероссийской Спортивной Классификации (ЕВСК). За основу разрядной сетки взята вероятность победы в 80% при встрече среднего игрока какого-либо разряда со средним соперником из разряда на одну ступень ниже, при этом вся шкала разбивается на следующие разряды по рейтингу:
б/р - до 900,
3р - 900-1399,
2р - 1400-1799,
1р - 1800-2149,
КМС - 2150-2349,
МС - 2350-2549,
Гр - 2550 и выше.
Разбивка на группы на основе разрядной сетки лучше подходит для целей статистического учета партий в российских турнирах еще и потому, что в этом случае обеспечивается достаточное наполнение групп, т.к. в целом выборка партий не настолько объемна, чтобы можно было вводить более мелкие группы учета по рангам. Для партий на форе число групп увеличивается за счет разбиения базовых групп на подгруппы по величине форы (от 1 до 9). В некоторых случаях рассматриваются также укрупненные группы учета (например, нижняя и верхняя части шкалы рейтинга с границей по рейтингу 1500).
Основное внимание при анализе статистики следует обращать на разницу частот и вероятностных прогнозов, т.к. эта характеристика является главным критерием качества статистической модели, заложенной в основу рейтинг-системы (РС). Кроме того, различные группы учета имеют неодинаковую значимость для оценок качества РС: наиболее важными являются группы из верхней части шкалы, т.к. игроки из этой группы являются наиболее стабильными участниками РС и выступают в роли анкеров по отношению к остальным участникам. В форовых партиях наиболее важными являются группы с форой до 4 камней, т.к. здесь можно рассчитывать на хорошее соблюдение условия линейности форы, а при большей форе могут проявляться особенности, не достаточно изученные на данное время.
Отдельно следует отметить особенности учета партий игроков с экспертными оценками (ЭО) уровня игры. Часть игроков получает ЭО при первом входе в РС, но есть игроки, имевшие перерыв в выступлениях, за время которого они существенно повысили свой уровень и поэтому также получали ЭО, принимавшиеся за их новый стартовый уровень при пересчетах рейтинга. К этой группе примыкают игроки, которые не входят в РС (т.н. "внешние", в основном иностранные участники российских турниров) и их партии учитываются только в целях пересчета рейтинга игроков из РС. По указанным группам участников ведется дополнительная статистика, а игроки с подтвержденными ЭО, т.е. показавшие по результатам пересчитываемого турнира неотрицательное измененение рейтинга, учитываются в статистике наравне с обычными участниками РС. Необходимость отдельного учета неподтвержденных ЭО вытекает из того факта, что в 2005-2007гг наблюдалось значительное в среднем завышение ЭО по сравнению с реально достигнутым уровнем игры: в партиях участников с неподтвердденными ЭО против игроков из РС недобор побед достигал почти 30% в относительном выражении (в частоте).
Таким образом, вся статистика имеет следующую структуру: в основные группы учета входят партии между участниками из РС, включая игроков с подтвержденными ЭО, и отдельно ведется учет партий между игроками с ЭО и соперниками из РС (включая игроков с подтвержденными ЭО), а также дополнительно ведется учет всех партий игроков с неподтвержденными ЭО и внешних.
Все рейтинги и, соответственно, группы учета в статистических таблицах указываются с учетом проведенной в начале 2008 года коррекции шкалы. Параметры, относящиеся к старой шкале (вероятностные прогнозы, средние рейтинги соперников и их разница) указываются в отдельных колонках (ожидаемые результаты - с индексом 1).
2. Сравнительный анализ вероятностных функций в РС ЕГФ и РФГ(Б)
Вероятностная функция в той или иной РС является частью статистической модели и выбирается на основе специальных теоретических исследований или статистического анализа на больших выборках партий. Традиционно, начиная с шахматной РС А.Эло (1970), для формулы вероятностей в логических играх как правило выбирают кривую из семейства гауссовых распределений (интеграл Гаусса, т.е. нормальное распределение с экспоненциальной плотностью), или кривую с дробно-экспоненциальной зависимостью вероятностей победы от разницы рейтингов (класс так называемых "логистических кривых"). В РС ЕГФ выбрана логистическая кривая с двумя свободными параметрами, уточняемыми на основе статистического анализа. Класс нормальных распределений также является двухпараметрическим, и оба класса могут использоваться для взаимной аппроксимации при подходящем выборе параметров в заданном интервале значений рейтингов. Статистика равных партий в какой-либо узкой группе по рейтингу в данной РС задает одно условие на параметры, а второе условие обеспечивается статистикой форовых партий, так что для двухпараметрических семейств распределений этой информации вполне достаточно для полного определения статистической модели РС с зависимостью вероятностных формул как от разницы рейтингов, так и от уровней игроков при фиксированном классе распределений.
Поскольку анализ статистики ЕГФ (более 100 000 партий на момент разработки проекта РС-2005) и регулярно проводимый в ЕГФ мониторинг показали, что форовые соотношения в РС ЕГФ соблюдаются достаточно точно (в пределах статистической погрешности), то статистика ЕГФ пригодна для уточнения параметров вероятностных распределений как для форовых, так и для равных партий, если выбран какой-либо подходящий двупараметрический класс кривых (не обязательно только нормальных или логистических).
Соблюдение в РС правильных форовых соотношений означает, что вероятности побед/поражений при правильной форе близки к 50% независимо ни от разницы рангов, ни от расположения соперников на шкале рейтингов (рангов). В этом случае статистика партий на форе практически не зависит от не очень больших линейных сдвигов шкалы (при фиксированной точке отсчета, соответствующей рейтингу ИИ), а статистика равных партий характеризует истинные вероятностные соотношения в совокупности игроков независимо от выбора формулы вероятностей в РС, т.к. форовые соотношения от вида функции вероятностей не зависят. С другой стороны, обычно применяемые формулы вероятностей для равных партий инвариантны с высокой точностью относительно растяжений-сжатий всей шкалы с центром в рейтинге ИИ, принимаемом за относительную точку отсчета рейтингов. В наиболее часто используемых абсолютных шкалах рейтингов обычно эта точка не ниже 3000 пунктов.
Исходя из выше изложенного, в 2003 году было проведено статистическое исследование выборки партий ЕГФ на предмет определения подходящего для формулы вероятностей двухпараметрического класса функций и уточнения конкретных значений параметров. Оказалось, что частоты в равных партиях для различной фиксированной разницы в уровне соперников (1, 2, 3 и 4 ранга) качественно ведут себя одинаково: кривые частот имеют гиперболический вид, а при обращении частот (замена зависимой переменной - частоты Y - на обратную величину Z = 1/Y) эти кривые переходят в прямые, сходящиеся примерно в одной точке на оси рейтингов, которая имеет физический смысл рейтинга ИИ. Вычисленное на данной выборке с использованием метода наименьших квадратов значение рейтинга ИИ с высокой точность оказалось равно 3000 пунктов. Сами так полученные статистические прямые имели углы наклона с высокой точность соответствующие линейному приращению частот при переходе с одной прямой на другую. Поэтому для проекта РС-2005 был выбран класс непрерывных монотонных и симметричных по разнице рейтингов кривых, состоящих из трех кусков: константы 0 и 1 на достаточном удалении по разнице рейтингов от точки симметрии, где эта разница равна 0 и вероятность P = 50%, а в средней части между этими предельными значениями используется линейно-гиперболическая формула зависимости вероятности от разницы рейтингов (эта разность стоит в числителе дроби, прибавляемой к 0.5) и среднего уровня пары (расстояние пары от рейтинга ИИ - в знаменателе дроби).
Описанный выше класс кусочно-гладких кривых при не очень больших разницах рейтингов является хорошей аппроксимацией как для класса нормальных распределений, так и для класса логистических кривых при согласованном выборе параметров. Ниже в качестве иллюстрации приводится сопоставление частот с вероятностями по формулам ЕГФ и РС-2005 на выборке партий ЕГФ, в которых на равных встречались соперники со средней разницей уровней в один ранг (всего данная статистика содержала около 86 тыс. партий).
Таблица 1.
Сравнение частот побед в равных партиях с вероятностными прогнозами по формулам ЕГФ и РФГ при средней разнице в 1 ранг
Приведены частоты побед более слабого в усредненных по рангам парах соперников
P_егф - вероятность по формуле ЕГФ
P_рфг - вероятность по формуле РФГ
Ранг R1 R2 DR Dcp Побед Партий Статвес Частота P_егф Сдвиг С весом P_рфг Сдвиг С весом
14K 694,3 791,3 97 2258 569 1249 0,01603 45,6 38,2 7,3 0,12 45,7 -0,1 -0,0016
13K 787,9 881,2 93,3 2166 617 1397 0,01793 44,2 38,1 6 0,11 45,7 -1,5 -0,0269
12K 883,8 966,5 82,7 2075 673 1471 0,01888 45,8 39,3 6,5 0,12 46,0 -0,2 -0,0038
11K 974,4 1066,2 91,8 1980 881 1883 0,02417 46,8 37,8 9 0,22 45,4 1,4 0,0338
10K 1072,4 1155,4 83 1887 1145 2561 0,03287 44,7 38,6 6,1 0,20 45,6 -0,9 -0,0296
9K 1164,3 1257,8 93,5 1790 1171 2594 0,03330 45,1 37 8,1 0,27 44,8 0,3 0,0010
8K 1265,4 1347,5 82,1 1694 1222 2779 0,03567 44 38,2 5,8 0,21 45,2 -1,2 -0,0428
7K 1356,1 1442,9 86,8 1601 1429 3203 0,04111 44,6 37,2 7,4 0,30 44,6 0 0
6K 1455,3 1548 92,7 1499 1691 3949 0,05069 42,8 36 6,8 0,34 43,8 -1 -0,0507
5K 1554,8 1641,7 86,9 1402 1945 4361 0,05600 44,6 36,2 8,4 0,47 43,8 0,8 0,0448
4K 1654 1742,8 88,8 1302 2232 4921 0,06317 45,4 35,5 9,9 0,63 43,2 2,2 0,1390
3K 1753 1842,5 89,5 1203 2390 5546 0,07119 43,1 34,8 8,3 0,59 42,6 0,5 0,0356
2K 1853,8 1951,2 97,4 1099 2527 6218 0,07982 40,6 32,7 8 0,64 41,1 -0,5 -0,0400
1K 1964,4 2065,7 101,3 986 3059 7738 0,09933 39,5 31,2 8,4 0,83 39,7 -0,2 -0,0199
1D 2077,1 2172,4 95,3 877 2728 7269 0,09331 37,5 31,1 6,4 0,60 39,1 -1,6 -0,1493
2D 2182,5 2279 96,5 771 2156 6236 0,08005 34,6 29,8 4,7 0,38 37,5 -2,9 -0,2321
3D 2288,6 2380,5 91,9 667 2025 5840 0,07496 34,7 29,8 4,9 0,37 36,2 -1,5 -0,1124
4D 2384,2 2476,9 92,7 571 1457 4746 0,06092 30,7 28,7 2 0,12 33,8 -3,1 -0,1889
5D 2495,2 2590,8 95,6 459 905 3256 0,04180 27,8 26,7 1,1 0,05 29,2 -1,4 -0,0585
6D 2598,7 2728,6 129,9 343 102 687 0,00882 14,8 18,5 -3,6 -0,03 12,1 2,7 0,0238
30924 77904 Средний сдвиг 6,53% (ЕГФ) -0,67% (РФГ)
В таблице опущены ранги от 15 кю и ниже ввиду больших отклонений в этой части шкалы из-за влияния нижней границы рейтинга, где ранг 20 кю присваивается в ЕГФ всем новичкам независимо от реального уровня игры. Как видим, линейно-гиперболическая формула на порядок точнее принятой в ЕГФ логистической кривой. Большие расхождения для формулы ЕГФ объясняются в основном тем, что при выборе параметров логистической кривой были взяты значения, заведомо занижающие вероятности побед для более слабого соперника почти на всей шкале (рейтинг ИИ в РС ЕГФ принят равным 4100). Подробные данные по использованной здесь статистике партий ЕГФ предоставлены в октябре 2006 года Европейским рейтинг-комитетом.
3. Коррекция шкалы по турнирам до 2008 года
В 2005-2007гг в России проведено 164 турнира, в которых сыграно 8354 партии, из них 1227 форовых. Анализ статистики по разным периодам и группам учета показал, что для устранения деформаций шкалы нужно сделать сжатие шкалы рейтингов с уменьшением амплитуды к верхним данам. С помощью процедуры подгонки параметров было установлено, что наиболее адекватной статистике 2007 года по верхней половине шкалы (1500 и выше) будет коррекция по следующей формуле
Rкорр = R + 0.2 * Corr * D,
где D = 3000 - R, и коэффициент Corr равен 1 для R < 1500, т.е. чистое сжатие шкалы на 20% для регионалов, а для федералов (R >= 1500) Corr постепенно снижается до нуля по квадратичному закону
Corr = 1- (1 - D/1500)2.
В таблице 2 приводятся поправки и конечные значения для рейтинговой лестницы рангов.
Таблица 2. Коррекция рейтингов, адекватных рангамR DR R_корр 0 600 600 100 580 680 200 560 760 300 540 840 400 520 920 500 500 1000 600 480 1080 700 460 1160 800 440 1240 900 420 1320 1000 400 1400 1100 380 1480 1200 360 1560 1300 340 1640 1400 320 1720 1500 300 1800 1600 279 1879 1700 255 1955 1800 230 2030 1900 204 2104 2000 178 2178 2100 151 2251 2200 125 2325 2300 100 2400 2400 77 2477 2500 56 2556 2600 37 2637 2700 22 2722 2800 10 2810 2900 3 2903
3. Статистика 2008 года
Так как коррекция шкалы проводилась по формуле, основанной на статистике 2007 года, т.е. определенной по фактическим результатам пересчета рейтинга по старой версии программы, то адекватность выбора параметров коррекции могла быть выяснена только на основе статистики, насчитанной уже после коррекции шкалы ("критерий истины - практика").
Всего в 2008 году проведено 54 рейтинговых турнира. Общее число партий - 3108, в том числе форовых - 318 (10%). Из них учтено в статистике для игроков из РС 2346 равных и 207 форовых партии. Из 1259 участников у 78 (6.2%) зафиксирован аномальный результат, а суммарная аномальная коррекция составила 10791 пункт (по 138 пунктов в среднем). Суммарный прирост рейтингов в РС составил 9623 (по 7.6 пункта в среднем на участника), т.е. полностью покрывается аномальными поправками с небольшим относительным избытком.
Таблица 3. Сводная статистика 2008 года
_N Всего: Фор-ых Уч_рав N_wins _P_win Уч_фор N_wins _P_win Уч-ков ЭО ЭО+ Вн И_Э И_В
1 080105_Bar_Ch 16 13 2 2 1.25 4 2 1.77 6 2 0 0 10 0
2 080108_R12_NNo 75 0 49 38 33.26 0 0 0.00 26 14 9 0 26 0
3 080120_Nov_CNSO2 28 25 1 1 0.51 11 5 5.04 11 6 2 0 16 0
4 080217_StP_CNY_A1_08 23 0 23 17 18.26 0 0 0.00 10 0 0 0 0 0
5 080223_StP_CNY_BF1_0 12 0 12 8 10.09 0 0 0.00 8 2 2 0 0 0
6 080223_StP_CNY_For 41 37 0 0 0.00 18 9 8.39 19 14 7 0 23 0
7 080224_Mos_Kido_EO 94 66 20 13 11.87 45 18 20.91 41 20 13 1 29 3
8 080224_Sch 55 0 28 23 22.50 0 0 0.00 23 11 4 0 27 0
9 080225_NNo_Ch 30 0 24 20 19.06 0 0 0.00 10 3 2 0 6 0
10 080316_Izh_L41-12 25 0 25 18 15.67 0 0 0.00 11 0 0 0 0 0
11 080323_Mos_Ch4 50 0 50 40 32.94 0 0 0.00 20 0 0 0 0 0
12 080323_Izh_Ust-12 30 0 24 20 14.38 0 0 0.00 10 3 2 0 6 0
13 080323_Rus_StP_JCC 180 0 125 69 80.55 0 0 0.00 74 19 9 2 55 9
14 080330_Izh_Len-12 20 0 20 14 12.29 0 0 0.00 8 1 1 0 0 0
15 080330_Mos_YTC 53 0 27 19 19.91 0 0 0.00 23 8 2 0 26 0
16 080413_Izh_C12 54 0 54 46 32.68 0 0 0.00 22 7 7 0 0 0
17 080420_Mos_Ch2 45 0 45 34 32.39 0 0 0.00 18 0 0 0 0 0
18 080420_NNo_Cup 48 0 40 31 25.88 0 0 0.00 21 2 0 0 8 0
19 080427_Izh_ChB 61 0 61 41 44.54 0 0 0.00 22 1 1 0 0 0
20 080430_Nov_ChO 28 0 28 20 21.14 0 0 0.00 8 0 0 0 0 0
21 080501_Per_PFO 58 0 54 42 41.91 0 0 0.00 24 3 2 0 4 0
22 080503_Eka_UFO 89 0 46 29 30.65 0 0 0.00 36 17 7 0 43 0
23 080503_Nov_SFO 85 0 57 41 39.56 0 0 0.00 34 11 5 0 28 0
24 080510_Mos_Vic 22 0 18 12 12.81 0 0 0.00 12 1 0 0 4 0
25 080510_RDo_JFO 56 0 38 22 25.94 0 0 0.00 24 10 5 0 18 0
26 080518_Jar_CFO 55 0 34 26 23.43 0 0 0.00 23 13 8 0 21 0
27 080518_VNo_ZFO 34 0 28 25 24.62 0 0 0.00 15 5 3 0 6 0
28 080601_Mos_ChF 28 0 28 22 17.39 0 0 0.00 8 0 0 0 0 0
29 080614_StP_Ch2 37 0 32 31 28.65 0 0 0.00 16 2 1 0 5 0
30 080622_StP_ChF 14 0 14 9 9.88 0 0 0.00 8 0 0 0 0 0
31 080708_RTC_StP 58 0 58 41 47.15 0 0 0.00 28 0 0 0 0 0
32 080709_R16_StP 36 0 36 31 29.10 0 0 0.00 12 0 0 0 0 0
33 080713_ROC_StP 143 0 143 83 95.90 0 0 0.00 51 2 2 0 0 0
34 080727_Bar_Alt 60 44 14 9 9.43 26 19 18.45 20 6 2 0 20 0
35 080803_Ufa_For 20 19 0 0 0.00 7 4 4.06 8 4 2 1 13 5
36 080824_RCF_Per 15 0 15 15 13.37 0 0 0.00 6 0 0 0 0 0
37 080907_Mos_Fes 73 53 20 12 11.92 53 30 29.00 32 1 1 0 0 0
38 080908_Rus_Kaz_AVM 74 0 69 59 56.00 0 0 0.00 26 5 4 0 5 0
39 080914_Rus_Mos_CTY 59 0 53 48 42.78 0 0 0.00 26 4 2 0 6 0
40 080921_Chl_CuO 28 0 21 18 17.95 0 0 0.00 8 1 0 0 7 0
41 080921_R25_Chl 90 0 79 60 60.73 0 0 0.00 30 6 4 0 11 0
42 080928_Mos_C25 72 0 52 45 40.02 0 0 0.00 30 12 7 0 20 0
43 081005_RDo_ChO 57 0 42 35 36.70 0 0 0.00 31 15 9 0 15 0
44 081012_Mos_C18 53 0 49 39 36.72 0 0 0.00 23 2 1 0 4 0
45 081019_Izh_Cup 99 0 84 61 61.21 0 0 0.00 41 13 9 0 15 0
46 081102_R18_Izh 126 0 112 84 81.03 0 0 0.00 43 3 0 0 14 0
47 081104_Sib_CFT 66 0 58 44 44.18 0 0 0.00 43 10 6 0 8 0
48 081109_Mos_JAC_Yth 25 0 21 13 15.07 0 0 0.00 11 2 1 0 4 0
49 081109_Rus_Mos_JAC 185 0 180 103 117.40 0 0 0.00 74 7 6 0 5 0
50 081116_Mos_C12 46 0 28 23 20.03 0 0 0.00 20 10 4 0 18 0
51 081123_RCM_Mos 105 0 105 74 73.92 0 0 0.00 30 0 0 0 0 0
52 081130_Mos_ChT 79 0 69 54 53.14 0 0 0.00 39 9 6 0 10 0
53 081207_Nov_ChO 77 61 15 11 10.62 43 27 27.25 28 9 5 0 19 0
54 081227_Mos_Cup 16 0 16 14 12.08 0 0 0.00 8 0 0 0 0 0
Итого по всем турнирам 3108 318 2346 1709 1690.48 207 114 114.87 1259 296 163 4 555 17
Партий N_wins P__wins DN_сред R_средн DR_ср P__win1 DN_сред R_средн DR_ср
Равные: 2346 1709 1690.48 0.008 1749 296 1712.00 -0.001 1453 378
фор-ые: 207 114 114.87 -0.004 1693 389 127.63 -0.066 1377 500
Как видно из таблицы 3, частоты в форовых партиях очень точно соответствуют прогнозу (расхождение в 0.4%), в то время как без коррекции шкалы статистика дала расхождение в 6.6%. Соответствие шкалы рейтингов и шкалы данов-кю находится в пределах статистической погрешности и составляет 102 пункта на один ранг в среднем по всей шкале. Статистика равных партий по группам учета приводится в таблице 4.
Таблица 4. Статистика равных партий
Группы учета Партий Побед > Nw_ожид R__сред DR_сред H/D__ср DN/E_b Nw_ож_1 R__сред DR_сред Игр_ЭиВ Побед > Nw_ожид R__сред DR_сред H/D__ср DN/E_b Nw_ож_1 R__сред DR_сред
<900 Б/р 126 73 72.16 635 176 0.000 0.221 72.16 43 220 122 64 68.84 468 162 0.000 -1.300 68.84 -164 202
Б-3 200 158 142.18 876 453 0.000 3.315 142.19 345 566 61 49 43.65 816 477 0.000 2.031 43.65 270 596
Б-2 53 46 49.16 1061 892 0.000 -1.286 49.16 576 1114 27 26 25.16 1029 893 0.000 0.479 25.16 537 1116
Б + 29 29 29.00 1096 1589 0.000 0.000 29.00 624 2005 10 10 10.00 1030 1663 0.000 0.000 10.00 541 2094
900 3р 157 103 90.30 1131 140 0.000 3.003 90.30 664 175 48 25 26.87 1131 112 0.000 -0.800 26.87 664 141
3-2 194 143 142.52 1360 389 0.000 0.103 142.51 950 486 46 32 33.48 1336 381 0.000 -0.645 33.48 920 477
3-1 60 57 58.27 1523 776 0.000 -0.484 58.32 1157 978 7 6 6.43 1472 692 0.000 -0.481 6.43 1091 867
3 + 54 54 54.00 1624 1107 0.000 0.000 54.00 1289 1423 1 1 1.00 1495 1273 0.000 0.000 1.00 1128 1629
1400 2р 130 74 75.55 1593 114 0.000 -0.402 75.55 1242 142 40 24 23.54 1572 126 0.000 0.214 23.54 1215 157
2-1 164 127 127.02 1780 336 0.000 -0.005 127.95 1478 428 29 26 24.26 1726 427 0.000 0.957 24.42 1411 542
2-К 48 44 46.91 1874 612 0.000 -1.244 47.27 1604 798 8 6 7.83 1858 654 0.000 -1.915 7.87 1583 852
2 + 13 13 13.00 1980 812 0.000 0.000 13.00 1738 1068 2 2 2.00 1831 975 0.000 0.000 2.00 1551 1270
1800 1р 179 109 106.60 1973 98 0.000 0.532 107.70 1724 130 18 11 10.93 1918 114 0.000 0.046 11.04 1653 149
1-К 209 154 155.06 2121 216 0.000 -0.217 159.94 1922 292 11 8 7.89 2122 194 0.000 0.100 8.12 1924 263
1-М 55 49 53.11 2193 427 0.000 -1.642 53.96 2016 574 2 2 1.98 2236 393 0.000 0.051 2.00 2072 530
1-Г 13 13 13.00 2221 588 0.000 0.000 13.00 2047 781 0 0 0.00 0 0 0.000 0.000 0.00 0 0
2150 КМC 156 98 90.33 2255 59 0.000 1.820 91.91 2105 80 5 4 3.08 2217 90 0.000 1.218 3.15 2053 122
К-М 208 153 156.04 2348 164 0.000 -0.624 162.29 2228 218 6 5 4.46 2315 167 0.000 0.656 4.64 2184 224
К-Г 44 42 42.91 2418 307 0.000 -0.406 43.71 2315 398 0 0 0.00 0 0 0.000 0.000 0.00 0 0
2350 МС 128 80 77.75 2438 60 0.000 0.590 79.47 2348 78 1 1 0.51 2402 4 0.000 1.462 0.51 2302 5
М-Г 95 73 75.36 2521 145 0.000 -0.717 78.03 2454 183 0 0 0.00 0 0 0.000 0.000 0.00 0 0
2550 Гр 31 17 20.28 2614 57 0.000 -1.744 20.60 2572 68 0 0 0.00 0 0 0.000 0.000 0.00 0 0
Б - 2 1003 737 713.13 1167 423 0.000 2.233 713.18 710 532 362 237 238.97 927 342 0.000 -0.307 238.97 409 428
2 - Г 1343 972 977.35 2183 200 0.000 -0.433 998.82 2008 263 82 65 62.93 1930 317 0.000 0.676 63.76 1676 410
Всего: 2346 1709 1690.48 1749 296 0.000 1.133 1712.00 1453 378 444 302 301.90 1112 337 0.000 0.013 302.74 643 424
Расхождение частот и прогнозов в равных партиях находится в пределах статистической погрешности. Наибольший вклад в разницу дали группа "Б-3" (15.8 побед, т.е. около 8%) и группа - "3р" (12.7 побед, т.е. тоже около 8%). Без аномальных групп схождение частот и прогнозов прекрасное - разница всего около 0.5%.
В заключение еще раз констатируем: приведенные результаты подтверждают правильность проведенной коррекции и в целом хорошую сбалансированность шкалы рейтингов к началу 2009 года.
Российская федерация Го