xp_cmdshell (xp_cmdshell) wrote,
xp_cmdshell
xp_cmdshell

Чай холодный,без сахара и без заварки

или как Учоные™ разводят Почтеннейшую Публику.



Книги сжечь, ученых в яму.
Император Цинь Ши Хуанди.


Наряду с посещением митингов оппозиции, к числу трендов сезона отностится и статистический анализ результатов выборов. Многие блоггеры рисуют разнообразные красивые графики, с помощью которых доказывают, что прошедшие выборы в Думу безнадежно фальсифицированы, рассчитывают проценты фальсификации  и т.д.  Какие-то хомячки даже вышли на митинг с плакатом, на котором были нарисованы графики и надписью "Чурову не верим!Верим Гауссу!". Этот тренд вызывает у многих умиление: мол, страна не безнадежна, плакаты  свидетельствуют о высоком интеллекте участников митингов. 




Рис.1 Эти люди верят Гауссу, потому что им сказали, что так принято в Сифилизованных Странах™
Они называют себя Креативным Классом™, но на самом деле они - Тупое Говно и должны жить на Помойках.



Среди многих блоггеров, занимающихся разоблачением тов. Чурова и Кровавого Режима, на мой взгляд выделяются двое. Это kireev
 и podmoskovnik  .Они занимаются уже достаточно давно, массовые статистические разоблачения фальсификаций стали трендом в многом благодаря их усилиям. Первый из них - просто госдеповский спецпропагандон, который льёт грязь на нашу страну в соответствии с занимаемой в Госдепе должностью. Позиционирует он себя как "электоральный географ" и не отягощен какими либо познаниями в области математической статистики. Разбор его деятельности относится целиком к компетенции Военной Коллегии Верховного Суда, и я надеюсь, что в конце концов его постигнет судьба лорда Гау-Гау. Более интересно разобраться в том, как доказывает фальсификации podmoskovnik  .Итоги его анализа прошедших выборов опубликованы в газете.ру и газете "Троицкий вариант" , считающейся авторитетным изданием в научных кругах (См. также здесь.) Прежде всего в этом анализе настораживает то, что "Шпилькин", как он обозначает себя в этих публикациях, пытается убедить читателей  в своей правоте, так сказать, жестами. Например, "Шпилькин" отмечает "сильную положительную корреляцию" доли избирателей, проголосовавших за партию власти с процентом явки. Он задается вопросом:"были ли на выборах статистически заметные фальсификации и аномалии?" и в качестве иллюстрации приводит различные графики. Хотя в матстатистике значимость всегда выражается численно, "Шпилькин" сам судит "на глазок" и предлагает судить "на глазок" и читателю.


Рис.2. На этом рисунке демонстрируется корреляция между долей голосов от списочного состава и процентом явки. Синие точки соответствуют ЕР. Наклонная белая прямая, проходящая через начало координат, видимо, каким-то образом аппроксимирует корреляционную зависимость.

В этой заметке я остановлюсь только на корреляциях между процентом явки и процентом голосов, а разбор популярности гауссова распределения пока откладываю на будущее, но уверяю, что "Шпилькин" и в том, и в другом случае жжот не хуже напалма. Он забывает о том, что наличие корреляции между процентом явки и долей голосов не означает, что рост процента явки является причиной роста доли голосов ("Correlation is not causation"), что направление причинно-следственной связи вполне может быть противоположным: высокая доля голосов за ЕР может быть причиной, а не следствием высокой явки. Вполне возможно также, что высокая корреляция между этим величинами обусловлена тем, что они обе сильно коррелируют с какой-то третьей величиной, которую "Шпилькин" не принимает во внимание. Игнорирование этих обстоятельств зачастую (особенно в начале 20-го века, во времена зарождения корреляционного анализа) приводило к обнаружению различных абсурдных корреляций вплоть до корреляций между количеством аистовых гнезд и рождаемостью. Однако и "Шпилькин" и К0 попадают в еще более примитивную ловушку. Они не замечают, что доля голосов, поданых за партию и процент явки коррелированы по построению: эти величины находятся в функциональной зависимости, потому что таково определение процента. Но давайте по порядку.

Выборка на графике рис.2 слишком велика, чтобы с помощью её увидеть более тонкие закономерности. Чтобы увидеть их, возьмем совсем небольшие выборки, не более 10 УИК. Например, выберем те УИК на которых явка составила 96 человек, а за "Единую Россию" проголосовало 48 человек. Вот как выглядит ответ на этот запрос в среде Microsoft SQL Server 2005 Management Studio


Рис.3. Количество зарегистрированных избирателей (столбец Size) на тех участках, где за "Единую Россию" проголосовало 48 человек при явке в 96 человек

"Шпилькин" считает долю голосов от числа зарегистрированных избирателей. Почему то он считает это более "научным". Будем считать так считать и мы. Поэтому поделим 96 и 48 на столбец Size (количество зарегистрированных избирателей чем не показатель размера участка?) и на нанесем точки на график




Рис.4. Зависимость доли голосов, поданных за ЕР от процента явки на тех участках где явка составила 96 человек, а за ЕР голосовало 48 человек


Легко проверить, что все 11 точек идеально точно ложаться на прямую с угловым коэффициентом 0.5, проходящую через начало координат. Понятно, что коэффициент корреляции для этой выборки составит 100%.
Потом добавим на график выборку из участков с явкой в 96 человек, на которых за ЕР проголосовало 46 человек.



Рис.5 Тоже, что и на рис.4 но с добавлением участков где за ЕР проголосовало 46 человек, а явка составила 96 человек.

На графике появилась серия точек, которая ложится на прямую, также проходящую через начало координат, но с меньшим наклоном. Общий коэффициент корреляции, разумеется, будет мешьше 100%.
Продолжая исследовать зависимость наклона от явки и числа голосов, добавим на график еще одну выборку,из участков на которых явка по-прежнему 96 человек, а за ЕР голосует 54 человека

.


Рис.6 Тоже, что и на рис.5 но с добавлением участков где за ЕР проголосовало 54 человека, а явка составила 96 человек.

Разумеется, новая серия также идеально ложится на прямую, проходящую через начало координат, но угловой коэффициент больше, чем у первой прямой. Общий коэффициент корреляции у такой смешанной выборки еще меньше.
Мы видим, что с увеличением абсолютного числа голосов, поданных за ЕР наклон прямой увеличивается, а с уменьшением - уменьшается. От явки зависимость будет обратная.



Рис.7 Если абсолютное число голосов постоянно, то с увеличением явки наклон прямой уменьшается, а с уменьшением - увеличивается.

Сказанного вполне достаточно, чтобы самый тупой читатель понял: каждая серия на графиках определяется уравнением


Доля голосов за партию от списочного состава=((Абсолютное число голосов за партию)/(Явка))*Процент явки. (1)

Откуда берется это уравнение? Оно вытекает из определений процентов.


Процент явки = Явка/Количество зарегистрированных избирателей (2)

и
Доля голосов за партию от списочного состава = Абсолютное число голосов за партию/Количество зарегистрированных избирателей (3)

Исключая из (2) и (3) Абсолютное число голосов за партию, получаем (1). В качестве иллюстрации приведу график, на который нанесено несколько выборок с различными явками и различным абсолютным числом голосовавших для КПРФ.



Рис.8. При увеличении варьирования явки и абсолютного числа голосов распределение точек на графике расплывается всё больше и больше.

Кстати, угловой коэффициент, который равен отношению абсолютного числа голосов за партию к явке - это просто процент голосов за партию к явке, то есть процент голосов так, как считает его ЦИК. И уравнение прямой теперь можно записать в виде


Доля голосов за партию от списочного состава=Доля голосов за партию от явки*Процент явки (4)

Это уравнение позволяет понять, почему облако точек для "Единой России" на рис.2 вытянуто с юго-запада на северо-востока,а для остальных партий - скорее с запада на восток. Потому что облака состоят из большого числа небольших серий точек, лежащих на прямых, определяемых уравнением (4), а у "Единой России" угловой коэффициент в этом уравнении существенно больше, потому что у ЕР доля голосов от явки больше:).


Хаотичность же облаку придает то обстоятельство, что "Шпилькин" и К0 строят график функции двух переменных на плоскости и никак не фиксируют одну из переменных. Для того, чтобы построить осмысленный график функции двух переменных, совсем не обязательно строить 3D-графики, можно строить графики и на плоскости, но для этого нужно зафиксировать одну из переменных, иначе мы увидим скорее всего хаотический набор точек. Полезно фиксировать одну из переменных и для целей анализа. Похожая ситуация сплошь и рядом возникает в эконометрике. Например,при исследовании зависимости спроса от цены товара может получится такое же хаотическое облако точек, если не фиксировать доход потребителя. На самом деле - это совокупность прямых с отрицательным наклоном, которые смещаются вверх и вниз в зависимости от величины дохода.Неучет этого обстоятельства может привести к неправильным выводам, например, может показаться, что спрос растет с ростом цены товара. Но, разумеется, в нашем случае нетрудно построить и 3D-графики. Те, кто изучал аналитическую геометрию, легко догадаются, что все точки, удовлетворяющие уравнению (4), лежат на седлообразной поверхности, которая называется "гиперболический парабалоид"


>
Рис.9. Расположение точек, соответствующих "Единой России" на гиперболическом параболоиде. Значение координаты продолжены за пределы интервала [0,1] для того, что показать, что поверхность действительно имеет седлообразную форму.


Аналогичный вид имеет картинка и для других партий.



Рис.10.Расположение точек, соответствующих "Справедливой России" на гиперболическом параболоиде.

Интересной особенностью соотношения (4) является то, что оно выполняется для любой выборки, например, для Москвы, Чечни, Дальнего Востока, зарубежных территорий и т.д. и даже для выборки из 11 разнесенных на тысячи километров УИК, которая изображена на рис.4. Это и означает, что корреляции обусловлены функциональной зависимостью, которая является абсолютно точной, поскольку вытекает из определения процентов.


В принципе, въедливый и упорный исследователь, которого интересует поиск закономерностей, а не компромата на сотрудников ЦИК, мог бы обнаружить эту зависимость чисто эмпирически, например, методом линейного регрессионного анализа, который тесно связан с корреляционным, а также дисперсионным анализом. Разумеется, зависимость (4) - нелинейная и применение линейного регрессионного анализа дало бы довольно неопределенные результаты. Но ничто не мешает сделать соотношение (4) линейным. Для этого нужно от самих величин процентов перейти к их логарифмам. С точки зрения матстатистики такое преобразование является вполне кошерным и называется преобразованием Бокса-Кокса(точнее его частным случаем). Тут только есть одна чисто техническая проблема - решить, что делать с нулевыми значениями, ведь логарифм нуля неопределен ("Забубень, как подсчитать логарифм нуля"© С.Жарковский). Тут возможны разные подходы: можно просто отбросить точки с нулевыми значениями, можно принять за логарифм нуля что-нибудь вроде -10 (у нас все величины определены с точностью до сотых долей процента, то есть до 10-4, а натуральный логарифм 10-4 равен примерно -9.2). После этого наш исследователь будет искать соотношение в виде:


ln(Доля голосов за партию от списочного составаi)=бета0+бета1*ln(Доля голосов за партию от явкиi)+бета2*ln(Процент явкиi)+эпсилонi

Здесь i - номер наблюдения в выборке, эпсилонi-случайная погрешность i-го наблюдения, бета0,бета1,бета2 - искомые коэффициенты регрессии, которые нужно подобрать таким образом, чтобы сумма квадратов случайных погрешностей эпсилонi была минимальной. Иными словами, здесь используется метод наименьших квадратов для подбора коэффициентов бета.


Для вычислений я буду использовать MS Excel 2007. Я должен сказать что регрессия вырожденная, и большинство продвинутых статистистических пакетов вроде StatSoft Statistica поэтому откажутся делать вычисления, сообщив, что коэффициент множественной корреляции равен 1. Но MS Excel 2007 более дубоват, выполнит все вычисления и выдаст вот такой красивый отчёт



Рис.11.Отчёт о итогах расчета регрессии в MS Excel 2007


Коэффициенты бета здесь выведены в ячейках B17-B19,а в ячейках C17-C19 - их стандартная ошибка. Видно, что бета0 равна нулю с огромной степенью точности, бета1 и бета2 с не меньшей точности равны 1. Это и означает, что для любого i логарифм доли голосов от списочного состава равен сумме логарифма доли голосов от явки и логарифма процента явки. Возвращаясь обратно о логарифмов к самим величинам, мы видим, что соотношение (4) выполняется с огромной степенью точности. То есть это и есть эмпирическая проверка этого соотношения. Я не буду останавливаться других результатах отчёта - расчёт я делал больше для смеха, поскольку мы действительно имеем дело с вырожденным случаем регрессии. В заключении приведу 3D-график для логарифмов. Разумеется, в силу линейности соотношения все точки лежат на плоскости


Рис.12.Логарифмическое преобразование переводит гиперболический параболоид в плоскость. Показаны точки для "Единой России"


Резюмирая, можно сказать, что найденные "Шпилькиным" и К0 между долей голосов за партию от списочного состава и процентом явки являются тривиальным следствием функциональной зависимости между этими величинами и не имеют никакого отношения к "вбрасыванию" или еще каким либо "фальсификациям". Являются ли выводы "Шпилькина" результатом недоразумения и некомпетности или сделаны умышленно? Мне кажется более вероятным первое. Я планирую посвятить отдельную статью обвинениям распределений в негауссовости, в которой коснусь вопросов компетентости самого "Шпилькина" и его читателей из Креативного Класса™ и защитить доброе имя Владимира Евгеньевича Чурова и его коллег из избиркомов от идиотских нападок лысенкоистов от математики.


  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 102 comments