Главная > Математика > Вероятность и достоверность
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава III. ВЕРОЯТНОСТИ ПРИЧИН

15. Вероятности причин. Одна простая задача. Мы не будем излагать общую теорию вероятностей причин. Эта теория исходит из того, что называется вероятностью a priori различных возможных причин явления, то есть из более или менее точного знания вероятности этих причин, когда мы еще не наблюдали явление; ставится задача: определить, как изменяется эта вероятность a priori, когда мы имеем результаты определенного числа опытов, в ходе которых рассматриваемое явление могло либо произойти, либо не произойти.

Мы ограничимся элементарными случаями, когда рассуждения, основанные на здравом смысле, позволяют получить точные и интересные результаты. Рассмотрим самую простую игру — в орла и решку. Вообще используемую монету считают такой, что вероятности орла и решки строго равны, и их общее значение есть Мы видели при этих условиях, что если сделать миллион опытов, единица отклонения и есть корень квадратный из вероятного числа благоприятных случаев, то есть из и составляет 707. С другой стороны, мы знаем, что вероятность отклонения, в 4,6 раза большего единицы отклонения, то есть отклонения примерно в 3250, составляет одну десятимиллиардную. Мы можем добавить, что для двойного отклонения, то есть 6500 вместо 3250, эту вероятность надо возвести в 4-ю степень, что дает вместо доказательства этого результата наши читатели найдут во всех книгах по теории вероятностей .

Предположим теперь, что у нас хватило бы терпения миллион раз подбрасывать монету и что 506 500 раз выпал бы орел. Законно задать себе вопрос, какова причина этого явления. Мы, естественно, будем колебаться между двумя гипотезами: либо вероятности выпадения орла и решки равны, но имело место необычайное отклонение, либо

вероятность выпадения орла несколько больше вероятности выпадения решки. Разумеется, наряду с этими гипотезами, при которых эксперимент предполагается корректным, следовало бы упомянуть о гипотезах, что эксперимент не таков, как мы описали, например, лицо, которому поручено отмечать последовательные результаты, рассеянно или плутует; оно ошибается, или обманывает нас; или же лицо, которому поручено бросать монету, достаточно ловко, чтобы влиять на результат, и иной раз использует эту ловкость, чтобы получился орел. Как мы сказали в конце главы I, мы исключим такие гипотезы, что совокупность наших сведений ошибочна из-за плутовства или других обстоятельств.

Итак, окончательно надо выбирать только между двумя гипотезами: случайного исключительного отклонения, или несколько большей, чем половины, вероятности выпадения орла. Но мы знаем, что вероятность реализации такого исключительного отклонения равна примерно и это внушает нам уверенность, что такое не имеет места. Наоборот, две стороны монеты не тождественны, стало быть, гипотеза небольшого отличия между вероятностями орла и решки не содержит ничего неправдоподобного и именно ее надо принять.

16. Обсуждение предыдущей задачи. Можно поставить вопрос, к какому мы должны прийти заключению, если в предыдущей задаче вместо более или менее асимметричной монеты использовать тщательно изготовленный металлический жетон, который можно рассматривать как идеальный цилиндр. Чтобы различать два основания этого цилиндра, можно было бы ограничиться маленьким цветным пятнышком, скажем, красным с одной стороны и зеленым с другой. Строго говоря, можно было бы вести игру с жетоном, обе стороны которого были бы неразличимы, ограничиваясь указанием с помощью жеста перед броском, какова та сторона, которую называем орлом. Этот жест и вся операция могли бы быть засняты из двух или трех точек, и при замедленном просмотре таких фильмов можно было бы определить, упал ли жетон вверх той стороной, на которую мы указали. Равным образом, вместо того чтобы использовать монету, можно обратиться к одному из способов,

указанных в § 14, чтобы получить вероятности, строго равные с совершенно пренебрежимой ошибкой.

Если при миллионе испытаний, в течение которых вероятность благоприятного случая заведомо равна (ошибка крайне мала), получим, что число благоприятных случаев равно 510000, то мы окажемся вынужденными выбирать одну из двух в равной мере неправдоподобных гипотез: исключительно большого отклонения и ошибочности значения вероятности. Оттакоговыбора надо будет отказаться и допустить, что мы не заметили ошибки в условиях эксперимента: полученный результат вызван неизвестной причиной, которую надо отыскать.

17. Вероятность рождений мальчиков. Предыдущие рассуждения, быть может, показались некоторым читателям лишенными практического интереса, так как совершенно неправдоподобно, чтобы для развлечения играли подряд миллион партий в орла и решку. Однако полученные результаты применимы к проблеме, которая уже издавна обратила на себя внимание статистиков. Во всех цивилизованных странах в течение более чем столетия регулярно регистрируются рождения с указанием пола ребенка — указанием, которое очень редко бывает ошибочным. Таким образом, можно в течение периода от нескольких месяцев до нескольких лет, в соответствии с населением страны и его плодовитостью, получить данные о миллионе рождений, случившихся в этот период. При этом всегда оказывается, что на миллион рождений число мальчиков превосходит 510 000, тогда как число девочек меньше 490 000. На основании предыдущего можно заключить с достоверностью, что для всех рассматриваемых стран в течение более чем века вероятность, что родится мальчик, есть число, несколько большее чем 0,5, вероятно достаточно близкое к 0,51. Это очень интересный с биологической точки зрения результат, так как он ставит перед биологами весьма трудную проблему. Действительно, современные теории наследственности приводят к заключению, что, хотя мы не умеем еще это выявлять, пол ребенка определяется в момент зачатия. Следовательно, первый вопрос, который надо было бы решить,

состоит в том, чтобы узнать, равны ли вероятности с этого момента для обоих полов и вызвана ли наблюдаемая между ними разница в момент рождения большей смертностью девочек во время беременности, или же наоборот, уже с зачатия доля мальчиков более велика. Впрочем, возможно, что оба эти объяснения частично точны, или же что мы наблюдаем лишь результат двух явлений противоположных знаков.

Если бы эти первые вопросы были решены, оставалось бы исследовать биологические причины значений, полученных для вероятностей того или иного пола при зачатии или при утробной смерти.

Эти вопросы не относятся к нашей теме; но нам представлялось интересным показать, как исчисление вероятностей может в некоторых случаях давать биологам достоверное заключение и ставить перед ними определенные задачи.

18. Пол близнецов. Когда рождаются близнецы, они иной раз одного пола, иной раз разных полов. Если мы ограничимся двойнями, то оказывается, что они чаще одного пола, чем разных.

Подойдем к этому вопросу численно и примем для упрощения, что вероятность рождения мальчика или девочки равна 0,5 (вместо 0,51 и 0,49). Если рассмотреть два независимых рождения (в двух разных семьях), легко видеть, что вероятность иметь двух мальчиков есть 0,25, двух девочек тоже 0,25, а вероятность иметь одного мальчика и одну девочку равна 0,50 (так как имеется вероятность 0,25 иметь мальчика в первой семье и девочку во второй, и вероятность 0,25 иметь девочку в первой семье и мальчика во второй).

Если имеем дело с двойнями, то оказывается, что доля тех случаев, когда двойни одного пола, вместо того, чтобы составлять 0,50, значительно больше и равна примерно 0,64. Самый простой способ для объяснения этого обстоятельства и наиболее правдоподобный, поскольку известно, что некоторые двойни рождаются из одного яйца, а другие из двух различных яиц, состоит в допущении, что в некоторых случаях пол одного из двух близнецов заведомо таков же, как пол второго, тогда как в других случаях эти два пола совершенно не зависят один от другого. Если вероятность того, что имеем первый случай, равна а вероятность второго случая, следовательно, есть то вероятность того, что близнецы одного пола, равна

потому что если оба пола независимы один от другого, есть один шанс из двух, чтобы они оказались тождественными.

Сравнение вычисленного нами значения для вероятности пар одного пола с наблюденным значением 0,64, дает Такова вероятность того, что два близнеца, которых первыми заявят в таком-то городе, начиная с завтрашнего утра, являются однояйцовыми.

Аналогичный подсчет можно проделать для тройных рождений. Рождения четырех и, тем более, пяти близнецов слишком малочисленны, чтобы к ним можно было применить исчисление вероятностей.

19. Зондаж общественного мнения. Организации, занимающиеся зондажем общественного мнения и обычно называющие себя институтами, более или менее сознательно используют методы исчисления вероятностей (9). Здесь возникает существенный вопрос, — установить, вызван ли определенный результат, полученный на основании большинства при зондаже, реальным большинством.

Первый вопрос, который здесь надо поставить, это выяснить, имеет ли смысл только что сформулированная задача, то есть имеем ли мы право говорить об общественном мнении по поводу того или иного определенного вопроса. Хорошо известно, что в результатах, которые публикуются институтами общественного мнения, почти всегда фигурирует некоторое число ответов, в которых опрошенное лицо признается в своем полном незнании поставленного перед

ним вопроса. Но, отвлекаясь от таких в некотором роде нулевых ответов, процент которых известен, можно спросить себя, не впервые ли размышляли над поставленным перед ними вопросом многие из опрошенных лиц, что означает невозможность, строго говоря, говорить о мнении, которое они должны были иметь до опроса. Имеются в таком случае основания считать, что так же обстоит дело со значительной частью неопрошенных лиц, и поэтому не является правильным говорить об определенном состоянии общественного мнения по данному вопросу.

Однако есть случаи, когда можно допустить, что значительное большинство граждан в той или иной стране действительно обладают определенным мнением о некоторых жизненных политических вопросах. Мы предположим, что мы имеем дело с одним из таких случаев и что, например, за несколько недель до выборов президента значительное большинство граждан знает, что они будут голосовать за кандидата А или или В, или что они воздержатся от голосования. Мне известно, что такое допущение вызывает немало возражений, но надо рассматривать его как наиболее благоприятное для правильного хода зондажей общественного мнения, и поэтому естественно в первую очередь заняться им.

Все происходит таким образом, как если бы у каждого гражданина в уме была одна из четырех букв причем три первые соответствуют трем кандидатам, а последняя — воздержанию от голосования. Мы должны, кроме того, допустить, что если такой гражданин опрашивается институтом общественного мнения и если ему предоставляется возможность голосовать в тех же условиях сохранения тайны, как и в день выборов (сложив бюллетень, он опустит его в урну, предварительно отметив крестиком одну из букв то этот гражданин будет голосовать так, как он голосовал бы в действительности в день выборов. Тогда возникает задача, как надо действовать, чтобы с достаточной точностью определить вероятный результат голосования.

20. Предсказание исхода голосования. Задача, которую мы поставили, равносильна следующей (предполагая, что мнение каждого из избирателей столь же неизменным образом связано с ним, как черный или белый цвет — с шаром, находящимся в урне). Урна содержит очень большое

(превосходящее а иной раз и несколько миллионов) число белых, красных, зеленых и черных шаров. Сколько надо проделать извлечений из урны, чтобы с достаточной точностью узнать ее содержимое? В частности, мы будем изучать вопрос, можно ли на основании извлечений быть уверенным, что белые шары находятся в урне в абсолютном большинстве (черные шары можно рассматривать как воздержание и не учитывать их при подсчете абсолютного большинства).

Очевидно, для того чтобы решить эту задачу, достаточно вычислить единицу относительного отклонения для результата при определенном числе извлечений. Отсюда первое замечание, а именно, что с момента, когда число содержащихся в урне шаров достаточно велико, не имеет значения, составляет ли оно или 50 миллионов: но одному и тому же числу извлечений можно будет узнать его состав с одной и той же вероятной ошибкой. Другое замечание заключается в том, что если число шаров в урне велико по сравнению с числом извлечений, то не имеет значения — кладется ли извлеченный шар тотчас же обратно в урну или же извлечения выполняются последовательно, без возвращения шаров.

Обычно сходятся на том, что берут в качестве числа извлечений, необходимых для получения разумной точности, 5000. Если принять, что процент белого цвета близок к 0,5, то вероятное число белых шаров будет 2500, а единица отклонения будет равна 50. Мы знаем, что вероятность отклонения, которое равно или больше 2,30а (и — единица отклонения), то есть в данном случае примерно 115, составляет около одной тысячной. Такое отклонение соответствует 2615 белых шаров, то есть 52,3%, если отклонение положительно, и 47,7%, если оно отрицательно. Отсюда заключаем, что если число белых шаров превышает 52%, то можно утверждать, имея 999 шансов из 1000 не ошибиться, что «белых» большинство среди избирателей.

В этом рассуждении мы пренебрегли воздерживающимися от голосования. Если таковые не очень многочисленны, то их влиянием можно пренебречь, так как оно компенсируется различными факторами, имеющими тенденцию уменьшать единицу отклонения. Один из них мы уже указали (то, что извлеченный шар не возвращается в урну после каждого извлечения), некоторые другие мы укажем ниже (разбивка извлечений).

21. Разбивка извлечений. Когда 50 миллионов шаров в урне представляют 50 миллионов избирателей какой-то страны, то задача организовать случайную выборку избирателей представляется практически достаточно сложной. Самым простым способом ее решения была бы нумерация всех этих избирателей от 1 до 50 000 000 (используя, например, избирательные листы, в которых избиратели уже перенумерованы, и перебирая эти листы один за другим в каком-то порядке). После этого оставалось бы только вытянуть, как в лотерее, 5000 номеров из 50 000 000. Для этого было бы достаточно извлечь наудачу четыре цифры и считать выпавшими все номера, которые оканчиваются этими цифрами, например, на 3517. Замечания, которые мы хотим сделать относительно разбивки извлечений, имеют целью показать, что такой метод может только уменьшать единицу отклонения. Дело обстояло бы иначе, если бы пришли к мысли выбрать тех избирателей или избирательниц, у которых одна и та же фамилия и одно и то же имя (из числа распространенных, — во Франции, например, Пьер Дюран или Жанна Дюпон). Действительно, при таком методе мы рисковали бы получить нескольких лиц из одной и той же семьи, мнения которых иной раз одинаковы, более того, мы снизили бы шансы некоторых этнических областей (например, во Франции — Эльзаса, Бретани, района басков) и увеличили бы, возможно, шансы других областей.

Однако достаточно естественно стараться раздробить выборку, вводя либо территориальные, либо профессиональные признаки, тем более, что это может дать интересные выводы.

Например, 50 000 000 избирателей можно разбить на 50 штатов, каждый из которых в среднем будет насчитывать один миллион, а в каждом штате надо будет выбрать избирателей из расчета 1 на 10 000. Можно также разбить избирателей на категории в зависимости от профессии.

Если некоторые категории будут слишком многочисленны, то есть будут превышать несколько миллионов, их можно подразделить по возрастному признаку (от 20 до 30 лет и т. д.).

Но будет ли разбивка произведена по территориальному или профессиональному признаку, является почти достоверным, что процент голосующих за определенного кандидата, названных нами «белыми», будет значительно изменяться от одной области к другой и от одной профессиональной группы к другой. Но для каждой группы надо будет извлечь один шар из 10 000, то есть выбрать одного избирателя или одну избирательницу из 10 000.

Действуя таким образом, мы значительно уменьшим единицу отклонения. Мы не будем приводить здесь общего доказательства этого факта, но пояснить это можно на примере. Если миллион избирателей определенной категории, например, шахтеры или жители какого-то штата, были одного и того же мнения, то 100 случайных выборок дадут один и тот же результат и, следовательно, выборка в этом крайнем случае точно характеризовала бы данную категорию избирателей. Тогда единица отклонения была бы равна нулю, если бы дело обстояло так же для любой категории (причем мнение может, конечно, изменяться от категории к категории), единица отклонения была бы равна нулю и в каждой из частичных выборок, и, следовательно, она была бы равна нулю вообще.

Институты общественного мнения в своих публикациях обычно сообщают процент благоприятных или неблагоприятных ответов отдельно для различных профессиональных категорий и при этом часто приводят отдельно ответы мужчин и ответы женщин. В связи с этим необходимо сделать одно замечание. Допустим, что наши профессиональные (или территориальные) категории содержат по одному миллиону лиц. Если мы в них будем выбирать одно лицо из 10 000, число выбранных будет 100, и если принять вероятность белого цвета равной 0,5, вероятным числом будет 50. Корень квадратный из 50 равен примерно 7 и это — единица отклонения; ее произведение на 1,15 составляет около 8, на 2,3 — около 16. Следовательно, если один шанс из десяти за то, что отклонение превысит 8, и один шанс из тысячи, что оно превысит 16. В первом случае доля белых меньше 42% или больше во втором случае она меньше 34% или больше 66%.

Итак, мы видим, что проценты, получаемые при выборке даже для сравнительно многочисленных категорий (из миллиона индивидов) далеко не столь точны, как общие результаты, вычисленные для всей страны. Но так как эти ошибки в силу случайности выборок не являются систематическими, а являются то положительными, то отрицательными, они в известной мере взаимно погашаются при сложении частных итогов для общего подсчета. Отсюда — значительно большая точность общего итога.

22. Оценки экспертов. Очевидно, что тому, кто знает достаточно много людей данной профессии или жителей известной области, легче оценить вероятный процент голосов среди людей эгой профессии или в этой области, чем дать такую оценку для всей страны. По-видимому, на этом основан следующий метод зондажа, используемый институтами общественного мнения. Ограничимся разбивкой на категории по профессиям. Институты общественного мнения стараются выбрать для каждой профессии некоторое число лиц, которых они рассматривают как представляющих в этой профессии различные направления и по ответам которых они оценивают процент людей в данной профессиональной группе, придерживающихся того или иного мнения. Таким же образом можно поступать при политических выборах, исходя из территориального признака, потому что лица, хорошо знающие данную область, могут относительно точно оценить вероятный результат выборов в этой области.

Не исключена возможность (хотя это не достоверно), что когда имеют дело с профессиями или областями, насчитывающими миллион людей, такая предварительная оценка не может быть столь же хорошей, тем более — лучшей, чем оценка на основании случайной выборки (последняя один раз из десяти может дать ошибку в 8 процентов в ту или другу» сторону). Но, как мы видели, случайная выборка имеет то преимущество, что вследствие случайности отклонений сложение многих частных результатов в некоторой степени взаимно компенсирует отрицательные и положительные ошибки и поэтому дает меньшую среднюю ошибку Весьма трудно выяснить, обстоит ли так дело и с приближенными оценками экспертов.

Приведем крайний случай. Вполне очевидно, что круппая политическая партия располагает многими средствами

информации и может, вопреки обязательному для нее официальному оптимизму, дать для каждого избирательного округа оценку с ошибкой не более чем на три или четыре процента (то есть 53 или 54% вместо 50%). Но если все эти ошибки одного и того же знака, то сумма получится с ошибкой, которая будет равна их среднему и, следовательно, будет больше той, которая получилась бы при случайной выборке, в то время как локальные ошибки порой бывают меньше, нежели при случайной выборке.

Детальное обсуждение различных методов зондажа общественного мнения не относится к предмету этой книги; нашей целью было изложение некоторых принципов, выявляющихся при обсуждении этих методов. Мы собираемся закончить эту главу несколькими замечаниями об имитации случая.

23. Имитация случая. Можно спросить себя, нельзя ли заменить случайную выборку, операцию вслепую и сложную, выбором осмысленным, с теми же преимуществами, а, может быть, даже и с другими преимуществами. Такой вопрос связан с вопросом об имитации случая. Можно ли заменить рулетку служащим, который помещен так, что он не может ни видеть, ни знать ставки, и по своему произволу указывает выигрышный номер по сигналу о том, что игроки внесли свои ставки. Само собою разумеется, такой служащий должен называть нуль в среднем не чаще, чем это полагается, то есть один раз из 37. Но оставим в стороне вопрос о нуле и допустим, что служащий выбирает по своему произволу красное и черное. Сможет ли он имитировать случай, то есть называть черное и красное в такой последовательности, что игрок не может ее предвидеть, — игрок, который всегда и при всех обстоятельствах должен иметь равные шансы на выигрыш, ставит ли он на красное или на черное. Легко видеть, что для нашего служащего единственный способ добиться такого результата состоит в том, чтобы отвлечься от своей памяти и, не рассуждая, стараться действительно случайно отвечать на сигнал, совершенно не учитывая свои предыдущие ответы, если это для него возможно. Действительно, пусть он пытается их учитывать и, например, зная, что в течение предыдущих 20 ответов известное предпочтение было оказано красному, будет склонен ответить «черное». Тогда игрок с хорошей наблюдательностью сможет строить свою игру в соответствии с теми

соображениями, которые он может приписать нашему служащему, и тем самым увеличит свои шансы выиграть.

Задача, состоящая в выборе из миллиона жителей одной и той же области или из миллиона людей одной и той же профессии ста лиц, которые по возможности точно будут представлять то среднее мнение, которое нам желательно узнать, отличается от предыдущей задачи. Однако ее решение аналогично и, по-видимому, не только чистый и простой случай, но и всякий другой способ может дать достаточно хорошие результаты, лишь бы осуществляющее выбор лицо не знало заранее ответа на поставленный вопрос. В последнем случае бесполезно обременять себя организацией выбора. Действительно, если известно, что из миллиона лиц около 50% будут голосовать за кандидата А, и если, выбирая из миллиона 100 человек, в состав этих ста введут в точности 50 таких, что они будут за А, наш выбор будет, вероятно, лучшим, чем чисто случайный. Но это связано с тем, что поставленная задача была уже решена или, по крайней мере, была уверенность в том, что ее решение известно.

Если обстоятельства не таковы, то, быть может, будут пытаться выбирать лиц, чье мнение неизвестно, но которых, по различным соображениям, рассматривают как особенно типичных для подлежащей изучению группы. Но при этом пренебрегают мнением весьма большого числа людей, возможно, посредственных, однако, таких, чей избирательный бюллетень будет стоить того же, что бюллетень других избирателей. И нет никаких оснований полагать, что голоса тех лиц, которыми пренебрегают, распределятся таким же образом, как голоса выбранных лиц.

Можно попытаться имитировать «случай» с помощью простых эмпирических приемов. Например, выбирают одного из рабочих у выхода из фабрики или пассажира в метро. Но ясно, что таким образом повышаются шансы выбрать одного из тех рабочих, что прилежны в труде и не страдают от безработицы, или одного из тех, кто в силу условий работы, состояния здоровья и по своим средствам (будучи не очень богатым, не очень бедным) чаще всего пользуется метро. И тут весьма возможно, что категории лиц, которыми пренебрегли, дали бы распределение голосов, достаточно отличнее от того, что дают выбранные категории.

В итоге приходится снова обратиться к уже сделанному выше замечанию: большое преимущество случайного

выбора в том, что нет систематических ошибок и вследствие этого возникает компенсация погрешностей различных результатов, когда берется их сумма. Например, было бы возможно произвольным образом разбить население в 50 миллионов на 5000 групп по 10 000 человек и наудачу выбрать в каждой группе только одно лицо. Очевидно, это единственное лицо не могло бы претендовать на то, чтобы представлять различные направления в группе, а иной раз оно могло бы быть выбранным так, что будет представлять направление, составляющее в группе из 10 000 человек лишь малое меньшинство. И тем не менее, совокупность 5000 выборов дала бы весьма точное представление о среднем мнении 50 миллионов.

В этом случае вполне очевидно, что всякий метод выбора, отличный от случайного, был бы порочен. Ведь направление, которое в каждой группе из 10 000 имело бы лишь несколько сотен сторонников, не имело бы никаких шансов быть представленным, тогда как при случайном выборе оно имело бы около 100 представителей из 5000, если в среднем оно имеет 200 сторонников из 10 000.

<< Предыдущий параграф Следующий параграф >>