МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
имена U . Б ЛОМОНОСОВА
Вычислительный центр
ГОРЯЧЕВ В. В. , ФИЛИППОВ Г. й. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСШ ПРИЗНАКОВ
Серия:
Статистика и стохастически* системы
Под обцей редакцией Г. П♦Климова
Выпуск 9
Москва- 1970 г*
ОГЛАВЛЕНИЕ
Введение ... » 3
§ I. Что такое таблицы сопряженности '
признаков? 4
§ 2. Задача проверки гипотезы о
маргинальных вероятностях для таблиц
сопряженности признаков к её
решение о помощью статистики минимума
различающей информации 9
§ 3. Обсуждение оценок минимума
различающей информации для таблиц
сопряженности признаков 16
§ 4» Тексты программ и инструкции к ним. , 26
§ 5* Примеры вычислений ... ... 40
Литера тура .
49
\
ВВЕДЕНИЕ. В данной выпуске реализованы некоторые идеи Кульбака
относительно анализа таблиц сопряженности признаков. Эти
идеи основываются на принципе минимума различающей
информации. Пусть методом максимального правдоподобия получена
некоторая оценка таблицы сопряжённости признаков. Нужно
проверить гипотезу о том, что эта таблица не противоречит
предполагавши значениям маргинальных: вероятностей (т. е. вероятностей появления каждого отдельного признака
независимо от всех остальных), исходя из принципа минимума
различающей информации можно так изменить первоначальную
таблицу, что некоторая известная функция элементов этой
пересчитанной таблицы (именно информация для различия в
пользу изменённой таблицы против первоначальной,
умноженная на удвоенный размер выборки) будет распределена
асимптотически как X 2. Стремление к X 2 в этом случае
осуществляется быстрее чем в классическом критерии X 2 Пирсона,
Это следует из экспериментов Кульбака. Од проверял, на-
р
сколько хорошо оппроксимируются распределением X "
распределение статистики минимума различающей информации и
распределение обычной статистики Пирсона, используемой в
критерии согласия % .
- 4 -
В данном выпуске содержатся программы вычисления
оценок минимума различающей информации для таблиц с двумя и
тремя входами и критерии X 2 для таких таблиц* В нём
также подробно описывается алгоритм получения этих оценок и
приводятся примеры вычислений лс нему*
§ I. ЧТО ТАКОЕ ТАБЛИЦ* СОПРЯЖЁННОСТИ
ПРИЗНАКОВ? Начнём с примера, Фишер исследовал потомство кукурузы,
по двум признакам* Первый признак - цвет (зеленая иди
белая)* Второй признак - сахаросодержащая иди крахмадрсодер-
жащая* Рассматривалась выборка размером 3839* Рассортируем
эту выборку на четыре совокупности по числу возможных
комбинаций признаков:
1) белая сахаросодержацая - 32
2) белая крахмалосодержащвя -г 906
3) зеленая сахаросодержащая - 904
4) зеленая крахмажосодержацая - 1997
Справа даны количества выпавших комбинаций этих двух
признаков* Эти данные запишем в следующую таблицу:
- 5 -
Таблица I
^^^*^1 признак
П признак ^"""""^-х^^
крахмалосодержащая
сахаросодержащая
зеленая
1997
904
белая
906
32
Такие таблиц* и называются таблицами сопряжённости
признаков. Здесь столбцы атвечают первому признаку» а
строки - второму.