Виды критериев согласия. Смотреть страницы где упоминается термин критерий согласия. Что будем делать с полученным материалом
В настоящем п° мы рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно-вопрос о согласованности теоретического и статистического распределения.
Допустим, что данное статистическое распределение выравнено с помощью некоторой теоретической кривой f (х) (рис. 7.6.1). Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное статистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».
ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН
Идея применения критериев согласия заключается в следующем.
На основании данного статистического материала нам предстоит проверить гипотезу Н, состоящую в том, что случайная величина X подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например, в виде функции распределения F(x) или в виде плотности распределения f (х), или же в виде совокупности вероятностей p t , где p t - вероятность того, что величина X попадет в пределы l-то разряда.
Так как из этих форм функция распределения F (х) является наиболее общей и определяет собой любую другую, будем формулировать гипотезу Н, как состоящую в том, что величина X имеет функцию распределения ^(д:).
Для того чтобы принять или опровергнуть гипотезу Н, рассмотрим некоторую величину U, характеризующую степень расхождения теоретического и статистического распределений. Величина U может быть выбрана различными способами; например, в качестве U можно взять сумму квадратов отклонений теоретических вероятностей p t от соответствующих частот р* или же сумму тех"*же квадратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения F*(x) от теоретической F(x) и т. д. Допустим, что величина U выбрана тем или иным способом. Очевидно, это есть некоторая случайная величина. Закон распределения этой случайной величины зависит от закона распределения случайной величины X, над которой производились опыты, и от числа опытов п. Если гипотеза Н верна, то закон распределения величины U определяется законом распределения величины X (функцией F(x)) и числом п.
Допустим, что этот закон распределения нам известен. В результате данной серии опытов обнаружено, что выбранная нами мера
КРИТЕРИИ СОГЛАСИЯ
расхождения U приняла некоторое значение а. Спрашивается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределениями и, следовательно, на непригодность гипотезы Н? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения U окажется не меньше, чем наблюденное нами в опыте значение и, т. е. вычислим вероятность события:
Если эта вероятность весьма мала, то гипотезу Н следует отвергнуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе Н.
Возникает вопрос о том, каким же способом следует выбирать меру расхождения £/? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом п практически не зависит от функции F(x). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.
Рассмотрим один из наиболее часто применяемых критериев согласия- так называемый «критерий у?» Пирсона.
Предположим, что произведено га независимых опытов, в каждом из которых случайная величина X приняла определенное значение. Результаты опытов сведены в k разрядов и оформлены в виде статистического ряда.
Обрабатывая независимые измерения случайной величины ξ, мы можем построить статистическую функцию распределения F * (x). По виду этой функции можно принять гипотезу, что истинная теоретическая функция распределения есть F(x). Сами независимые измерения (x 1 , x 2 ,…,x n), образующие выборку, можно рассматривать как одинаково распределенные случайные величины с гипотетической функцией распределения F(x).
Очевидно, между функциями F * (x) и F(x) будут некоторые расхождения. Возникает вопрос – являются ли эти расхождения следствием ограниченности объема выборки или связаны с тем, что наша гипотеза не верна, т.е. действительная функция распределения не F(x), а какая-то другая. Для решения этого вопроса пользуются критериями согласия, суть которых в следующем. Выбирается некоторая величина Δ(F, F *), которая характеризует степень расхождения между функциями F * (x) и F(x). Например, Δ(F, F *)=Sup|F(x)-F * (x)|, т.е. верхняя грань по х модуля разности.
Считая гипотезу верной, т.е. зная функцию распределения F(x), можно найти закон распределения случайной величины Δ(F, F *) (вопроса, как это сделать, мы касаться не будем). Зададим число р 0 столь малое, что осуществление события {Δ(F, F *)>Δ 0 }с этой вероятностью будем считать практически невозможным. Из условия
найдем величину Δ 0 . Здесь f(x) – плотность распределения Δ(F,F *).
Вычислим теперь величину Δ(F, F *)= Δ 1 по результатам
выборки, т.е. найдем одно из возможных значений случайной величины Δ(F, F *). Если Δ 1 ≥Δ 0 , то это означает, что произошло практически невозможное событие. Объяснить это можно тем, что наша гипотеза не верна. Итак, если Δ 1 ≥Δ 0 , то гипотеза отвергается, а при Δ 1 <Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.
В качестве меры расхождения Δ(F, F *) можно брать различные величины. В зависимости от этого получаются различные критерии согласия. Например, критерий согласия Колмогорова, Мизеса, Пирсона, или критерий хи-квадрат.
Пусть результаты n измерений оформлены в виде группированного статистического ряда с k разрядами.
РАЗРЯД (x 0 ,x 1) (фактически мы предполагаем, что ошибки измерения распределены равномерно на некотором отрезке). Тогда вероятность попадания в каждый из семи разрядов будет равна . Используя группированный ряд из §11, вычислим Δ(F, F *)= Δ 1 =по формуле (1). В данном случае .
Поскольку в гипотетический закон распределения входят два неизвестных параметра, α и β – начало и конец отрезка, то число степеней свободы будет 7-1-2=4. По таблице распределения хи-квадрат при выбранной вероятности p 0 =10 -3 найдем Δ 0 =18. Т.к. Δ 1 >Δ 0 , то гипотезу о равномерном распределении ошибки измерения придется отбросить.
Критерием согласия называется критерий значимости, применяемый для проверки гипотезы о законе распределения генеральной совокупности, из которой взята выборка.
Чаще всего исследователя интересует, соответствует ли распределение экспериментальных данных нормальному закону. Поэтому примеры будут связаны с проверкой экспериментального распределения на нормальность.
- Критерий Шапиро-Уилки
- Критерий хи-квадрат
- Критерий лямбда Колмогорова-Смирнова
КРИТЕРИЙ ШАПИРО-УИЛКИ
Условия применения: выборка небольшого объема
Н 0 – распределение генеральной совокупности из которой получена выборка совокупности соответствует нормальному закону.
Н 1 — распределение генеральной совокупности из которой получена выборка совокупности не соответствует нормальному закону.
Таблица 1 – Алгоритм расчета критерия Шапиро-Уилки.
№ | x | x | Δk | k | ank | ankΔk |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
1 | 11,8 | 13,8 | 2 | 1 | 0,5739 | 1,1478 |
2 | 12 | 13,2 | 1,2 | 2 | 0,3291 | 0,39492 |
3 | 12,1 | 13 | 0,9 | 3 | 0,2141 | 0,19269 |
4 | 12,3 | 12,8 | 0,5 | 4 | 0,1224 | 0,0612 |
5 | 12,6 | 12,6 | 0 | 5 | 0,0399 | 0 |
6 | 12,6 | 12,6 | ||||
7 | 12,8 | 12,3 | Сумма=b = 17966 | |||
8 | 13 | 12,1 | ||||
9 | 13,2 | 12 | ||||
10 | 13,8 | 11,8 |
Порядок расчета критерия Шапиро-Уилки
- Формулируем гипотезу Н 0 о соответствии распределения генеральной совокупности, из которой получены данные нормальному закону. Назначаем уровень значимости α=0,05.
- Получаем выборку экспериментальных данных (столбец 1 табл.1). В нашем случае n=10.
- Рассчитываем значение выборочной дисперсии. Для примера S 2 =0, 37.
- Ранжируем выборку в возрастающем и убывающем порядке (столбцы 2 и 3)
- Считаем разности Δk (столбец 5)
- Из таблицы 6 Приложения(см. В.С.Иванов, 1990) находим значения коэффициентов ank (столбец 6)
- Находим произведение ankΔk
- Вычисляем b=сумма ankΔk= 1,7966
- Рассчитываем значение критерия Wф по формуле:
- Из табл. 7 Приложения (см. В.С.Иванов, 1990) находим критическое значение критерия Шапиро-Уилки для α=0,05 Wкрит= 0,842.
- Вывод. Так как Wф>Wкрит, можно говорить, что экспериментальные данные соответствуют нормальному закону на уровне значимости 0,05.
КРИТЕРИЙ ХИ-КВАДРАТ
Разработан Карлом Пирсоном . Основан на построении интервального вариационного ряда и сравнении эмпирических (n эм) и теоретических (n т) частот (Рис.1).
Рис.1. Гистограмма, характеризующая эмпирическое распределение и функция плотности вероятностей нормального распределения.
Статистическая гипотеза : плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.
Значение фактического критерия хи-квадрат вычисляется по формуле:
Если фактическое значение критерия хи-квадрат больше или равно чем критическое значение критерия хи-квадрат, можно сделать вывод, что эмпирическое распределение не соответствует нормальному закону на уровне значимости α.
КРИТЕРИЙ ЛЯМБДА КОЛМОГОРОВА-СМИРНОВА
Разработан Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Статистическая гипотеза : функция распределения генеральной совокупности (рис. 2), из которой взята выборка, соответствует функции распределения нормального закона.
Рис.2. Красные точки — кумулята, построенная на основе экспериментальных данных, синяя кривая — теоретическая функция распределения (нормальное распределение).
Значение критерия λ ф вычисляется по формуле:
Вывод: если λ ф > λ крит – эмпирическое распределение не соответствует нормальному на уровне значимости α.
ЛИТЕРАТУРА
- Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
- Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.
При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения , являющиеся функцией нормированных отклонений.
Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.
Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .
Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.
Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.
Обычно эмпирические и теоретические частоты различаются в силу того, что:
- расхождение случайно и связано с ограниченным количеством наблюдений;
- расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.
Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.
Для закона нормального распределения их можно найти следующим образом:
- Σƒ i - сумма накопленных (кумулятивных) эмпирических частот
- h - разность между двумя соседними вариантами
- σ - выборочное среднеквадратическое отклонение
- t–нормированное (стандартизированное) отклонение
- φ(t)–функция плотности вероятности нормального распределения (находят по для соответствующего значения t)
Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.
Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т ) и эмпирическими (f) частотами к теоретическим частотам:
- k–число групп, на которые разбито эмпирическое распределение,
- f i –наблюдаемая частота признака в i-й группе,
- f T –теоретическая частота.
Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность
принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:
α=0,10, тогда Р=0,90 (в 10 случаях из 100)
α=0,05, тогда Р=0,95 (в 5 случаях из 100)
α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза
Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл
При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.
Основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:
где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.
Критерий согласия Колмогорова
Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:
- Сравнивают фактические и теоретические частоты.
- По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
- Проверяют на сколько распределение признака соответствует нормальному.
Для IV колонки таблицы:
В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter
Для V колонки таблицы:
Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)
Для VI колонки таблицы:
Для оценки тесноты связи применяются показатели вариации:
1. Общая дисперсия результативного признака - отражает совокупное влияние факторов:
2. Факторная дисперсия результативного признака - отражает вариацию только от воздействия изучаемого фактора х:
Характеризует колеблемость выравненных значений у х от общей средней величины .
3. Остаточная дисперсия отображает вариацию результативного признака у от всех прочих, кроме х факторов:
Соотношение между факторной и общей отражает меру тесноты связи между х и у.
индекс детерминации – доля факторной дисперсии в общей дисперсии. В случае если это выражение представить как , то R это будет индекс корреляции .
На базе правила сложения дисперсий (=+индекс корреляции можно представить как: или . Индекс корреляции применяется для оценки тесноты связи при всех формах связи.
Для измерения тесноты линейной связи применяется линейный коэффициент корреляции:
Качественная оценка тесноты связи показателей дается с помощью шкалы Чеддока:
Рассмотрим на условном примере применение регрессионно-корреляционного анализа связи парной корреляции. Имеется выборочная информация о работе 8 гостиниц, у которых различная среднегодовая наполняемость гостиничных номеров и различная рентабельность их деятельности. В результате регрессионно-корреляционного анализа крайне важно определить, существует ли прямая зависимость между наполняемостью гостиничных номеров и если она есть, то насколько она тесная:
N пп | Наполняе-мость (в %%) х | Рентабель- ность (в %%) у | х 2 | у 2 | ху | Выравненное (теоретическое) у х |
8,2 7,0 9,3 8,1 9,5 10,5 7,5 6,3 | 67,24 49,00 86,49 65,61 90,25 110,25 56,25 39,69 | 492,0 364,0 669,6 526,5 712,5 840,0 420,0 315,0 | 7,61 6,65 9,05 8,21 9,41 10,01 7,13 6,41 | |||
66,4 | 564,78 | 4339,6 | 64,48 |
Определим параметры уравнения линейной парной регрессии:
Наше уравнение парной регрессии будет иметь вид:. Подставим в это уравнение эмпирические значения х и рассчитаем теоретические значения 7,61 и т. д.
Теперь определим тесноту связи между наполняемостью гостиниц и рентабельностью их деятельности:
В результате проведенного анализа установлено, что между наполняемостью гостиниц и рентабельностью их деятельности существует прямая весьма высокая зависимость.
На практике часто возникает крайне важно сть произвести оценку близости эмпирических частот к теоретическим. Такую оценку можно произвести с помощью критериев близости, называемых критериями согласия. Наиболее часто применяется для этих целей – критерий согласия Пирсона (ʼʼхиʼʼ- квадрат), который рассчитывается по формуле:
где f – эмпирические частоты,
Теоретические частоты.
Оценка близости эмпирических частот к теоретическим определяется по вероятности достижения данной величины Р() при случайных отклонениях частот. В случае если вероятность Р() значительно отличается от нуля (больше, чем 0,05), то отклонения эмпирических частот от теоретических можно считать случайными. В случае если Р()< 0,05, то отклонения нельзя считать случайными, а эмпирическое и теоретические распределения принципиально друг от друга отличаются.
Величина зависит не только от отклонений фактических частот от теоретических, но и от количества групп, на которые разбита совокупность, в связи с этим таблицы критических значений рассчитаны для различных степеней свободы варьирования эмпирических частот (приложение). Стоит сказать, что для нормального распределения число степеней свободы К=n-3 , где n – число групп.Р(, что значительно превышает 0,05. Это означает, что отклонения фактических частот от эмпирических можно считать случайными, а само распределение реализации путевок близко к нормальному распределению.
Приложение 1
Критерии согласия - понятие и виды. Классификация и особенности категории "Критерии согласия" 2017, 2018.