Виды критериев согласия. Смотреть страницы где упоминается термин критерий согласия. Что будем делать с полученным материалом

В настоящем п° мы рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно-вопрос о согласован­ности теоретического и статистического распределения.

Допустим, что данное статистическое распределение выравнено с помощью некоторой теоретической кривой f (х) (рис. 7.6.1). Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное ста­тистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».

ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН



Идея применения критериев согласия заключается в следующем.

На основании данного статистического материала нам предстоит проверить гипотезу Н, состоящую в том, что случайная величина X подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например, в виде функции распределения F(x) или в виде плотности распределения f (х), или же в виде совокупности вероятностей p t , где p t - вероятность того, что величина X попадет в пределы l-то разряда.

Так как из этих форм функция распределения F (х) является наиболее общей и определяет собой любую другую, будем форму­лировать гипотезу Н, как состоящую в том, что величина X имеет функцию распределения ^(д:).

Для того чтобы принять или опровергнуть гипотезу Н, рассмот­рим некоторую величину U, характеризующую степень расхожде­ния теоретического и статистического распределений. Величина U может быть выбрана различными способами; например, в качестве U можно взять сумму квадратов отклонений теоретических вероятно­стей p t от соответствующих частот р* или же сумму тех"*же квад­ратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения F*(x) от теоре­тической F(x) и т. д. Допустим, что величина U выбрана тем или иным способом. Очевидно, это есть некоторая случайная величина. Закон распределения этой случайной величины зависит от закона распределения случайной величины X, над которой производились опыты, и от числа опытов п. Если гипотеза Н верна, то закон рас­пределения величины U определяется законом распределения вели­чины X (функцией F(x)) и числом п.

Допустим, что этот закон распределения нам известен. В рез­ультате данной серии опытов обнаружено, что выбранная нами мера



КРИТЕРИИ СОГЛАСИЯ


расхождения U приняла некоторое значение а. Спрашивается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределениями и, следовательно, на непригодность гипотезы Н? Для ответа на этот вопрос предпо­ложим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недо­статочным объемом опытного материала, мера расхождения U ока­жется не меньше, чем наблюденное нами в опыте значение и, т. е. вычислим вероятность события:

Если эта вероятность весьма мала, то гипотезу Н следует отверг­нуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе Н.

Возникает вопрос о том, каким же способом следует выбирать меру расхождения £/? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом п практически не зависит от функции F(x). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Рассмотрим один из наиболее часто применяемых критериев со­гласия- так называемый «критерий у?» Пирсона.

Предположим, что произведено га независимых опытов, в каждом из которых случайная величина X приняла определенное значение. Результаты опытов сведены в k разрядов и оформлены в виде ста­тистического ряда.

Обрабатывая независимые измерения случайной величины ξ, мы можем построить статистическую функцию распределения F * (x). По виду этой функции можно принять гипотезу, что истинная теоретическая функция распределения есть F(x). Сами независимые измерения (x 1 , x 2 ,…,x n), образующие выборку, можно рассматривать как одинаково распределенные случайные величины с гипотетической функцией распределения F(x).

Очевидно, между функциями F * (x) и F(x) будут некоторые расхождения. Возникает вопрос – являются ли эти расхождения следствием ограниченности объема выборки или связаны с тем, что наша гипотеза не верна, т.е. действительная функция распределения не F(x), а какая-то другая. Для решения этого вопроса пользуются критериями согласия, суть которых в следующем. Выбирается некоторая величина Δ(F, F *), которая характеризует степень расхождения между функциями F * (x) и F(x). Например, Δ(F, F *)=Sup|F(x)-F * (x)|, т.е. верхняя грань по х модуля разности.

Считая гипотезу верной, т.е. зная функцию распределения F(x), можно найти закон распределения случайной величины Δ(F, F *) (вопроса, как это сделать, мы касаться не будем). Зададим число р 0 столь малое, что осуществление события {Δ(F, F *)>Δ 0 }с этой вероятностью будем считать практически невозможным. Из условия

найдем величину Δ 0 . Здесь f(x) – плотность распределения Δ(F,F *).

Вычислим теперь величину Δ(F, F *)= Δ 1 по результатам

выборки, т.е. най­дем одно из возможных значений случайной величины Δ(F, F *). Если Δ 1 ≥Δ 0 , то это означает, что произошло практически невозможное событие. Объяснить это можно тем, что наша гипотеза не верна. Итак, если Δ 1 ≥Δ 0 , то гипотеза отвергается, а при Δ 1 <Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

В качестве меры расхождения Δ(F, F *) можно брать различные величины. В зависимости от этого получаются различные критерии согласия. Например, критерий согласия Колмогорова, Мизеса, Пирсона, или критерий хи-квадрат.

Пусть результаты n измерений оформлены в виде группированного статистического ряда с k разрядами.

РАЗРЯД (x 0 ,x 1) (фактически мы предполагаем, что ошибки измерения распределены равномерно на некотором отрезке). Тогда вероятность попадания в каждый из семи разрядов будет равна . Используя группированный ряд из §11, вычислим Δ(F, F *)= Δ 1 =по формуле (1). В данном случае .

Поскольку в гипотетический закон распределения входят два неизвестных параметра, α и β – начало и конец отрезка, то число степеней свободы будет 7-1-2=4. По таблице распределения хи-квадрат при выбранной вероятности p 0 =10 -3 найдем Δ 0 =18. Т.к. Δ 1 >Δ 0 , то гипотезу о равномерном распределении ошибки измерения придется отбросить.

Критерием согласия называется критерий значимости, применяемый для проверки гипотезы о законе распределения генеральной совокупности, из которой взята выборка.

Чаще всего исследователя интересует, соответствует ли распределение экспериментальных данных нормальному закону. Поэтому примеры будут связаны с проверкой экспериментального распределения на нормальность.

  • Критерий Шапиро-Уилки
  • Критерий хи-квадрат
  • Критерий лямбда Колмогорова-Смирнова

КРИТЕРИЙ ШАПИРО-УИЛКИ

Условия применения: выборка небольшого объема

Н 0 – распределение генеральной совокупности из которой получена выборка совокупности соответствует нормальному закону.

Н 1 — распределение генеральной совокупности из которой получена выборка совокупности не соответствует нормальному закону.

Таблица 1 – Алгоритм расчета критерия Шапиро-Уилки.

x x Δk k ank ankΔk
1 2 3 4 5 6 7
1 11,8 13,8 2 1 0,5739 1,1478
2 12 13,2 1,2 2 0,3291 0,39492
3 12,1 13 0,9 3 0,2141 0,19269
4 12,3 12,8 0,5 4 0,1224 0,0612
5 12,6 12,6 0 5 0,0399 0
6 12,6 12,6
7 12,8 12,3 Сумма=b = 17966
8 13 12,1
9 13,2 12
10 13,8 11,8

Порядок расчета критерия Шапиро-Уилки

  1. Формулируем гипотезу Н 0 о соответствии распределения генеральной совокупности, из которой получены данные нормальному закону. Назначаем уровень значимости α=0,05.
  2. Получаем выборку экспериментальных данных (столбец 1 табл.1). В нашем случае n=10.
  3. Рассчитываем значение выборочной дисперсии. Для примера S 2 =0, 37.
  4. Ранжируем выборку в возрастающем и убывающем порядке (столбцы 2 и 3)
  5. Считаем разности Δk (столбец 5)
  6. Из таблицы 6 Приложения(см. В.С.Иванов, 1990) находим значения коэффициентов ank (столбец 6)
  7. Находим произведение ankΔk
  8. Вычисляем b=сумма ankΔk= 1,7966
  9. Рассчитываем значение критерия Wф по формуле:
  1. Из табл. 7 Приложения (см. В.С.Иванов, 1990) находим критическое значение критерия Шапиро-Уилки для α=0,05 Wкрит= 0,842.
  2. Вывод. Так как Wф>Wкрит, можно говорить, что экспериментальные данные соответствуют нормальному закону на уровне значимости 0,05.

КРИТЕРИЙ ХИ-КВАДРАТ

Разработан Карлом Пирсоном . Основан на построении интервального вариационного ряда и сравнении эмпирических (n эм) и теоретических (n т) частот (Рис.1).

Рис.1. Гистограмма, характеризующая эмпирическое распределение и функция плотности вероятностей нормального распределения.

Статистическая гипотеза : плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.

Значение фактического критерия хи-квадрат вычисляется по формуле:

Если фактическое значение критерия хи-квадрат больше или равно чем критическое значение критерия хи-квадрат, можно сделать вывод, что эмпирическое распределение не соответствует нормальному закону на уровне значимости α.

КРИТЕРИЙ ЛЯМБДА КОЛМОГОРОВА-СМИРНОВА

Разработан Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .

Статистическая гипотеза : функция распределения генеральной совокупности (рис. 2), из которой взята выборка, соответствует функции распределения нормального закона.

Рис.2. Красные точки — кумулята, построенная на основе экспериментальных данных, синяя кривая — теоретическая функция распределения (нормальное распределение).

Значение критерия λ ф вычисляется по формуле:

Вывод: если λ ф > λ крит – эмпирическое распределение не соответствует нормальному на уровне значимости α.

ЛИТЕРАТУРА

  1. Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
  2. Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения , являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

  • расхождение случайно и связано с ограниченным количеством наблюдений;
  • расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

  • Σƒ i - сумма накопленных (кумулятивных) эмпирических частот
  • h - разность между двумя соседними вариантами
  • σ - выборочное среднеквадратическое отклонение
  • t–нормированное (стандартизированное) отклонение
  • φ(t)–функция плотности вероятности нормального распределения (находят по для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т ) и эмпирическими (f) частотами к теоретическим частотам:

  • k–число групп, на которые разбито эмпирическое распределение,
  • f i –наблюдаемая частота признака в i-й группе,
  • f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

  1. Сравнивают фактические и теоретические частоты.
  2. По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
  3. Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Для оценки тесноты связи применяются показатели вариации:

1. Общая дисперсия результативного признака - отражает совокупное влияние факторов:

2. Факторная дисперсия результативного признака - отражает вариацию только от воздействия изучаемого фактора х:

Характеризует колеблемость выравненных значений у х от общей средней величины .

3. Остаточная дисперсия отображает вариацию результативного признака у от всœех прочих, кроме х факторов:

Соотношение между факторной и общей отражает меру тесноты связи между х и у.

индекс детерминации – доля факторной дисперсии в общей дисперсии. В случае если это выражение представить как , то R это будет индекс корреляции .

На базе правила сложения дисперсий (=+индекс корреляции можно представить как: или . Индекс корреляции применяется для оценки тесноты связи при всœех формах связи.

Для измерения тесноты линœейной связи применяется линœейный коэффициент корреляции:

Качественная оценка тесноты связи показателœей дается с помощью шкалы Чеддока:

Рассмотрим на условном примере применение регрессионно-корреляционного анализа связи парной корреляции. Имеется выборочная информация о работе 8 гостиниц, у которых различная среднегодовая наполняемость гостиничных номеров и различная рентабельность их деятельности. В результате регрессионно-корреляционного анализа крайне важно определить, существует ли прямая зависимость между наполняемостью гостиничных номеров и если она есть, то насколько она тесная:

N пп Наполняе-мость (в %%) х Рентабель- ность (в %%) у х 2 у 2 ху Выравненное (теоретическое) у х
8,2 7,0 9,3 8,1 9,5 10,5 7,5 6,3 67,24 49,00 86,49 65,61 90,25 110,25 56,25 39,69 492,0 364,0 669,6 526,5 712,5 840,0 420,0 315,0 7,61 6,65 9,05 8,21 9,41 10,01 7,13 6,41
66,4 564,78 4339,6 64,48

Определим параметры уравнения линœейной парной регрессии:

Наше уравнение парной регрессии будет иметь вид:. Подставим в это уравнение эмпирические значения х и рассчитаем теоретические значения 7,61 и т. д.

Теперь определим тесноту связи между наполняемостью гостиниц и рентабельностью их деятельности:

В результате проведенного анализа установлено, что между наполняемостью гостиниц и рентабельностью их деятельности существует прямая весьма высокая зависимость.

На практике часто возникает крайне важно сть произвести оценку близости эмпирических частот к теоретическим. Такую оценку можно произвести с помощью критериев близости, называемых критериями согласия. Наиболее часто применяется для этих целœей – критерий согласия Пирсона (ʼʼхиʼʼ- квадрат), который рассчитывается по формуле:

где f – эмпирические частоты,

Теоретические частоты.

Оценка близости эмпирических частот к теоретическим определяется по вероятности достижения данной величины Р() при случайных отклонениях частот. В случае если вероятность Р() значительно отличается от нуля (больше, чем 0,05), то отклонения эмпирических частот от теоретических можно считать случайными. В случае если Р()< 0,05, то отклонения нельзя считать случайными, а эмпирическое и теоретические распределœения принципиально друг от друга отличаются.

Величина зависит не только от отклонений фактических частот от теоретических, но и от количества групп, на которые разбита совокупность, в связи с этим таблицы критических значений рассчитаны для различных степеней свободы варьирования эмпирических частот (приложение). Стоит сказать, что для нормального распределœения число степеней свободы К=n-3 , где n – число групп.Р(, что значительно превышает 0,05. Это означает, что отклонения фактических частот от эмпирических можно считать случайными, а само распределœение реализации путевок близко к нормальному распределœению.

Приложение 1

Критерии согласия - понятие и виды. Классификация и особенности категории "Критерии согласия" 2017, 2018.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: