Подгонка распределений
В некоторых исследовательских проектах можно сформулировать гипотезы относительно распределения рассматриваемой переменной. Например, переменные, значения которых определяются бесконечным числом независимых факторов, распределены по нормальному закону: можно предположить, что рост индивидуума является результатом воздействия многих независимых факторов, таких как различные генетические предрасположенности, болезни, перенесенные в раннем возрасте и т.д. Как следствие, рост имеет тенденцию к нормальному распределению в популяции США. С другой стороны, если наблюдаемые значения переменной являются результатом очень редких событий, то переменная будет иметь распределение Пуассона (которое иногда называется распределением редких событий). Например, несчастные случаи на производстве можно рассматривать как результат пересечения ряда неудачных событий (на житейском языке стечением маловероятных обстоятельств), поэтому их частота приближенно описывается распределением Пуассона. Эти и другие полезные распределения подробно описываются в соответствующих разделах руководства.
Другим обычным приложением процедуры подгонки распределения является проверка гипотезы нормальности до того, как использовать какой-либо параметрический тест (см. Непараметрическая статистика. Основная цель). Например, вы можете использовать критерий Колмогорова-Смирнова для нормальности или W критерий Шапиро-Уилка для проверки нормальности.
Для прогноза часто необходимо знать закон распределения. Для определения закона, в большинстве случаев нужно подогнать наблюдаемое распределение под теоретическое, сравнением наблюдаемых частот в данных с ожидаемыми частотами в теоретическом распределении (т.е. критерий согласия Хи-квадрат).
Какое распределение использовать. В некоторых исследовательских проектах можно сформулировать гипотезы относительно распределения рассматриваемой переменной. Например, переменные, чьи значения определены бесконечным числом независимых случайных событий, распределены нормально, тогда как переменные, чьи значения являются результатом экстремально редкого события, имеют пуассоновское распределение. Наиболее важны следующие семейства распределений, которые используются для описания продолжительности жизни или наработки до отказа: экспоненциальное (в том числе, линейно экспоненциальное), распределение Вейбулла экстремальных значений и распределение Гомперца. Раздел Типы распределений содержит описание распределений, где продемонстрированы небольшие примеры типов данных, которые имеют, в большинстве случаев, то или иное распределение, а также функцию плотности каждого распределения.
В начало |
Распределение Бернулли. Это распределение наилучшим образом описывает ситуации, где испытание имеет результат успех, либо неуспех, например, при бросании монеты, или при моделировании удачной или неудачной хирургической операции. Распределение Бернулли определяется формулой:
f(x) = px * (1-p)1-x
для x О {0,1},
где p - вероятность того, что определенное событие (например, успех) произойдет.
Бета распределение. Бета-распределение часто используется для описания процессов, обладающих естественными нижним и верхним пределами. Бета распределения определяется формулой:
f(x) = (
+
)/(
(
)
(
)) *
x
-1 * (1-x)
-1
0 x
1
> 0,
> 0
где
- гамма-функция
,
- параметры (формы)
Анимация выше демонстрирует бета распределение, с двумя изменяющимися параметрами формы.
Биномиальное распределение. Биномиальное распределение полезно для описания распределения биномиальных событий, таких как число мужчин и женщин в случайно выбранных компаниях или число дефектов в выборке продукции из 20 единиц. Биномиальное распределение имеет вид:
f(x) = [n!/(x!*(n-x)!)] * px * qn-x
для x = 0, 1, 2, ..., n
где
p - вероятность
успеха в каждом испытании
q - величина, равная 1-p
n - число независимых
испытаний.
Распределение Коши. Распределение Коши интересно по теоретическим причинам. Хотя среднее можно взять как ноль, так как распределение симметрично относительно нуля, математическое ожидание, дисперсия и моменты более высоких порядков не вычислены. Распределение Коши имеет вид:
f(x) = 1/(*{1 + [(x-
)/
]2})
0 <
где
- параметр
положения (медиана)
- параметр
масштаба
- число пи (3.1415...)
Анимация выше демонстрирует изменение формы распределения Коши, когда параметр положения равен 0, а параметр масштаба равен 1, 2, 3 и 4.
Хи-квадрат распределение. Распределение суммы квадратов независимых случайных переменных, каждая из которых имеет стандартное нормальное распределение имеет следующий вид:
f(x) = {1/[2/2 *
(
/2)]} * [x(
/2)-1 * e-x/2]
= 1, 2, ..., 0 < x
где
- число
степеней свободы
e - число Эйлера (2.71...)
-
гамма-функция
Рисунок показывает распределение Хи-квадрат с увеличением степени свободы (1, 2, 5, 10, 25 и 50).
Экспоненциальное распределение. Если T- время между наступлениями редких событий, происходящих в среднем с интенсивностью l то величина T имеет экспоненциальное распределение с параметром l (лямбда). Экспоненциальное распределение часто используется для описания интервалов времени между последовательными случайными событиями, например, интервалов времени между автомобилями, пересекающими перекресток, длительностей жизни электронных приборов или приходов покупателей в кассу бакалейного магазина. Плотность экспоненциального распределения имеет вид:
f(x) = * e-
x
0 x <
,
> 0
где
(лямбда) - параметр
экспоненциальной функции (альтернативной
параметризацией является параметр масштаба b=1/
)
e - основание
натуральных логарифмов (2.71...)
Экстремальное значение. Распределение экстремальных значений используется при моделировании экстремальных событий, например, уровней наводнений, скоростей вихрей, максимума индексов рынков ценных бумаг за данный год и т.д.; это распределение также используется в теории надежности, например, для описания времени отказа электрических схем (см. Shapiro and Hahn, 1967). Распределение экстремальных значений (тип I) имеет плотность вида:
f(x) = 1/b * e-(x-a)/b * e-e-(x-a) / b
- < x <
b > 0
где
a - параметр положения
b - параметр масштаба
e - основание натуральных
логарифмов (2.71...)
Это распределение иногда называют
распределением наибольшего экстремального
значения.
F распределение. F распределение в большинстве случаев используется в критериях дисперсии (например, ANOVA). Отношение двух хи-квадратов деленное на соответствующие степени свободы имеет F распределение. Ј x) имеет следующий вид (для n = 1, 2, ...; w = 1, 2, ...):
f(x) = {![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
x(![]() ![]() ![]() ![]() ![]() |
0 x <
= 1, 2, ...,
= 1, 2, ...
где
,
-
степени свободы
- гамма
- функция.
Анимация выше показывает различные (р-уровни) для F распределения со степенями свободы равными 10.
Гамма распределение. Плотность экспоненциального распределения имеет моду 0. Во многих примерах, заранее известно, что мода рассматриваемой случайной переменной не равна 0 (например, когда моделируется распределение длительности жизни электрических ламп или реальная (измеренная секундомером) длительность баскетбольного матча). В этих случаях Гамма распределение более подходит для описания распределения. Плотность Гамма распределения имеет вид:
f(x) = (x/b)c-1 * e(-x/b) * [1/b (c)]
0 x, b > 0, c > 0
где
- гамма-функция
b - параметр масштаба
c - параметр (формы)
e - число Эйлера (2.71...)
Анимация выше показывает Гамма распределение, где параметр формы меняется от 1 до 6.
Геометрическое распределение. Если проводятся независимые испытания Бернулли и подсчитывается количество испытаний до наступления успеха, то это число имеет геометрическое распределение. Геометрическое распределение определяется формулой:
f(x) = p*(1-p)x
где
p - вероятность
наступления определенного события (например,
успеха)
Распределение Гомперца. Это распределение является теоретическим распределением времен отказов или времени жизни. Гомперц (1825) предложил вероятностную модель человеческой смертности, основывающаяся на предположениях, что среднее истощение человеческой силы должно быть таким, чтобы к концу каждого бесконечно малого интервала времени он теряет равную порцию оставшейся энергии. Это с целью избежания смерти по отношению к разрушению, которое наблюдалось в начале этого интервала. Распределение Гомперца имеет вид:
r(x)=Bcx, для x Ј 0, B > 0, c Ј 1,
оно часто используется в Анализе Выживаемости. См. Johnson, Kotz, Blakrishnan (1995) для дополнительных деталей.
Распределение Лапласа. Лапласа (или двойное экспоненциальное) распределение имеет функцию плотности распределения:
f(x) = 1/(2b)*e-|x-a|/b
- < x <
где
a - среднее распределения
b - параметр масштаба
e - число Эйлера (2.71...)
График выше показывает изменения формы распределения Лапласа, когда параметр положения равен 0, а параметр масштаба равен 1, 2, 3 и 4.
Логистическое распределение. Логистическое распределение используется в модели двоичного отклика (например, Пол) и обычно используется в логит регрессии. Плотность логистического распределения имеет вид:
f(x) = (1/b)*e-(x-a)/b * [1+e-(x-a)/b]-2
где
a - среднее распределения
b - параметр масштаба
e - число Эйлера (2.71...)
Данный график показывает изменения формы в логистическом распределении, когда параметр положения равен 0, а параметр масштаба равен 1, 2 и 3.
Логнормальное распределение. Логнормальное распределение часто используется в моделировании таких переменных, как персональные доходы, возраст новобрачных (точнее, первый раз вступающих в брак) или допустимое отклонение от стандарта вредных веществ в продуктах питания. В общем, если величина x имеет нормальное распределение, то y = e x имеет логнормальное распределение. Плотность логнормального распределения имеет вид:
f(x) = 1/[x(2
)1/2] * exp(-[log(x)-µ]2/2
2)
0 x <
µ > 0
> 0
где
µ - параметр масштаба
- параметр
(формы)
e - число Эйлера (2.71...)
Анимация выше показывает логнормальное распределение с мю равным 0 сигма равной .10, .30, .50, .70, и .90.
Нормальное распределение. Нормальное распределение (так называемая колоколообразная кривая, симметричная относительно среднего) - это теоретическая функция, особенно часто используемая в статистике (см. также Элементарные понятия статистики). Вообще, нормальное распределение дает хорошую модель, если:
1. Имеется сильная тенденция данных принимать центральное значение;
2. Положительные и отрицательные отклонения от этого центрального значения равновероятны;
3. Частота отклонений быстро падает, когда отклонения становятся большими.
Механизм, лежащий в основе нормального распределения, можно представить следующим образом. Имеется бесконечное число независимых случайных событий, которые вносят вклад в значения наблюдаемой переменной. Например, имеется практически бесконечное число факторов, определяющих вес человека (тысячи генов, предрасположенность, болезни и т.д.). Таким образом, можно ожидать нормальное распределение для веса в популяции всех людей. Плотность нормального распределения имеет вид:
f(x) = 1/[2*)1/2*
] * e**{-1/2*[(x-µ)/
]2}
- < x <
где
µ - среднее
- стандартное
отклонение
e - число Эйлера (2.71...)
- число Пи (3.14...)
Анимация выше показывает несколько процентилей стандартного нормального распределения (т.е. нормального распределения со средним 0 и стандартным отклонением 1). Стандартное нормальное распределение часто используется в проверке гипотез.
Распределение Парето. Распределение Парето обычно используется для производственных процессов (см. Контроль качества и Анализ процессов). Например, машина, которая производит медную проволоку может иногда делать небольшие трещинки в нескольких точках на протяжении всей длине проволоки. Распределение Парето можно использовать в модели длины проволоки между последовательными трещинами. Плотность распределения Парето имеет вид:
f(x) = c/xc+1 1 x, c > 0
где
c параметр (формы)
распределения.
Анимация выше демонстрирует распределение Парето для параметра распределения равного 1, 2, 3, 4 и 5.
Распределение Пуассона. Распределение Пуассона иногда называют распределением редких событий. Примеры переменных, распределенных по закону Пуассона, дают число несчастных случаев, число фатальных дефектов в производственном процессе. Распределение Пуассона определяется формулой:
f(x) = (x
* e-
)/x!
for x = 0, 1, 2, .., 0 <
где
- ожидаемое
значение x (среднее)
e - число Эйлера (2.71...)
Распределение Релея. Если две переменные y1 and y2 являются независимыми друг от друга и нормально распределены с одинаковой дисперсией, то переменная x = Ц(y12+ y22) будет иметь распределение Релея. Примером такой случайной величины будет расстояние дротиков от центра мишени при бросании дротиков, если отклонения от центра мишени по горизонтали и вертикали имеют нормальное распределение с одинаковой дисперсией. Распределение Релея имеет плотность:
f(x) = x/b2 * e-(x 2/2b2)
0 x <
b > 0
где
b - параметр масштаба
e - число Эйлера (2.71...)
График, изображенный выше, показывает изменения формы распределения Релея, когда параметр масштаба равен 1, 2 и 3.
Равномерное распределение. Равномерное распределение полезно для описания переменных, у которых значения плотности одинаковы на отрезке a<b.
f(x) = 1/(b-a), для a<x<b
= 0 , иначе
где a<b - константы.
Распределение Стьюдента. Распределение Стьюдента симметрично относительно нуля и его главная форма схожа со стандартным нормальным распределением. Обычно это распределение используется в проверке гипотез о среднем различных популяций. Распределение Стьюдента выглядит следующим образом (для n = 1, 2, . . .):
f(x) = ![]() ![]() ![]() ![]() ![]() ![]() |
[1 + (x2/![]() ![]() |
где
- число
степеней свободы
-
гамма-функция
- число
Пи (3.1415...)
Форма распределения Стьюдента определяется степенями свободы. Как показано в анимации выше, эта форма меняется в зависимости от них.
Распределение Вейбулла. Как описывалось выше, экспоненциальное распределение часто используется как модель, оценивающая время наработки до отказа в предположении, что вероятность отказа постоянна. Если вероятность отказа меняется с течением времени, используется распределение Вейбулла. Это распределение часто применяется при испытаниях на надежность, например, электрических реле, подшипников и т.п.; см. Shapiro and Hahn, 1967. Распределение Вейбулла имеет плотность вида:
f(x) = c/b*[(x-)/b]c-1
* e^{-[(x-
)/b]c}
< x, b > 0, c
> 0
где
b - параметр масштаба
распределения
c - параметр (формы)
распределения
-
параметр положения распределения
e - число Эйлера (2.71...)
Анимация выше показывает распределение Вейбулла с возрастающим параметром формы (.5, 1, 2, 3, 4, 5, и 10).
В начало |
Все права на материалы электронного учебника принадлежат компании StatSoft