Электронный учебник Statsoft


Анализ мощности



Общие задачи

Анализ мощности является важным этапом статистического исследования, с которым сталкиваются многие практики. В этом модуле собраны методы анализа мощности статистических критериев, объема выборки и углубленные методы доверительного интервального оценивания. Основная цель первых двух приемов заключается в том, чтобы определить (a) какой объем выборки должен быть использован для получения надежных оценок, (b) какова вероятность того, что статистический тест будет обнаруживать экспериментальные эффекты данной величины. Третий метод, как альтернатива классическим методам проверки гипотез, полезен при решении многих важных задач, а также при оценивании величины эффектов, полученных в экспериментах.

Анализ мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

В модуле Анализ мощности доступны графические и аналитические процедуры, позволяющие оценить мощность и объем выборки различных процедур статистического анализа. Эта информация является решающей при проведении экспериментальных исследований, массовых опросов и т.д.

Процедуры доверительного интервального оценивания и другие тонкие процедуры интервального оценивания предлагают углубленные методы оценивания величины экспериментальных эффектов. Отметим, что все большое число статистиков признают, что доверительное интервальное оценивание естественно дополняет и развивает классический подход, основанный на проверке гипотез в анализе данных.

В начало



Анализ мощности и оценка объема выборки в планировании эксперимента

Ниже обсуждаются основные идеи, лежащие в основе этих методов.

Теория выборок и логика проверки гипотез. В большинстве ситуаций на практике у нас нет доступа ко всей популяции (генеральной совокупности) в целом (например, популяция слишком большая, процесс измерения слишком дорог и т.д.). Таким образом, мы имеем дело с ограниченным объемом данных - выборкой, и поставлены перед необходимость принимать решение относительно всей популяции на основе лишь выборочных данных. Для того чтобы оценить некоторую характеристику популяции, которую назовем параметром, мы строим выборку и вычисляем на ее основе некоторую статистику, которую рассматриваем как оценку искомого параметра.

Представьте, вы политик и вас интересует доля людей, поддерживающих вашу позицию в данном вопросе. Пусть ваш избирательный округ - большой город, в котором проживают около 1,500,000 человек, имеющих право голоса. В данном случае интересующий параметр P, доля всех людей, поддерживающих вас. Как понять, насколько велика эта доля? Вы можете поступить следующим образом: выбрать наудачу группу людей и выяснить их мнение. Число людей (N) в выборке будет относительно небольшим в сравнении со всей популяцией. Опросив людей в выборке по данному вопросу, вы получите не точное значение, а оценку - обозначим ее через p - интересующего нас параметра P. Возникает вопрос: какова точность этой оценки? В зависимости от ответа на данный вопрос вы предпримете то или иное решение.

Очевидно, что параметр P не будет равен в точности оценке p. Потому что (p) включает случайный выбор. Величина отклонения p от P называется ошибкой (более точно, выборочной ошибкой).

Таким образом, в любой построенной по выборке оценке содержится ошибка, точная величина которой неизвестна, в противном случае, вы могли бы точно вычислить значение параметра, что в принципе невозможно сделать, имея дело с частью популяции, то есть с выборкой.

В общем, можно сказать, что чем больше объем выборки N, тем меньше ошибка оценки. Если вам нужно точное решение о параметре p, вам необходимо взять N достаточно большим, чтобы ошибка была "разумно малой", например, опросить всех жителей города. Если N слишком мало, то мало шансов получить хорошую оценку.

С другой стороны, если взять объем выборки N слишком большим, улучшение точности оценки окажется незначительным. Итак, если N "достаточно большое", чтобы обеспечить приемлемый уровень точности, то дальнейшее увеличение объема данных не приводит к неоправданной трате времени и средств.

Таким образом, ключевым вопросом является: " Какой уровень точности будет иметь оценка для данного объема выборки?", а также связанный с ним "Какой объем выборки нужно иметь, чтобы достичь приемлемого уровня точности?" Таким образом, ключевым вопросом является: " Какой уровень точности будет иметь оценка для данного объема выборки?", а также связанный с ним "Какой объем выборки нужно иметь, чтобы достичь приемлемого уровня точности?"

Цель Анализа мощности заключается в том, чтобы предоставить в ваше распоряжение статистические методы, позволяющие ответить на эти вопросы. Хорошие программы предоставляют вам простой диалог, позволяющий провести анализ мощности и рассчитать объем выборки для классических статистических процедур, а также специальные программы для нецентрального оценивания, позволяющие продвинутым пользователям вычислить множество дополнительных характеристик, способствующих пониманию ситуации.

Предположим, вы интересуетесь ответом на такой вопрос: поддерживает ли вашу позицию большинство населения? В статистических терминах вы хотите проверить гипотезу: "p > .50?"

Следующие рассуждения вообще типичны при проверке гипотез. Назовем исходную гипотезу "нулевая гипотеза" - H0 . Соберем данные. Используя статистическую теорию, видим, что гипотеза H0, вероятно, неверна и должна быть отвергнута.

Отвергая H0, вы обосновываете то, во что действительно верите. Эта ситуация, типичная во многих областях приложения, называется критерий отвержения-принятия - "Reject-Support testing," (RS testing); отвергая нулевую гипотезу, вы подтверждаете теорию.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

 

Состояние Мира

HO H1

Решение

H0

Правильное
принятие

Ошибка II рода
H1 Ошибка I рода

Правильное
отвержение

Заметим, что имеются ошибки двух типов, показанные в этой таблице. Авторы многих учебников обычно придерживаются такой точки зрения, что Ошибка I рода должна принимать значение .05 или ниже, тогда как Ошибка II рода должна быть столь малой, насколько это возможно при фиксированном уровне ошибки 1 рода. "Статистическая мощность", которая равна 1 - , соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, .80, чтобы обнаружить разумные уклонения от нулевой гипотезы.

Эти соглашения, конечно, более строги по отношению к ошибке первого рода , чем по отношению к ошибке . Например, в социальных исследованиях редко допускается, чтобы a находилось выше магической отметки .05.

Критерий значимости (RS/AS). В контексте критерия значимости мы имеем дело с двумя типами ситуаций: отвергнуть-поддержать - reject-support (RS) (см. обсуждение выше) и принять-поддержать - accept-support (AS). В RS ситуации нулевая гипотеза противоположна тому, во что исследователь верит, отвергая ее, он, тем самым, подтверждает теорию. Например, в двухгрупповом RS эксперименте, включающем сравнение средних в двух группах - экспериментальной и контрольной, исследователь верит, что лекарство приносит эффект и ищет подтверждение своим предположениям с помощью критерия, который значимо отвергает нулевую гипотезу, состоящую в том, что эффекта нет (средние равны).

В RS исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

В AS исследовании нулевая гипотеза H0 - это то, во что исследователь верит, таким образом, признавая ее, он поддерживает теорию. В этой ситуации Ошибка I рода представляет собой ложное отрицание теории, a ошибка типа II - ошибочное принятие.

В обеих ситуациях AS и RS можно привести примеры, в которых критерии значимости кажутся странными и нереалистичными, поэтому обоснованная концепция экспериментального исследования очень важна. Рассмотрим сначала RS исследование. В некоторых случаях просто невозможно иметь дело с очень большими выборками - с такой ситуацией мы сталкиваемся, например, в социальных или психологических исследованиях. В таких задачах исследователи иногда тратят несколько дней на то, чтобы получить интервью одного человека. В результате в течение года можно обследовать 50 субъектов. Корреляционные критерии в таких случаях имеют очень низкую мощность (так как объем выборки слишком мал). В таких случаях лучше взять значение выше .05, тогда требуемая мощность может быть достигнута.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Ситуация становится гораздо критичнее в AS тестировании. Если N слишком большое, исследователь почти неизбежно принимает решение не в пользу теории, которая на самом деле верна. Это кажется парадоксальным, но в этом смысле точность эксперимента играет против исследователя.

Подведем итог, в Reject-Support (Отвергнуть-Принять) исследовании:

  1. Исследователь хочет отвергнуть H0.
  2. "Общество" хочет контролировать ошибку I рода.
  3. Исследователь должен позаботиться об ошибке II рода.
  4. Большой объем выборки работает на исследователя.
  5. Если тест имеет "слишком большую мощность," тривиальные эффекты становятся "высоко значимыми."

В Accept-Support (Принять-Поддержать) исследовании:

  1. Исследователь хочет принять H0.
  2. "Общество" хочет позаботиться о контроле ошибки II рода, хотя иногда возникают недоразумения и принимается заранее соглашение о применении RS исследования.
  3. Нужно очень внимательно контролировать ошибку I рода.
  4. Большой объем выборки играет против исследователя.
  5. Если тест имеет "слишком много мощности," теория может быть "отвергнута" с помощью критерия значимости даже если она почти идеально соответствует данным.
В начало



Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы. В противном случае, эксперимент не следует проводить. Элементарные учебники предлагают подробное обсуждение факторов, влияющих на мощность статистических тестов. Кратко опишем основные идеи:

  1. Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие.
  2. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки "разумно большим".
  3. Величина экспериментальных эффектов.
  4. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как "шум", который может скрыть "сигнал" в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.
В начало



Оценка объема выборки. Чтобы гарантированно иметь статистический критерий достаточной мощности, следует до проведения эксперимента вычислить, какой объем выборки N необходим.

Кратко рассмотрим основы теории, используемые для оценки мощности и объема выборки. Вернемся к примеры, описанному ранее.

Заметим, что теория, конечно, не может сказать, как проголосует отдельный избиратель (это и не нужно, когда мы имеем дело с массой избирателей, не имеющих индивидуального лица). Однако с помощью концепции выборочного распределения ошибки можно сказать, к чему стремится ошибка оценки.

Выборочное распределение представляет собой распределение статистики критерия в повторных выборках. Рассмотрим выборочную оценку p, построенную по выборке объема N в ситуации, когда в точности равна .50. Статистическая теория утверждает, что p имеет биномиальное распределение. (как сумма независимых случайных величин, принимающих два значения 1 или 0). Это распределение при достаточно больших N в силу теоремы Муавра-Лапласа, являющейся частным случаем центральной предельной теоремы, приближается к нормальному распределению со средним и стандартным отклонением, вычисляемым по формуле (так называемая "стандартная ошибка успеха"):

sp = (p(1-p)/N)**1/2

Предположим, например, что число опрошенных (иными словами объем выборки) N равно 100. Тогда распределение p имеет следующий вид (напомним, что = .5):

Из рисунка видно, что значения статистики сосредоточены вокруг точки .5, но небольшой процент значений больше .6 или меньше чем .4. Этот разброс значений оценок отражает тот факт, что опрос общественного мнения проводился среди 100 человек и поэтому не является абсолютно точным значением вероятности успеха .

Если бы p была "совершенной" оценкой , разброса значений не было бы, и стандартная ошибка равнялась бы 0. Тогда выборочное распределение имело бы выброс в точке 0.5. Выброс выборочного распределения говорит о том, насколько много "шум" смешивается с "сигналом" от параметра.

Заметим, что стандартная ошибка стремится к 0 при увеличении объема выборки N (N стоит в знаменателе). Если N становится достаточно большим, то оценка p будет все более точной (см. формулу для вычисления ошибки).

Предположим, вы используете критерий, описанный ранее. Допустим, вы решили, что, если p больше .58, то нулевая гипотеза " меньше или равно .50" неверна. Критическая область этого критерия показана ниже.

Проведя несложные подсчеты (например, используя формулу биномиального распределения) легко определить, что вероятность отвергнуть нулевую гипотезу при p = .50 равна .044. Следовательно, для выбранного решающего правила ошибка I рода находится на уровне не ниже .044.

Теперь важно понять, какова мощность этого критерия.

Предположим, что 55% избирателей поддерживают политика, то есть = .55 и нулевая гипотеза не верна. В этом случае правильное решение состоит в том, чтобы отвергнуть нулевую гипотезу в пользу альтернативы.

На рисунке ниже показано выборочное распределение p при условии, что = .55. Ясно, что политики принимают верные решения, поддерживаемые большинством, только в очень малом проценте случаев. Вероятность того, что p больше .58, равна только .241.

Нечего и говорить, что нет смысла проводить эксперимент, в котором ваша точка зрения верна только в 24.1% опытов! В таком случае аналитик говорит, что критерий значимости имеет "недостаточную мощность, чтобы обнаружить 5%-е отклонение от нулевой гипотезы."

Суть проблемы лежит в ширине этих двух распределений (при различных гипотезах). Если объем выборки становится большим, то стандартная ошибка доли уменьшается и область перекрытия двух распределений соответственно уменьшается. Таким образом, при достаточно большой выборке можно найти критерий с высокой мощностью и данным уровнем значимости .

Поставим вопрос: "Какой объем выборки N необходим, чтобы достичь разумно высокой мощности" в ситуации, когда фиксировано на разумно низком уровне.

Конечно, можно попытаться опытным путем установить нужный объем выборки (например, применяя метод Монте-Карло). Однако программное обеспечение позволяет это сделать автоматически с помощью нескольких движений мыши. Модуль STATISTICA Анализ мощности предлагает различные аналитические и графические процедуры, позволяющие представить зависимость между мощностью и размером выборки. При работе с модулем Анализ мощности предполагается, что вы будете применять хорошо известный хи-квадрат критерий чаще, чем точный биномиальный критерий. Например, предположим, что политик хочет достичь мощности .80 при p равном .55. Используя выбору объема 607, он получит на выходе мощность равную .8009. (Реальный уровень Альфа этого критерия равен .0522.)

В начало



Визуальный подход к анализу мощности. Итак, мы получили, что необходимая мощность (0.8) достигается при выборке объема 607 (p =.80). На практике, конечно, было бы неразумно проводить только одно вычисление, основываясь на одном гипотетическом значении. Более естественно рассмотреть, как зависит мощность от p, иными словами, построить функцию зависимости мощности от p.

Интеллектуальный анализ мощности включает построение и исследование графиков зависимости мощности, объема выборки и уровня эффекта, а также ряда других факторов, например, таких как Ошибка I рода. Анализ мощности дает возможность строить различные типы графиков мощности и объема выборки.

В обсуждаемом примере мы хотим понять, будут ли нашу точку зрения поддерживать более половины избирателей или нет с низкой вероятностью ошибиться (с низким риском). Иными словами, с какого объема выборкой нам нужно иметь дело. Графический анализ чрезвычайно полезен для понимания способности статистического теста обеспечить нужную мощность.

Например, можно построить график зависимости мощности от объема выборки в предположении, что истинная доля поддерживающих равна .55 (т.е. вас поддерживают более 55%). Пользователь может начать с набора графиков таких кривых для очень широкого диапазона объема выборки, чтобы представить в целом, как ведет себя тест. На следующем графике показана мощность как функция объема выборки в диапазоне от 20 до 2000 наблюдений (используется "нормальная аппроксимация" биномиального распределения).

Из графика видно, что мощность достигает приемлемого уровня (часто этот уровень фиксирует между .80 и .90) на выборке, состоящей примерно из 600 наблюдений.

Следует помнить, что вычисления сделаны в предположении, что истинное значение доли p равно.55. Возможно, что форма кривой (а значит, и наши оценки!) очень чувствительна к величине p. Логично поставить вопрос: "как чувствителен наклон графика к изменению величины p?"

Имеется несколько подходов к решению данного вопроса. Один состоит в том, чтобы построить графики зависимости мощности от объема выборки для разных значений p. Ниже показан график зависимости мощности от объема выборки при p = .6.

Можно заметить, что увеличение мощности при возрастании N происходит гораздо быстрее при p = .6 чем при p = .55. Это различие становится более заметно, если построить два графика одновременно.

Практически при планировании исследований вы поступаете следующим образом. Определяете, какой разумный минимальный эффект желательно обнаружить, минимальную мощность для обнаружения эффекта и объем выборки, который позволяет достичь данную мощность. Объем выборки можно получить, проанализировав приведенные выше графики, или вычислить непосредственно. Например, если пользователь хочет оценить минимальный объем выборки, необходимый для того, чтобы достичь мощности .90 при p = .55, программа дает следующий результат:

Для данного уровня мощности график зависимости объема выборки от p показывает чувствительность объема выборки к величине p. На следующем графике показана зависимость объема выборки N, позволяющей достичь мощности .90 для различных значений p, когда при нулевой гипотезе p = .50.

Из графика видно, как быстро уменьшается N для p от .55 до .60. Таким образом, чтобы надежно обнаружить различие .05 (от значения при нулевой гипотезе .50), требуется взять объем выборки N больше 800, но, чтобы надежно обнаружить различие .10 требуется всего лишь 200 (см. значение N при р = 0.6). Очевидно, гораздо лучше быть осведомленным заранее о точности критерия, чем быть поставленным перед фактом, что ваши выводы некорректны, после проведения исследования.

Основные этапы проведения анализа мощности и вычисления объема выборки состоят в следующем:

  1. Определяется критерий и нулевая гипотеза.
  2. Исследуется мощность и требуемый объем выборки для обнаружения эффекта на разумном уровне.
  3. Вычисляется требуемый объем выборки для обнаружения эффекта на разумном уровне мощности.
В начало



Нецентральное интервальное оценивание и оценка статистических моделей

Модуль Анализ мощности содержит удобные средства для построения доверительных интервалов. Стоит отметить, что подобные средства не включены практически ни в один другой статистический пакет. Некоторые из рассматриваемых подходов обсуждаются в Steiger and Fouladi (1997). Далее в этом разделе мы кратко рассмотрим основные идеи построения доверительных интервалов.

Недостатки подхода, основанного на проверке гипотез. Строго говоря, результат применения критерия значимости заключается в утверждении - принять или отвергнуть нулевую гипотезу. Такой подход часто не устраивает тех исследователей, кто рассматривает нулевую гипотезу не как утверждение об отсутствии эффекта, а более интересуется тем, насколько велик эффект, чем тем, был ли он в точности равен нулю. Таким образом, приходится ставить одну, две или три звездочки после результатов в таблице, или приводить соответствующие p-уровни.

Вероятностные уровни иногда могут ввести в заблуждение относительно "силы" результата, особенно когда они представлены без дополнительной информации. Например, если в таблице Дисперсионного Анализа один эффект имел p-уровень .019, а другой p-уровень .048, то утверждение, что первый эффект сильнее второго, возможно, будет ошибочным. Для правильной интерпретации полученного результата необходима дополнительная информация. Чтобы понять это, предположим, что некто установил p-уровень .001. Это могло быть результатом тривиального эффекта и чрезмерно большого объема выборки, либо сильного эффекта в популяции и умеренного объема выборки, либо грандиозного эффекта и малого объема выборки. Аналогично, p-уровень .075 можно интерпретировать как комбинацию мощного эффекта и малой выборки, либо незначительного эффекта и гигантской выборки. Отсюда ясно, что следует внимательно сравнивать p-уровни и принимать во внимание объем выборки и точность эксперимента.

Заметим, что в AS исследовании, часто возникающем при подгонке моделей факторного анализа или "причинного моделирования", логика критериев значимости часто оказывается неприемлемой и полезным становится интервальное оценивание. Отвержение "истинно правдивой" нулевой гипотезы в данной ситуации часто сопровождается неясными утверждениями о том, что отвержение не должно быть слишком серьезным. Ошибка отвергнуть нулевую гипотезу обычно выражается в требовании редактора, обремененного вычислениями мощности. Такие проблемы можно легко попробовать решить, используя теорию доверительных интервалов.

В начало



Преимущества интервального оценивания. Многие исследования носят разведочный характер. Фундаментальными вопросами разведочных исследований являются "Какое наилучшее предположение о величине эффекта?" и "Насколько точно мы определили популяционный эффект на основе выборочных данных?" Критерии значимости отказываются прямо ответить на эти вопросы. Многие исследователи, столкнувшись с "непреодолимым отклонением" нулевой гипотезы, не могут отказаться от искушения указать в своих отчетах, что это было сделано на уровне значимости "лежащим ниже уровня .001". Однако это высокопарное заявление мало что дает практически.

Доверительное интервальное оценивание предлагает подходящую альтернативу критериям значимости в большинстве ситуаций на практике. Рассмотрим, например, гипотезу о том, что между двумя средними нет отличий. Вначале напомним, что критерий значимости отвергает гипотезу на уровне тогда и только тогда, когда 1 - доверительный интервал для разности средних не содержит точку нуль. Таким образом, критерий значимости может быть построен с помощью доверительного интервала. В большинстве учебников по математической статистике показано, как построить такой доверительный интервал. Интервал строится на основе t-критерия. Однако интервал содержит информацию об экспериментальной точности, которой нет в критерии значимости. Очевидно, доверительный интервал для разности Mu1 - Mu2 содержит больше информации, чем p- уровень t-критерия для гипотезы Mu1 - Mu2 = 0.

Наглядно это можно продемонстрировать на следующих графиках:

На графиках показаны разности средних в 3-х экспериментах, выполненных на одном и том же экспериментальном материале примерно с одним и тем же разбросом данных. Данные в экспериментах 1 и 3 дают доверительный интервал, не содержащий 0. Поэтому нулевая гипотеза о равенстве средних отвергается. Во втором эксперименте доверительный интервал включает 0, таким образом, нулевая гипотеза не отвергается. Критерий значимости может привести к заключению, что второй эксперимент не согласуются с двумя остальными.

Доверительное оценивание приводит к другой интерпретации. В первом эксперименте имеется большой объем данных и высокая точность измерения, что отражается в узком доверительном интервале. В этом эксперименте был обнаружен слабый эффект, и нулевая гипотеза об отсутствии различия средних может быть убедительно отвергнута.

Второму эксперименту отчетливо не хватает точности, что отражается в очень широком доверительном интервале. Очевидно, объем выборки также слишком мал. Может оказаться так, что реальный эффект при проведении второго эксперимента оказался больше, чем в первом эксперименте, но точность эксперимента недостаточна для определения этого.

В третьем эксперименте эффект является статистически значимым (средние различны) и, возможно, оказывается выше, чем в первом эксперименте. Хотя, это может быть скрыто из-за низкого уровня точности, отраженном в доверительном интервале, который оказался уже чем во втором эксперименте и шире, чем в третьем.

Предположим, 3 эксперимента включали контрольные группы для различий в IQ. В финале анализа мы могли иметь слишком много мощности в Experiment 1, и объявленный нами "высоко значимый" результат объясняется единственным пунктом IQ. Далее, мы, скорее всего, имеем слишком мало мощности в Experiment 2. Experiment 3 кажется близким к истине.

Основываясь на доверительных интервалах, мы можем сделать много полезных выводов. К сожалению, несмотря на очевидную полезность, доверительные интервалы редко обсуждаются в литературе.

В начало



Причины, по которым интервальные оценки редко публикуются. Несмотря на очевидные преимущества, интервальные оценки довольно редко используют на практике. В тех случаях, когда эти оценки используются, они часто не являются оптимальными, что вызвано следующими причинами:

Традиция. В традиционных подходах критериям значимости уделяется существенно больше внимания, чем интервальному оцениванию.

Прагматизм. В RS подходе интервальные оценки иногда являются смущающим исследователя фактором. Например, если они узки но лежат близко к нулю, то такой результат может быть статистически "высоко значимыми", но тривиальным. Если доверительный интервал широкий, то он выдает неточность исследования.

Отсутствие информации. Многие люди просто не осведомлены о доступных интервальных процедурах оценивания. Например, в большинстве книг по многомерному анализу даже не упоминается о том, что можно вычислить доверительный интервал для квадрата коэффициента множественной корреляции.

Недоступность. Немногие из замечательных процедур интервального оценивания включены в пакеты статистического анализа данных.

В начало



Использование интервальных оценок вместо традиционных критериев проверки гипотез. Модуль STATISTICA Анализ мощности содержит большой набор процедур доверительного оценивания, которыми можно заменить традиционные критерии проверки гипотез, используемых в классических ситуациях. Для подробного знакомства с этими технологиями см Steiger & Fouladi (1997).

Дисперсионный анализ. Эта область, где интервальные оценки редко используются для оценки величины (силы) эффектов.

Представьте, что перед вами статья, в которой сообщается об однофакторном дисперсионном анализе ДА с 4 группами и 60 наблюдениями в каждой группе (N = 60). F значима на уровне .05 (например, "F = 2.70, p=.0464"). Конечно, этот результат статистически значим, но какой смысл он имеет на самом деле? Что он дает нам по существу и что мы может сказать, опираясь на него, собственно о величине эффекта?

Fleischman (1980) рассматривает метод вычисления доверительного интервала для эффекта в дисперсионном анализе. Этот метод позволяет вычислить доверительный интервал для RMSSE, среднеквадратичного эффекта. Стандартизованные эффекты вычисляются в единицах стандартного отклонения, и следовательно остаются теми же при изменении единиц измерения, например, стандартизованный эффект будет одним и тем же для данных, измеренных в килограммах и футах. Для рассмотренных выше данных F статистика, значимая на уровне .05, приводит к 90% доверительному интервалу для RMSSE в диапазоне от .0190 до .3139. Нижняя граница этого интервала определяет заурядный эффект, меньше 1/50 стандартного отклонения. Верхняя граница представляет эффект порядка 1/3 стандартного отклонения, умеренный, но неопределенный. По-видимому, результаты этого исследования не дают реально сильного эффекта, несмотря на то, что они высоко "значимы".

Множественная регрессия. Квадрат коэффициента множественной корреляции (известный также как коэффициент детерминации) часто используется как характеристика силы связи между переменными. После подгонки регрессионного уравнения возникают следующие естественные вопросы: (a) "Насколько эффективно регрессионное уравнение позволяет строить прогноз?" и (b) "Насколько точно эта эффективность оценена?"

Представление коэффициента детерминации и результат проверки гипотезы о равенстве его 0 дает не так много. Более полезен доверительный интервал.

Модуль STATISTICA Анализ мощности вычисляет доверительный интервал для коэффициента детерминации на основе подхода Steiger and Fouladi (1992). Предположим, например, имеется 45 независимых наблюдений пяти переменных и коэффициент детерминации (квадрат коэффициента множественной корреляции) равен .40. В этом случае 95% доверительный интервал для R2 имеет границы .095 и .562! С другой стороны, значение статистики высоко значимо, так как p-уровень равен .0009, а точечная оценка R2равна .327. Очевидно, эпатажным выглядит заявление - "квадрат коэффициента множественной корреляции значим на уровне .001" чем простая констатация, что "95% доверительный интервал R2лежит между .095 и.562." Однако, с нашей точки зрения, последнее утверждение более точно и информативно.

Некоторые авторы, например, Lee (1972), предпочитают "нижнюю доверительную границу" квадрата множественной корреляции. Хотя мы понимаем аргументацию этих авторов, мы должны отвергнуть ее, так как фактически доверительный интервал содержит не только нижнюю границу, но включает также и верхнюю границу, а ширина интервала (разность между двумя границами) является мерой точности оценки.

В начало





Все права на материалы электронного учебника принадлежат компании StatSoft