Электронный учебник Statsoft


Общие регрессионные модели (GRM)


Модуль Общие регрессионные модели (GRM) включает в себя методы анализа общих линейных моделей и позволяет строить модели планов эффектов с множественными степенями свободы для категориальных предикторов и планы анализа эффектов с одной степенью свободы непрерывных предикторов. В GRM используется пошаговая техника и методы наилучшего подмножества Дисперсионного анализа (ANOVA), регрессии и анализа ковариаций (ANCOVA). Для построения и оценки включенных в модель итоговых эффектов в GRM используется метод наименьших квадратов общих линейных моделей.


Основные идеи: Использование простых моделей

Хорошая теория является результатом процесса сложных и одновременно красивых исследований. Мы начинаем наши исследования с модели, которая включает все возможные, поддающиеся изучению факторов влияющих на цель нашего исследования. Затем, проводим тестирования элементов начальной модели, с целью выявления менее сложных моделей, адекватно описывающих цель исследований. В итоге из упрощенных моделей выделяем наипростейшую модель, которая по принципу "простоты" будет являться "наилучшей" интерпретацией нашей цели исследования.

Выбирая более простую модель, мы руководствуемся не только философскими побуждениями, а скорее практическими. Простые модели намного легче тестировать во время кросс-проверки и повторного использования. С другой стороны, простые модели намного легче использовать в будущем с точки зрения стоимости получения отклика и значений предикторов. Так же не стоит преуменьшать философские основы простых моделей. Простые модели намного легче для понимания и зачастую намного "красивее" более сложных.

Процесс исследования, описанный выше, сосредоточен в технике построения модели пошаговой регрессии или регрессии наилучшего подмножества. Использование данной техники начинается с момента задания плана "общей модели." Затем производится тестирование упрощенных подмоделей, с целью определить адекватность описания. В итоге принимаем одну из простых моделей в качестве "наилучшей."

В начало



Построение модели в GRM

В отличие от модели множественной регрессии, в которой анализируются планы с непрерывными предикторами, планы общих линейных моделей используются при анализе планов Дисперсионного анализа с категориальными предикторами, планов Ковариационного анализа с категориальными и непрерывными предикторами и регрессионных планов с непрерывными предикторами. Эффекты категоризованных предикторов представляются в виде матрицы плана X используя либо перепараметризованную модель, либо сигма-ограниченную модель.

Для построения модели используется сигма-ограниченная параметризация. На основе точного определения, общие линейные модели используются для анализа планов эффектов категориальных предикторов, которые закодированы каким либо методом. В большинстве случаев использования общих линейных моделей, метод параметризации категориальных предикторов, будь то сигма-ограниченный метод или перепараметризованный метод, выбирается произвольным образом. При построение модели, выбор перепараметризованной модели в качестве параметризации является не самым удачным решением; эффекты низких порядков категориальных предикторов вместе с эффектами высокого порядка, содержащих взаимодействия, будут избыточными, что может привести к резкой потери качества оценивания.

При использовании сигма-ограниченной параметризации категориальных предикторов, данная проблема не возникает, поэтому данный вид параметризации используется в модуле GRM.

Планы, которые нельзя представить при помощи сигма-ограниченной параметризации. Сигма-ограниченный тип параметризации используется в большинстве планов, но не во всех. Например, планы, которые нельзя представить при помощи сигма-ограниченной параметризации, основываются на планах гнездовых эффектов, такие как: гнездовой ДА, неоднородные коэффициенты наклона и смешанные модели со случайными эффектами. Все остальные типы планов Дисперсионного анализа, Ковариационного анализа или регрессионного анализа можно представить при помощи сигма-ограниченной параметризации и проанализировать в модуле GRM.

Построение модели планов с несколькими зависимыми переменными. Построение модели при помощи пошаговой и наилучшего подмножества техники является наиболее разработанным методом построения регрессионных планов для одной зависимой переменной (например, смотри Cooley и Lohnes, 1971; Darlington, 1990; Hocking Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). При помощи сигма-ограниченного кодирования и методов общих линейных моделей, данные способы построения моделей можно применять ко всем моделям Дисперсионного анализа с одним категориальным предиктором, моделям Ковариационного анализа и регрессионных планов для непрерывных переменных. Построение планов с несколькими зависимыми переменными требует рассуждений и предположений, которые, как правило, не входят в общие линейные модели. Методы построения и анализа планов с несколькими зависимыми переменными вы найдете в модуле Моделирование структурными уравнениями.

В начало



Виды анализа

При помощи сигма-ограниченного кодирования матрицы плана X можно представить большинство различных видов планов. Все эти планы можно проанализировать при помощи общих линейных моделей. Ниже приведены разделы, в которых описываются данные планы и их различия. Несколько основных типов различий следуют из того, что почти все планы можно представить в виде "гибридов" или комбинаций различных типов основных планов.

Межгрупповые планы

Вводный обзор

Уровни или значения предикторных переменных анализа описывают различия между анализируемыми n объектами или n допустимыми наблюдениями одного объекта. Таким образом, когда мы говорим об анализе межгруппового плана, мы подразумеваем природу, число и порядок предикторных переменных.

Планы, содержащие только категориальные предикторы, называются планами Дисперсионного анализа (ANOVA/MANOVA планы), межгрупповые планы, содержащие только непрерывные предикторы, называются регрессионными планами и межгрупповые планы, содержащие оба типа предикторов, называются ковариационными планами (ANCOVA планы).

Межгрупповые планы, содержащие только один предиктор, называются простыми (например, простые регрессионные планы), планы, содержащие несколько предикторов - составными или множественными планами (например, планы множественной регрессии).

Относительно порядка предикторов: некоторые межгрупповые планы содержат только "главные эффекты" или предикторы первого порядка, что эквивалентно тому что, значения различных предикторов независимы и входят в модель в первой степени. Некоторые межгрупповые планы могут содержать высокого порядка элементы предикторов, путем возведения значений исходных предикторов в степень больше 1 (например, планы полиномиальной регрессии) или включать произведения различных предикторов (т.е., элементы взаимодействия). Стандартным типом планов для Дисперсионного анализа является полный факторный план, в который входят все возможные комбинации уровней каждого категориального предиктора. Планы, не содержащие некоторых комбинаций, называются дробными планами.

Данное описание имеющихся различий в природе, числе и порядке предикторов характеризует все основные типы межгрупповых планов. Ниже приведены более подробные описания основных типов планов.

Простая регрессия

В планах простой регрессии используется только один непрерывный предиктор. Предположим, что у нас есть три наблюдения непрерывного предиктора P: 7, 4, и 9, и есть план анализа для эффекта первого порядка P. Тогда матрица X будет выглядеть следующим образом:

уравнения регрессии с использованием P для X1 будет выглядеть следующим образом:

Y = b0 + b1P

Если план простой регрессии использует эффекты более высокого порядка P, например, квадратичный эффект то, значения столбца X1 матрицы плана будут возведены во 2ую степень:

уравнения регрессии с использованием P2 для X1 будет выглядеть следующим образом:

Y = b0 + b1P2

В регрессионных планах, значения непрерывного предиктора возводятся в необходимую степень и затем используются в качестве X переменных. Как вы видите, при описании регрессионного плана, намного проще использовать регрессионное уравнение в отличие от матрицы плана X.

Множественная регрессия

Планы Множественной регрессии используются для анализа непрерывных предикторов, так же как, планы Дисперсионного анализа главных эффектов предназначены для категориальных предикторов. Множественная регрессия является простой регрессией для 2 или большего числа непрерывных предикторов. Например, уравнение регрессии для эффектов первого порядка 3 непрерывных предикторов P, Q и R будет выглядеть следующим образом

Y = b0 + b1P + b2Q + b3R

Более полная информация о методах множественной регрессии приведена описании модуля Множественная регрессия.

Факторная регрессия

Факторная регрессия является аналогом факторного Дисперсионного анализа, планы регрессии содержат различные комбинации уровней факторов. Однако, в факторной регрессии, возможное число сочетаний уровней непрерывного предиктора может быть намного больше числа наблюдений. Не вдаваясь в подробности, полный факторный регрессионный план определяется как, план в котором представлены все возможные наблюдения непрерывных предикторов. Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет содержать главные эффекты (т.е., эффекты первого порядка) P и Q и эффект их 2-го P на Q взаимодействия, который является произведением значений P и Q, для каждого наблюдения. Уравнение регрессии будет выглядеть следующим образом:

Y = b0 + b1P + b2Q + b3P*Q

Факторный регрессионный план может быть также и дробным, при этом эффекты более высокого порядка можно убрать из плана. Например, дробный факторный регрессионный план 2 степени для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты и все 2-ые взаимодействия предикторов:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Полиномиальная регрессия

Планы полиномиальной регрессии содержат как главные эффекты, так и эффекты более высоких порядков непрерывных переменных, но при этом не включают в себя взаимодействия предикторов. Например, план полиномиальной регрессии 2 порядка для трех непрерывных предикторов P, Q и R будет содержать главные эффекты (т.е., эффекты первого порядка) переменных P, Q, R и их квадратические (т.е., второго порядка) эффекты но, при этом в план не будут включены 2-ые взаимодействия и эффект тройного взаимодействия P на Q на R.

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Максимальная степень эффектов полиномиальной регрессии может быть разной для разных предикторов. Например, для одного предиктора заданы все эффекты до третьего порядка, а для другого - до четвертого порядка.

Регрессия поверхности отклика

План регрессии поверхности отклика второго порядка является гибридом плана полиномиальной регрессии и плана дробной факторной регрессии. План квадратичной регрессии поверхности отклика содержит эффекты 2-го порядка полиномиальной регрессии и эффекты взаимодействия 2-го порядка предикторов. Например, регрессионное уравнение поверхности отклика второго порядка для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Данные типы планов используются в прикладных исследованиях (например, в промышленном планировании и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Центральные композиционные планы).

Регрессия поверхности смеси

Регрессии поверхности смеси является аналогом факториальной регрессии 2-го порядка без свободного члена. Смеси, как отображено в название, соответствую некоторой константе; сумма пропорций ингредиентов должна составлять 100%. Таким образом, пропорция одного из ингредиентов соответствует остатку от остальных ингредиентов, т.е. число степеней свободы пропорций ингредиентов меньше числа ингредиентов на 1. Понижение размерности модели поверхности смеси обходят путем опущения свободного члена в плане регрессии. Матрица плана для поверхности смеси для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:

Y = b1P + b2P2 + b3Q + b4P*Q + b5P*R + b6Q*R

Данные типы планов используются в прикладных исследованиях (например, в промышленном планирование и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Планы для смесей).

Однофакторный Дисперсионный анализ

Планами однофакторного Дисперсионного анализа называют планы с одним категориальным предиктором. Например, изучение эффектов воздействия 4 различных удобрений на различные виды растений, можно проанализировать при помощи однофакторного ДА, с четырьмя уровнями фактора Удобрение.

Рассмотри категориальный предиктор A, содержащего по 1 наблюдению в каждой из 3 его категорий. Используя сигма-ограниченный способ кодирования A на 2 контрастных переменных, получим матрицу X, задающую матрицу плана:

То есть, наблюдения в группах A1, A2 и A3 соответствуют 1 в столбце X0 (свободный член), наблюдения в группе A1 соответствуют 1 в X1 и значению 0 в X2, наблюдения в группе A2 соответствуют 0 в X1 и 1 в X2 и наблюдения в группе A3 соответствуют -1 в X1 и -1 в X2. Каждое дополнительное наблюдение будет закодировано аналогичным образом. Например, если было бы 1 наблюдение в группе A1, 2 наблюдения в группе A2 и 1 наблюдение в группе A3 то, матрица X выглядела бы так:

где первый индекс A соответствует номеру повторного эксперимента в каждой группе. Для краткости описания, повторные измерения обычно не отображаются при описании матрицы плана Дисперсионного анализа.

Заметьте, что в однофакторных планах, с одинаковым числом наблюдений в каждой группе, сигма-ограниченное кодирование выделяет переменные X1 ... Xk со средним равным 0.

Данный простой пример показывает, что использование X матрицы преследует две основных цели. Задание (1) кодирования для каждого уровня предиктора при помощи переменных X, используемых в анализе и (2) отображение природы, числа и порядка расположения переменных X, которые характеризуют межгрупповой план.

Дисперсионный анализ главных эффектов

Дисперсионный анализ главных эффектов предназначен для анализа планов с 2 или большим числом категориальных предикторов. Пример анализа главных эффектов основывается на типичном анализе отсеивающих планов, описанном в контексте модуля Планирование эксперимента.

Рассмотрим 2 категориальных предиктора A и B с 2 категориями, каждый. Использование сигма-ограниченное кодирование X матрицы, задает межгрупповой план:

Заметьте, если в каждой группе содержится одинаковое число наблюдений то, сумма построчных произведений столбцов X1 на X2 равна 0, например, с 1 наблюдением в каждой группе (1*1)+(1*-1)+(-1*1)+(-1*-1) = 0.

Факторный Дисперсионный анализ

Планы факторного Дисперсионного анализа содержат переменные, содержащиеся в X матрице, характеризующие комбинации уровней 2 или более категориальных предикторов (например, изучение мальчиков и девочек в четырех возрастных группах является 2 (Пол) x 4 (Группа) планом). В частности, полный факторный план представляет собой набор всех возможных комбинаций уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый с 2 уровнями, называется 2 x 2 полным факторным планом. Используя сигма-ограниченного кодирование, матрица X будет выглядеть так:

Следует прокомментировать некоторые особенности матрицы X. Заметьте что, столбцы X1 и X2 представляют собой главные эффекты (т.е., A и B, соответственно) свертывая по уровням других переменных. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Значения X3 являются результатом произведения значений X1 и X2. Переменная X3 представляет собой взаимодействие эффектов мультипликаторов, в таком случае X3 называют 2-ым взаимодействием A и B. Взаимодействия такого рода произведения переменных и зависимой переменной отображает интерактивное воздействие факторов на отклик до и после их независимого влияния (т.е., главные эффекты) на отклик. Таким образом, факторные планы предоставляют больше информации о взаимодействиях между категориальными предикторами и их откликом на зависимую переменную, чем однофакторные планы или планы главных эффектов.

При изучении влияния большого числа факторов, зачастую, полный факторный план требует очень большого числа наблюдений, чем реально можно получить для анализа, для представления всех возможных комбинаций уровней факторов и взаимодействий между всеми факторами. При большом числе факторов, наиболее приемлемой альтернативой является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. План будет содержать главные эффекты всех переменных и все 2-ые взаимодействия, но не будут включать 3-ые взаимодействия между всеми тремя переменными. Более детальное рассмотрение данных планов приводится в разделе 2(k-p) Дробные факторные планы главы Вводный обзор модуля Планирование эксперимента.

Ковариационный анализ (ANCOVA)

Межгрупповые планы, содержащие категориальные и непрерывные предикторы, называют ANCOVA планами. Традиционно, ANCOVA планы используются при анализе, в котором при оценке эффектов категориальных предикторов учитываются эффекты первого порядка одного или нескольких непрерывных предикторов. Основные элементы ковариационного анализа, вы сможете найти в главе Ковариационный анализ (ANCOVA) в описании модуля Дисперсионный анализ.

Проиллюстрируем выше сказанное, предположим что, исследователь хочет оценить влияние категориального предиктора A с 3 уровнями на некоторый выход, кроме того, известно, что непрерывный предиктор P коррелируют с выходом. Пусть файл данных представлен следующим образом:

Тогда, матрица плана сигма-ограниченной модели X, содержащего раздельные эффекты первого порядка P и A, будет выглядеть следующим образом:

Коэффициенты b2 и b3 уравнения регрессии

Y = b0 + b1X1 + b2X2 + b3X3

представляют собой влияние, оказываемое элементами группы на категориальный предиктор A, контролирующий влияние значений на непрерывный предиктор P. Аналогичным образом, коэффициент b1 представляет собой влияние значений P на элементы группы A. Данный стандартный пример Ковариационного анализа представляет собой более качественную проверку воздействия A по мере того, как P уменьшает ошибку предсказания, характеризуемую остатками выхода.

Однородность угловых коэффициентов

Данный тип планов используется при анализе влияния непрерывных и категориальных предикторов и их взаимодействий на отклик. Традиционный ковариационный анализ (ANCOVA) для непрерывных и категориальных предикторов используется при отсутствии значимого влияния их взаимодействия на отклик. Для данного типа планов, используем тот же пример что, и для стандартного плана ANCOVA, сигма-ограниченная X матрица для однородных углов наклона будет выглядеть так:

Использование данной матрицы плана X, в случае когда, регрессионные коэффициенты b4 и b5

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

равны нулю, эквивалентно использованию плана Ковариационного анализа ANCOVA.

В начало



Многомерные планы

План называется многомерным, если в нем присутствует несколько зависимых переменных. Показатели многомерной взаимосвязи, по своей природе, являются намного более сложными структурами, чем одномерные аналоги (например, корреляционные коэффициенты). Это связано с тем что, многомерные показатели должны учитывать не только воздействия предикторов на отклики но, и взаимосвязи среди зависимых переменных. Используя данный подход, получаем что, показатели взаимосвязи должны отражать информацию о силе взаимосвязи между предикторами и зависимыми переменными независимо от взаимосвязи между зависимыми переменными. Обзорную информацию о многомерных планах вы сможете найти в разделе Многомерные планы в описании модуля Дисперсионный анализ.

Наиболее часто используемые показатели меры многомерной зависимости можно представить при помощи функций от собственных значений матрицы произведения E-1H, где E - матрица ошибок SSCP (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые не были учтены в межгрупповом плане), H - SSCP матрица гипотезы (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые были учтены в межгрупповом плане или тоже самое для конкретного эффекта). Если

li = упорядоченные собственные значения матрицы E-1H, и E-1 существует

тогда, наиболее часто используемыми показателями являются:

Лямбда Уилкса = Х1/(1 + li)

След Пиллая = S li / (1 + li)

След Хотеллинга - Лоули = S li

Максимальный корень Роя = li

Данные 4 показателя обладают различными верхними и нижними границами и степенью интерпретации. Например, легче всего интерпретируется Лямбда Уилкса, для которого значения изменяются от 0 и до 1, 1 характеризует отсутствие зависимости, а 0 наличие сильной взаимосвязи между предикторами и откликом. Показатель равный 1 - Лямбда Уилкса иногда интерпретируется как многомерный аналог одномерного показателя R-квадрат, т.е., отражает отношение обобщенной дисперсии зависимых переменных вычисленной на основе предикторов.

Данные 4 показателя используются при построении многомерных критериев значимости, описание которых вы сможете найти в большом количестве различных источников (например, Finn, 1974; Tatsuoka, 1971).

В начало



Построение общей модели

Ниже приведены разделы, в которых описывается построение и тестирование гипотез "общей модели" в модуле GRM, например, каким образом разбиты квадраты и насколько хорошо подогнана общая модель.

Разбиение суммы квадратов

В основе метода наименьших квадратов лежит принцип разделения дисперсии зависимой переменной. Предположим, что зависимая переменная является откликом одного или нескольких предикторов и для удобства будем считать что, среднее зависимой переменной равно 0. Последнее предположения является вполне естественным, так как мы всегда можем вычесть из зависимой переменной ее среднее и затем оценивать уже усредненную переменную. В таком случае, сумма квадратов усредненной зависимой переменной идентична сумме квадратов предсказанных значений плюс сумма квадратов остатков. Более формально:

где в левой части стоит сумма квадратов отклонений от среднего наблюдаемых значений зависимой переменной, и соответствующие элементы в правой части (1) сумма квадратов отклонений предсказанных значений зависимой переменной и (2) сумма квадратов отклонений наблюдаемых значений от предсказанных значений зависимой переменной, что эквивалентно сумме квадратов остатков. Формально:

Общая SS = SS Модели + SS Ошибки

Заметьте, что Общая SS является всегда одним и тем же числом для выбранных данных, но при этом SS Модели и SS Ошибки зависят от уравнении регрессии. Полагая, что зависимая переменная имеет среднее 0, получим что, SS Модели и SS Ошибки можно вычислить следующим образом

SS Модели = b'X'Y

SS Ошибки = Y'Y - b'X'Y

Тестирование Общей модели

Обладая компонентами SS Модели и SS Ошибки, вы можете проверить гипотезу о том что, все регрессионные коэффициенты X переменных (с b1 по bk, кроме коэффициента b0 - свободного члена) равны нулю. Данный критерий эквивалентен проверке качества подгонки поверхности регрессии (определяемой уравнением регрессии модели). Предположим, что X' X является полно-ранговой (не вырожденной) матрицей, тогда гипотеза средних квадратов модели:

MSH = (SS Модели)/k,

где k - число столбцов матрицы X (не включая столбец свободного члена), является оценкой дисперсии предсказанных значений. Усредненный квадрат ошибки:

s2 = MSE = (SS Ошибки) / (n - k - 1),

где n - число наблюдений, оценка дисперсии ошибки или остатков. Проверочная статистика:

F = MSH / MSE,

где F имеет (k, n - k - 1) степеней свободы.

Если X' X не является полно ранговой, то r + 1 заменяется на k, где r - ранг или число линейно-независимых столбцов X' X.

Если критерий модели не значим, то проводить дальнейший анализ не имеет смысла, т.е. модель подгоняет данные не лучше, чем модель, содержащая только среднее значение зависимой переменной. Дальнейший поиск адекватной подмодели является бессмысленным, так как общая модель является неадекватной.

Некоторые модели без свободного члена, например, некоторые модели множественной регрессии вычисляют критерии проверки на основе отношения дисперсии без учета средних значений; для получения более полной информации (смотри Kvеlseth, 1985; OKunade, Chang, and Evans, 1993).

Ограничения Общей модели

Для планов, таких как Однофакторный ДА или простой регрессии, проверка общей гипотезы о взаимосвязи предикторов и отклика вложена в саму модель. Для сложных планов, поиск статистически значимых критериев проверки подгонки общей модели является первым шагом анализа; иногда приходится определять более простую подмодель адекватной подгонки данных (смотри Основные идеи: Использование простых моделей). К данному случаю, методы поиска наилучших подмоделей, относятся модели такие как: пошаговый и регрессии наилучших подмножеств.

В начало



Построение модели при помощи пошаговой регрессии

Описание пошаговой системы построения регрессионных планов с единственной зависимой переменной приводится в большом количестве статей и различного рода литературе (например, смотри Darlington, 1990; Hocking, 1966, Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). Основные процедуры включают: (1) определение и инициализация модели, (2) итеративный "пошаговый," то есть, повторяющееся преобразование модели путем добавления или вычитание предиктора, исходя из результатов применения "пошагового критерия" и (3) остановка алгоритма после отсутствия возможных следующих итераций или достижения максимального числа шагов.

Начальная модель пошаговой регрессии

Начальной моделью является модель созданная на Шаге 0. Начальная модель всегда включает регрессионный свободный член (если не указано Без свободного члена). Для методов пошаговый с исключением и только с исключением, начальные модели так же включают в себя все эффекты плана анализа. Начальная модель для данных методов является также и общей моделью.

Для методов пошаговый с включением и только с включением, начальная модель всегда содержит свободный член регрессии (если не указано Без свободного члена). Так же начальная модель содержит 1 или более вовлеченных эффектов модели. Если выбрано j вовлеченных эффектов в модель, то первые j эффектов выбранных из общего числа эффектов для включения будут вовлечены в модель на Шаге 0 (более полную информацию вы найдете в описание опции Количество эффектов). Заметьте, что вовлеченные эффекты нельзя удалить на последующих Шагах.

Метод только с включением

Метод с только с включением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика включения. Если начиная с некоторого шага все статистики включения не превышают заданный критический уровень включения, то процесс останавливается, в противном случае, эффект с наибольшей статистикой включается в модель. При достижении максимального числа шагов, процедура включения также останавливается.

Метод только с исключением

Метод с только с исключением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика исключения. Если начиная с некоторого шага все статистики исключения превышают заданный критический уровень исключения, то процесс останавливается, в противном случае, эффект с наименьшей статистикой исключается из модели. При достижении максимального числа шагов, процедура исключения также останавливается.

Метод с пошаговым включением

Пошаговый метод с включением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с включением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.

Метод с пошаговым исключением

Пошаговый метод с исключением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с исключением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.

Критерий включения и исключения

Критические значения F и p задаются для контроля включения и исключения эффектов модели. Для выбранного значения p, реальным значением характеризующим включение и исключение является 1 минусp. Критическое значение для включения в модель должно превышать критическое значение для исключения из модели.

Так же можно указать максимальное число шагов. Остановка пошагового алгоритма происходит при достижении максимального числа шагов, если не произошла ранее по каким-либо причинам.

Построение модели при помощи нахождения Лучшего подмножества

Для поиска "наилучшей модели", которая наилучшим образом описывает реальные данные, используются все возможные комбинации предикторов (подмножества) как альтернатива или как элемент взаимодействия с пошаговым методом.

В работе Neter, Wasserman и Kutner (1985) приведено описание использования метода регрессии наилучшего подмножества во взаимодействии с методом пошаговой регрессии: "Алгоритм метода пошаговой регрессии основывается на том, что существует только одно "наилучшее" подмножество переменных X. Данное предположение является ограничением возможностей алгоритма, как замечено ранее, часто бывает так, что нельзя найти единственное "наилучшее" подмножество. Однако некоторые статистики советуют перебрать поочередно все возможные подмножества, с числом переменных X полученных в пошаговой регрессии, для поиска лучшего подмножества." (p. 435). Фактически получаем, что после нахождения решения пошаговой регрессии, "наилучшее" среди всех возможных подмножеств с тем же числом эффектов необходимо проверить является ли данное подмножество "наилучшим." Если это не так, решение пошагового алгоритма стоит отклонить.

Заметьте, что для определения "наилучшего" подмножества можно использовать несколько критериев. Наиболее часто используемыми критериями являются: множественное R-квадрат, скорректированное R-квадрат и Cp Маллоу. При использовании регрессии наилучшего подмножества вместе с пошаговым методом, статистика R-квадрат позволяет упорядочить по качеству подгонки полученные подмножества каждого метода.

Число допустимых подмоделей возрастает очень резко с ростом числа эффектов в общей модели. Объем вычислений требуемых для проведения регрессии наилучшего подмножества так же возрастает с числом допустимых подмножеств, кроме этого увеличение числа уровней категориальных предикторов вызывает быстрый рост числа операций. Например, существует более 2.7 миллионов различных способов задания 12 предикторов из 24 предикторов общей модели, т.е. необходимо обработать 2.7 миллионов моделей для оценки наилучшего подмножества из 12 предикторов.

В начало



Все права на материалы электронного учебника принадлежат компании StatSoft