Электронный учебник Statsoft


Обобщенные линейные модели (GLZ)


Модуль Обобщенные линейные и нелинейные модели (GLZ) является расширением модуля Общие линейные модели. Вы можете анализировать как линейные, так и нелинейные эффекты для любого количества и типа предикторов с дискретной или непрерывной зависимой переменной. Планы могут включать эффекты со многими степенями свободы для категориальных предикторов, эффекты с одной степенью свободы для непрерывных предикторов, а также любые комбинации эффектов для непрерывных и категориальных предикторов. Также для любого типа плана в GLZ можно использовать пошаговые методы и методы поиска наилучшего подмножества. Для построения моделей при оценке и при проверке гипотез об эффектах в модели используется метод максимального правдоподобия (ММП).

Для получения дополнительной информации об обобщенных линейных моделях см. также Dobson (1990), Green and Silverman (1994) или McCullagh and Nelder (1989).


Основные идеи

Модуль Обобщенные линейные и нелинейные модели (GLZ) является расширением общих линейных моделей (см., например, описание модулей Общие линейные модели (GLM), Множественная регрессия и Дисперсионный анализ). В простейшем случае эта модель определяет линейную связь между зависимой переменной Y и множеством предикторов X, так что

Y = b0 + b1X1 + b2X2 + ... + bpXp

В этом уравнении b0 - регрессионный коэффициент (свободный член), а значения bi - регрессионные коэффициенты (для переменных с 1 по p), вычисленные по данным.

Например, вы можете оценить (то есть, предсказать) вес человека как функцию от его роста и пола. При этом можно воспользоваться линейной регрессией, чтобы оценить соответствующие регрессионные коэффициенты на основе выборки со значениями роста и веса группы людей. В большинстве задач оценки линейных связей между переменными являются адекватными при описании наблюдаемых данных и при создании корректных предсказаний для новых данных (см. описание модулей Множественная регрессия или Общие регрессионные модели (GRM)).

Однако, существует много взаимосвязей, которые нельзя адекватно описать в терминах простого линейного уравнения:

Распределение зависимой переменной. Во-первых, исследуемая зависимая переменная может принадлежать дискретному распределению, и поэтому предсказанные значения должны быть распределены согласно такому же распределению, любые другие предсказанные значения недопустимы. Например, исследователь может захотеть предсказать один из трех возможных результатов (например, покупатель выбирает один из трех товаров). В этом случае, зависимая переменная принимает только 3 заданных значения, а распределение этой зависимой переменной является полиномиальным. Или предположим, что вы хотите предсказать количество детей, которое будет в семье, в зависимости от дохода и других социально-эконометрических показателей. Зависимая переменная, количество детей, является дискретной (то есть в семье может быть 1,2,3 ребенка и т.д., но не может быть 2.4 ребенка), а распределение этой переменной - асимметричное (т.к. в большинстве семей 1,2 или 3 ребенка). В этом случае можно предположить, что зависимая переменная принадлежит распределению Пуассона.

Функции связи. Вторая причина, по которой линейная модель (множественная регрессия) может быть неадекватной при описании отдельных связей, заключается в том, что эффекты предикторов для зависимой переменной могут быть нелинейными. Например, зависимость между возрастом человека и различными показателями его здоровья являются нелинейными: средний показатель здоровья людей в 30 лет отличается от среднего показателя здоровья людей в 40 лет незначительно. Однако разница между здоровьем людей в 60 лет и в 70 лет обычно бывает намного больше. Поэтому зависимость между возрастом и значением индикатора здоровья является нелинейной. Наверное, при описании этой зависимости стоит использовать степенной вид функции связи. Другими словами, связь между возрастом и индикатором здоровья является нелинейной (например, степенной, как в рассмотренном случае).

Обобщенные линейные модели можно использовать при предсказании откликов для зависимых переменных из дискретных распределений и для зависимых переменных, которые имеют нелинейные связи с предикторами.

В начало

 


Методы вычислений

Как было сказано в разделе Основные идеи, обобщенные линейные модели отличаются от общих линейных моделей (частным случаем которых является множественная регрессия) по двум причинам: во-первых, распределение зависимой переменной или отклика может не быть нормальным и может быть дискретным (например, биномиальное, полиномиальное или порядковое полиномиальное распределение); во-вторых, значения зависимой переменной могут иметь нелинейную зависимость от линейной комбинации предикторов. Общую линейную модель с одной зависимой переменной можно представить как частный случай обобщенной линейной модели: в общей линейной модели значения зависимой переменной принадлежат нормальному распределению, а функция связи является тождественной функцией (то есть, предсказываемая переменная линейно зависит от предикторов).

В общей линейной модели отклик Y линейной зависит от значений переменных X:

Y = b0 + b1X1 + b2X2 + ... + bkXk + e

(где e - член ошибки, который нельзя вычислить с помощью предикторов. Отметим, что ожидаемое значение e равно 0). В обобщенной линейной модели подобная зависимость имеет вид:

Y = g (b0 + b1X1 + b2X2 + ... + bkXk) + e

где e - ошибка, а g(...) - функция. Формально, обратная функция к g(...) (пусть f(...)) называется функцией связи. Поэтому:

f (muy) = b0 + b1X1 + b2X2 + ... + bkXk

где muy обозначается ожидаемое значение y.

Функции связи и распределения. В зависимости от предполагаемого распределения y, вы можете выбрать различные функции связи (см. McCullagh and Nelder, 1989):

Нормальное распределение, Гамма распределение, Обратное нормальное распределение и распределение Пуассона:

Тождественная связь: f(z) = z

Логарифмическая связь: f(z) = log(z)

Степенная связь: f(z) = za, для заданного a

Биномиальное распределение и Порядковое полиномиальное распределение:

Логит-связь: f(z)=log(z/(1-z))

Пробит-связь: f(z)=invnorm(z) где invnorm - обратная функция стандартной нормальной кумулятивной функции распределения.

Дополнительная лог-лог связь: f(z)=log(-log(1-z))

Лог-лог связь: f(z)=-log(-log(z))

Полиномиальное распределение:

Обобщенная логит-связь: f(z1|z2, ..., zc)=log(x1/(1-z1-...-zc)), где модель имеет c+1 категории.

Оценки параметров в обобщенной линейной модели. Значения параметров (от b0 и до bk, а также параметр масштаба) в обобщенной линейной модели вычисляются с помощью метода максимального правдоподобия (ММП), в котором используется итеративная процедура. Существует множество итеративных методов МП-оценивания в обобщенной линейной модели, среди которых наиболее часто используются методы Ньютона-Рапсона и Фишера (см. Dobson,1990). Метод Фишера (или итеративный взвешенный метод наименьших квадратов) предоставляет универсальный алгоритм для любых обобщенных линейных моделей, а также в процессе вычислений выводит ожидаемую матрицу дисперсий/ковариаций для оценок параметров.

Проверка статистической значимости. Вы можете проверить значимость эффектов в модели с помощью статистики Вальда, отношения правдоподобия или статистики меток. Подробное описание этих критериев находится в McCullagh and Nelder (1989). Статистику Вальда (см., например, Dobson,1990), которая вычисляется как обобщенное внутреннее произведение оценок параметров с соответствующей матрицей дисперсий/ковариаций, можно легко вычислить и эффективно использовать при проверке статистической значимости эффектов. Статистика меток получается из обобщенного внутреннего произведения вектора меток с гессианом (матрица вторых частных производных МП-оценок параметров). При проведении критерия отношения правдоподобия требуются большие вычисления (другая итеративная процедура), и поэтому этот метод работает медленнее, чем два других метода. Однако, критерий отношения правдоподобия является асимптотически эффективным методом. Для получения дополнительной информации о различных критериях см. Agresti(1996), McCullagh and Nelder(1989) и Dobson(1990).

Проверка результатов в обобщенной линейной модели. Существует два основных типа остатков: остатки Пирсона и остатки отклонений. Остатки Пирсона основаны на разнице между наблюдаемыми остатками и предсказанными значениями, а остатки отклонений - на вкладе наблюдаемых откликов в статистику лог-правдоподобия. Кроме этого можно вычислить значения рычагов, стьюдентизированные остатки, обобщенные расстояния Кука и другие наблюдаемые статистики (статистики, основанные на отдельных наблюдениях). Для получения дополнительной информации об этих статистиках см. Hosmer and Lemeshow(1989).

В начало

 


Виды анализа

План анализа может содержать эффекты для непрерывных и категориальных предикторов. В планах могут использоваться многочлены с непрерывными предикторами (то есть, члены второй или третьей степени), а также эффекты взаимодействия (то есть, член произведений) для непрерывных предикторов. Для категориальных предикторов можно подогнать ДА-подобные планы, включая полные факторные планы, гнездовые планы и дробные факторные планы. Планы могут быть неполными (то есть с пропущенными ячейками), а эффекты для категориальных предикторов могут быть представлены с помощью сигма-ограниченной параметризации или сверхпараметризации.

Ниже перечислены разделы, содержащие полное описание типов планов. Эти планы можно анализировать с использованием обобщенной линейной модели или общей линейной модели.

Теория определения сигнала. Ниже представлен список планов, который является не совсем полным, так как в нем не описаны все возможные практические задачи, при решении которых применяется обобщенная линейная модель. Например, обобщенную линейную модель можно использовать при оценке параметров моделей в теории определения сигнала (SDT). SDT - это статистическая теория, которая позволяет определить наличие шума в некотором сигнале. SDT используется в психофизиологических исследования, а также в других областях (например, в медицине, при предсказании погоды, в маркетинге). Например, DeCarlo (1998) показал, как можно применить обобщенную линейную модель с различными функциями связи в задачах определения сигнала.

Межгрупповые планы

Уровни или значения предикторов в анализе описывают различия между n объектами или n анализируемыми допустимыми наблюдениями. Поэтому, когда мы говорим о межгрупповом плане, мы должны указать сами предикторы, их число и порядок.

При рассмотрении типов предикторов межгрупповые планы, содержащие только категориальные предикторы, называются планами дисперсионного анализа (ДА), планы, содержащие только непрерывные предикторы, называются регрессионными планами, в межгрупповые планы, содержащие и категориальные и непрерывные предикторы, называются планами ковариационного анализа. Более того, непрерывные предикторы всегда должны иметь фиксированные значения, а уровни категориальных предикторов могут быть как фиксированными, так и случайными. Планы со случайными категориальными факторами называются смешанными планами (см. описание модуля Компоненты дисперсии и смешанная модель ДА).

Межгрупповые планы могут содержать только один предиктор (простые планы; например, простая регрессия) или несколько предикторов (например, множественная регрессия).

Рассматривая порядок предикторов, некоторые межгрупповые планы могут содержать только "главный эффект" или члены первого порядка для предикторов. Это означает, что значения различных предикторов являются независимыми и используется только первая степень. Другие межгрупповые планы могут содержать члены с более высоким порядком, используя степени большие 1 (например, планы полиномиальной регрессии) или используя произведения различных предикторов (например, члены взаимодействия). Общим планом ДА является полный факторный план, в котором представлена каждая комбинация уровней для каждого категориального предиктора. Планы с некоторыми (но не со всеми) комбинациями уровней для каждого категориального предиктора называются дробными факторными планами. Планы с иерархически упорядоченными уровнями для различных категориальных предикторов называются гнездовыми планами.

Эти основные различия между планами можно использовать при описании различных ситуаций. Некоторые более общие межгрупповые планы описаны ниже.

В начало

 

Однофакторный ДА

План с простым категориальным предиктором называется планом однофакторного ДА. Например, анализ 4 различных типов удобрений на различных заводах можно провести с помощью однофакторного ДА с четырьмя уровнями для фактора Fertilizer.

В общем, рассмотрим один категориальный предикторов A с 1 наблюдением в каждой из 3 категорий 3. Используя сигма-ограниченное кодирование А по 2 переменным, матрица межгруппового плана X будет иметь вид:

Это означает, что наблюдениям в группах A1, A2 и A3 присваивается значение 1 для переменной X0 (свободный член), наблюдению в группе A1 присваивается значений 1 для переменной X1 и значение 0 для переменной X2, наблюдению в группе A2 присваивается значений 0 для переменной X1 и значение 1 для переменной X2, и наблюдению в группе A3 присваивается значение -1 для переменной X1 и значение -1 для переменной X2. Конечно, любые дополнительные наблюдения в любой из 3 групп будут закодированы аналогично. Если в группе A1 будет 1 наблюдений, в группе A2 - 2 наблюдения, и в группе A3 - 1 наблюдение, то матрица плана X будет иметь вид:

где первый нижний индекс A обозначает количество наблюдений в каждой группе. Для краткости, эти индексы обычно не отображаются при работе с матрицами планов ДА.

Отметим, что в однофакторных планах с равным количеством наблюдений в каждой группе сигма-ограниченное кодирование создает X1 ... Xk переменных, причем все из них имеют среднее значение равное 0.

Используя сверхпараметризованную модель для представления A, матрица плана X примет вид:

Эти простые примеры показывают, что матрица X нужна для решения двух задач: (1) для кодирования уровней исходных переменных в матрице X , а также для выявления (2) природы, числа и порядка переменных X, которые составляют межгрупповой план.

В начало

 

Главные эффекты ДА

Планы главных эффектов ДА содержат отдельные однофакторные планы ДА для 2 или более категориальных предикторов. Хорошим примером планов с главными эффектами ДА могут служить отсеивающие планы, описанные в модуле Планирование экспериментов.

Рассмотрим 2 категориальных предиктора A и B, каждый из которых имеет 2 категории. Используя сигма-ограниченное кодирование, матрицу X, определяющую межгрупповой план, можно привести к виду

Отметим, что, если в каждой группе существует равное количество наблюдений, то сумма смешанных произведений столбцов X1 и X2 равна 0 (например, для 1 наблюдения в каждой группе - (1*1)+(1*-1)+(-1*1)+(-1*-1)=0). Используя сверхпараметризованную модель, матрицу X, определяющую межгрупповой план, можно привести к виду

Сравнивая два вида кодирования, можно увидеть, что сверхпараметризованное кодирование требует в два раза больше данных, чем сигма-ограниченное кодирование.

В начало

 

Факторный ДА

Планы факторного ДА содержат переменные X, которые представляют комбинации различных уровней 2 или более категориальных предикторов (например, при изучении мальчиков и девочек по четырем возрастным группам можно получить 2 (Пол) x 4 (Возрастные группы) план). В частности, полные факторные планы представляют все возможные комбинации уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый из которых имеет по 2 уровня, будет являться 2 x 2 полным факторным планом. Используя сигма-ограниченное кодирование, матрицу плана X можно представить как:

Необходимо прокомментировать несколько особенностей матрицы X. Отметим, что столбцы X1 и X2 представляют контрасты основных эффектов для одной переменной (A и B соответственно), разделенной по уровням другой переменной. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Отметим также, что значения X3 являются произведениями соответствующих значений X1 и X2. Такие переменные, как X3 представляют мультипликативные эффекты или эффекты взаимодействия для соответствующих факторов, поэтому можно сказать, что переменная X3 представляет 2-факторное взаимодействие A и B. Зависимость таких переменных с зависимыми переменными показывает интерактивное влияние факторов на отклики. Поэтому факторные планы предоставляют больше информации о зависимости между категориальными предикторами и откликами для зависимых переменных, чем при анализе однофакторных планов или планов с главными эффектами.

Однако при использовании многих факторов для полных факторных планов требуется больше данных, чем можно собрать для представления всех возможных комбинаций уровней этих факторов. Кроме того, взаимодействия высокого порядка между многими факторами достаточно трудно интерпретировать. В этом случае хорошей альтернативой полному факторному плану является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. Этот план может содержать главные эффекты для каждой переменной, все 2-факторные взаимодействия между тремя переменными, но 3-факторные взаимодействия включены в этот план не будут. Используя сверхпараметризованную модель, матрица плана X будет иметь вид

2-факторые взаимодействия являются эффектами с наибольшей степенью, среди всех эффектов плана. Эти типы планов подробно обсуждаются в разделе 2(k-p) Дробные факторные планы в описании модуля Планирование экспериментов.

В начало

 

Гнездовой план ДА

Гнездовые планы похожи на дробные факторные планы, в которых представлены не все возможные комбинации уровней категориальных предикторов. В гнездовых планах пропущенные эффекты являются эффектами низкого порядка. Вложенные эффекты - это эффекты, в которых вложенные переменные никогда не появляются в качестве главных эффектов. Предположим, что для 2 переменных A и B с 3 и 2 уровнями, соответственно, план содержит главный эффект для A и эффект для B, вложенный в эффект A. Матрица плана X для этого плана, при использовании сверхпараметризованной модели имеет вид

Отметим, что если используется сигма-ограниченное кодирование, то в матрице плана X будет только 2 столбца для вложения эффекта B в эффект A вместо 5 столбцов, как в предыдущем случае. Применение сигма-ограниченного кодирования для гнездовых планов сильно ограничено, поэтому для представления таких планов используется только сверхпараметризованная модель.

В начало

 

Простая регрессия

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P, например, 7, 4 и 9, а план включает эффект первого порядка P, то матрица плана X будет иметь вид

а регрессионное уравнение с использованием P для X1 выглядит как

Y = b0 + b1P

Если простой регрессионный план содержит эффект высшего порядка для P, например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

а уравнение примет вид

Y = b0 + b1P2

Сигма-ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X. При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X, а работать только с регрессионным уравнением.

В начало

 

Множественная регрессия

Планы множественной регрессии являются такими же планами для непрерывных предикторов, как и планы главных эффектов ДА для категориальных предикторов. Это означает, что планы множественной регрессии содержат простые регрессионные планы для двух или более непрерывных предикторов. Регрессионной уравнение для плана множественной регрессии с эффектами первого порядка для 3 непрерывных предикторов P, Q и R будет иметь вид

Y = b0 + b1P + b2Q + b3R

В начало

 

Факторная регрессия

Планы факторной регрессии похожи на планы факторного ДА, в которых представлены комбинации уровней различных факторов. Однако в планах факторной регрессии может быть больше комбинаций различных уровней непрерывных предикторов, чем наблюдений в исходном множестве данных. Для упрощения, полные факторные регрессионные планы определяются как планы, в которых присутствуют все возможные произведения непрерывных предикторов. Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет включать главные эффекты (то есть эффекты первого порядка) для P и Q, а также 2-факторное взаимодействие P по Q, которое представлено произведением значений P и Q для каждого наблюдения. В этом случае регрессионное уравнение будет иметь вид:

Y = b0 + b1P + b2Q + b3P*Q

Факторные регрессионные планы могут быть также дробными. Это означает, что эффекты высокого порядка могут быть удалены из плана. Дробный факторный план степени 2 для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты все 2-факторные взаимодействия между предикторами:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

В начало

 

Полиномиальная регрессия

Планы полиномиальной регрессии - это планы, которые содержат главные эффекты и эффекты высшего порядка для непрерывных предикторов, но не содержат взаимодействия эффектов. Например, план полиномиальной регрессии второй степени для трех непрерывных предикторов P, Q и R будет включать главные эффекты (то есть эффекты первого порядка) для P, Q и R и их квадратичные (то есть, второго порядка) эффекты, но этот план не будет содержать 2-факторные эффекты или 3-факторное взаимодействие P по Q по R.

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Планы полиномиальной регрессии не обязательно содержат все эффекты одной и той же степени для каждого предиктора. Например, главные, квадратичные и кубические эффекты могут быть включены в план для одних предикторов, а для других предикторов в план могут быть включены эффекты вплоть до четвертой степени.

В начало

 

Регрессия поверхности отклика

Планы регрессии квадратичной поверхности отклика - это смешанный тип плана со свойствами планов полиномиальной регрессии и дробных факторных регрессионных планов. Планы регрессии квадратичной поверхности отклика содержат все эффекты из планов полиномиальной регрессии вплоть до 2 степени, а также 2-факторные взаимодействия предикторов. Уравнение регрессии для плана регрессии квадратичной поверхности отклика с 3 непрерывными предикторами P, Q и R будет иметь вид

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Эти типы планов имеют широкое применение в прикладных задачах (например, в промышленных задачах), и подробное рассмотрение этих типов планов представлено в описании модуля Планирование экспериментов.

В начало

 

Ковариационный анализ

В общем, планы ковариационного анализа - это межгрупповые планы, которые содержат категориальные и непрерывные предикторы. Однако обычно планами ковариационного анализа называют специальные планы, в которых рассматриваются эффекты первого порядка для одного или нескольких непрерывных предикторов, оценивая при этом эффекты для одного или нескольких категориальных предикторов.

Например, предположим, что аналитик хочет оценить влияние категориального предиктора A с 3 уровнями на итоговый результат. При этом доступны измерения непрерывного предиктора P. Если данные для этого Анализа имеют вид

то сигма-ограниченная матрица X для плана, содержащего отдельные эффекты первого порядка для P и A будет иметь вид

Коэффициенты b2 и b3 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3

обозначают влияние членов групп на категориальный предиктор A в зависимости от влияния значения на непрерывный предиктор P. Аналогично, коэффициент b1 представляет влияние значений на P в зависимости от влияния членов групп на A. Этот стандартный ковариационный анализ является более чувствительным критерием, позволяющим определить уровень влияния A на то, как P уменьшает предсказанную ошибку, которая выражается остатками для итоговой переменной.

Матрица X для этого же плана с использованием сверхпараметризации будет иметь вид

Интерпретация в этом случае не изменяется, за исключением того, что влияние членов групп на категориальные предикторы A в регрессионном уравнении представлено коэффициентами b2, b3 и b4

Y = b0 + b1X1 + b2X2 + b3X3+ b4X4

В начало

 

Неоднородные коэффициенты наклона

Стандартный план ковариационного анализа для категориальных и непрерывных предикторов нельзя использовать, если категориальные и непрерывные предикторы взаимодействуют друг с другом. Соответствующий план для моделирования влияний таких предикторов называется планом с неоднородными коэффициентами наклона. На основе тех же данных, которые использовались в стандартном ковариационном анализе, можно показать, что сверхпараметризованная матрица X для плана, содержащего главный эффект 3-уровнего категориального предиктора A и 2-факторное взаимодействие P по A , будет иметь вид

Коэффициенты b4, b5 и b6 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5+ b6X6

обозначают неоднородные коэффициенты наклона для итоговой регрессии P внутри каждой группы по A.

Также как и для гнездовых планов ДА, применение сигма-ограниченного кодирования эффектов для планов с неоднородными коэффициентами наклона сильно ограничено, поэтому для представления подобных планов может использоваться только сверхпараметризованная модель. В действительности, планы с неоднородными коэффициентами наклона идентичны по форме гнездовым планам ДА, поскольку главные эффекты для непрерывных предикторов не содержатся в планах с неоднородными коэффициентами наклона.

В начало

 

Однородные коэффициенты наклона

Итоговый вид плана для моделирования влияния непрерывных и категориальных предикторов зависит от того, как непрерывные и категориальных предикторы влияют друг на друга. Можно использовать стандартный план ковариационного анализа для непрерывных и категориальных предикторов, если непрерывные и категориальные предикторы не взаимодействуют друг с другом, а план с однородными коэффициентами наклона можно использовать при условии, что такое взаимодействие есть. Планы с однородными коэффициентами наклона можно использовать при проверке влияния непрерывных и категориальных предикторов, а также для выявления того, когда можно использовать стандартный ковариационный план или план с однородными коэффициентами наклона при моделировании эффектов предикторов. Для тех же данных, на основе которых был разобран традиционных ковариационный анализ, сверхпараметризованная матрица X для плана с главным эффектом P, главным эффектов для трехуровневого категориального предиктора A и 2-уровневого взаимодействия P по A будет иметь вид

Если коэффициенты b5, b6 или b7 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6 + b7X7

не равны нулю, то необходимо использовать модель с однородными коэффициентами наклона. Если все три регрессионных коэффициента равны нулю, то нужно использовать стандартный план ковариационного анализа.

Сигма-ограниченная матрица X для однородных коэффициентов наклона будет иметь вид

Если коэффициент b4 или b5 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

не равны нулю, то необходимо использовать модель с однородными коэффициентами наклона. Если оба коэффициента равны нулю, то нужно использовать стандартный план ковариационного анализа.

В начало

 


Построение модели

При исследовании обобщенной линейной модели можно использовать различные методы автоматического построения модели. В модуле GLZ доступны несколько пошаговых методов (пошаговый с включением, пошаговый с исключением, только с включением, только с исключением), а также метод поиска наилучшего подмножества. В пошаговых методах с включением эффектов при выборе новых (значимых) эффектов вычисляются статистики меток. Вы можете использовать статистику Вальда для пошаговых методов с исключением.

Метод поиска наилучшего подмножества основывается на одной из трех статистик: статистика меток, правдоподобие модели и AIC (информационный критерий Акаике, см. Akaike, 1973). Отметим, что поскольку при вычислении статистики меток не требуется проводить итерационные вычисления, то выбор наилучшего подмножества на основе этой статистики происходит наиболее быстро. Однако использование двух других статистик позволяет получить более точные результаты (см. McCullagh and Nelder(1989)).

В начало

 


Интерпретация и проверка результатов

Простая оценка и проверка критериев могут быть недостаточно эффективными для адекватной интерпретации эффектов в анализе. Для эффектов с высоким порядком (например, взаимодействий) проверка наблюдаемых и предсказанных средних может быть очень важна для понимания сущности эффекта. Для выявления роли эффектов в модели можно использовать графики средних (со столбцами ошибок),

Проверка распределения переменных является очень важным этапом при использовании обобщенных линейных моделей. Гистограммы и вероятностные графики переменных, а также диаграммы рассеяния отображают взаимосвязи между наблюдаемыми значениями, предсказанными значениями и остатками (например, остатки Пирсона, остатки отклонений, стьюдентизированные остатки, дифференциальная статистика хи-квадрат, дифференциальные статистики отклонений и обобщенные расстояния Кука), и являются очень полезными средствами при проверке моделей.

В начало



Все права на материалы электронного учебника принадлежат компании StatSoft