Электронный учебник Statsoft


Общие линейные модели



Основные идеи: Общая линейная модель

В следующих разделах рассматриваются исторические, математические и вычислительные аспекты общей линейной модели. Для начального знакомства с методами дисперсионного анализа обратитесь к разделу Методы дисперсионного анализа в описании модуля Дисперсионный анализ. Для знакомства с множественной регрессией см. раздел Общее назначение в описании модуля Множественная регрессия. Для рассмотрения планов анализа экспериментов в задачах промышленности см. раздел Обзор в разделе Планирование эксперимента.

Начало развития теории общей линейной модели было положено еще при зарождении самой математики, однако появление теории алгебраических инвариантов в 1800 годах позволило создать общую линейную модель в том виде, в котором мы знакомы с ней сегодня. Теория алгебраических инвариантов была разработана в 19-ом веке такими математиками, как Гаусс, Буль, Коли и Сильвестр. В основе этой теории лежат такие показатели системы уравнений, которые не изменяются при линейных преобразованиях переменных этой системы. Говоря более общим языком, теория алгебраических инвариантов изучает постоянные величины в общем хаотичном мире.

История развития

Самым удивительным может показаться то, что развитие теории алгебраических инвариантов было более успешным, чем могли предположить ее разработчики. Собственные значение, собственные вектора, определители, методы декомпозиции матриц - все это является результатом применения теории алгебраических инвариантов. Вклад этой теории в развитие статистических методов очень велик, однако рассмотрим всем известный простой пример. Корреляция между двумя переменными не изменяется при линейных преобразованиях одной или обеих переменных. Мы, вероятно, можем не сразу оценить это преимущество, однако, что было бы, если коэффициент корреляции изменялся при масштабировании переменных? Таким образом, мы приходим к выводу, что развитие статистических методов было бы невозможным без использования теории алгебраических инвариантов.

Развитие линейной регрессионной модели в конце 19 века и последующее развитие корреляционных методов является прямым следствием теории алгебраических инвариантов. Регрессионные и корреляционные методы являются основой для общей линейной модели. Общую линейную модель можно рассматривать как расширение линейной множественной регрессии для простой зависимой переменной. Понимание множественной регрессионной модели является фундаментом при изучении общей линейной модели, поэтому мы рекомендуем обратиться к описанию множественной регрессионной модели, алгоритмам, используемым при решении регрессионных задач, а также к описанию того, как регрессионная модель расширяется на случай общей линейной модели.

Задача множественной регрессии

Общую линейную модель можно рассматривать как расширение линейной множественной регрессии для случая одной зависимой переменной, и понятие множественной регрессионной модели является фундаментом к пониманию общей линейной модели. Главная задача множественной регрессии (этот термин был впервые использован Пирсоном в 1908) заключается в определении взаимосвязи между несколькими независимыми переменными (предикторами) и зависимой переменной. Например, риэлтор может собрать данные о размере дома, числе комнат, среднем доходе и рейтинге местоположения жилья. На основе этой информации можно попытаться определить, как связана цена дома с другими факторами. Например, может выясниться, что количество комнат является наилучшим предиктором цены. Также могут обнаружиться некоторые "выбросы" - например, дома которые продаются слишком дорого.

Например, менеджеры по кадрам могут использовать методы множественной регрессии для определения размеров выплат сотрудникам. Можно определить несколько факторов (измерений), таких как "величина ответственности" (Resp) или " число подчиненных" (No. Super). После этого аналитик обычно изучает размеры зарплат в других компаниях, а также соответствующие характеристики для различных позиций. Эта информация может использоваться в анализе множественной регрессии для построения регрессионного уравнения в виде:

Salary = .5*Resp + .8*No. Super

После того, как регрессионное уравнение определено, аналитик может легко построить график ожидаемых (предсказанных) и реальных зарплат. С помощью этого графика можно выявить тех сотрудников, которые получают недостаточное количество денег, или, наоборот, которые получают избыточный оклад.

Методы множественной регрессии широко используются, например, в социологии. Множественная регрессия позволяет аналитику получить ответы на вопросы, типа "какой наилучший предиктор для ...". Например, работники образования могут выявить наилучшие предикторы успешного поступления в высшую школу, а психологи могут изучать характеристики человека.

Вычислительные методы решения уравнения множественной регрессии

Одномерная поверхность в двумерном пространстве - это прямая, определяемая уравнением Y=b0+b1X. Согласно этому выражение, переменная Y может быть представлена как функция константы (b0) и коэффициента наклона (b1), умноженного на значение переменной X. Константу иногда называют свободным членом, коэффициент наклона - коэффициентом регрессии. Например, индекс GPA можно оценить как 1+.02*IQ. Поэтому, зная, что студент имеет коэффициент IQ равный 130, можно ожидать, что его коэффициент GPA будет равен 3.6 (поскольку, 1+.02*130=3.6). В случае множественной регрессии (когда используется несколько предикторов) регрессионную поверхность нельзя отобразить в двумерном пространстве, но вычисления практически не изменяются. Например, если кроме коэффициента IQ мы будем использовать дополнительные предикторы (например, уровень мотивации, уровень самодисциплины), то сможем построить линейное уравнение, содержащее все эти переменные. В общем случае, процедура множественной регрессии оценивает линейное уравнение в виде:

Y = b0 + b1X1 + b2X2 + ... + bkXk

где k - число предикторов. Отметим, что в этом уравнении регрессионные коэффициенты ( b1 ... bk) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной. Иначе, можно сказать, что переменная X1 коррелирована с переменной Y при условии, что все другие независимые переменные фиксированы. Этот тип корреляции называется частная корреляция (этот термин впервые был введен в Yule, 1907). Возможно, следующий пример разъяснит это понятие. Было выявлено, что существует значимая отрицательная корреляция между длиной волос и ростом человека (то есть более низкие люди имеют более длинные волосы). На первый взгляд, данный факт может показаться странным, однако, если в уравнение множественной регрессии мы введем переменную Пол, то эта корреляция исчезнет. Очевидно, что женщины (в среднем) имеют более длинные волосы, чем мужчины, и они (в среднем) ниже мужчин. После того, как мы исключим скрытое влияние пола, зависимость между длиной волос и ростом человека исчезнет, поскольку длина волос не имеет уникального вклада в предсказание роста человека. С другой стороны, изменяя значение переменной Пол, мы получим, что частная корреляция между длиной волос и ростом человека будет равна нулю.

Регрессионная поверхность (линия - в случае простой регрессии, плоскость или другая поверхность - в случае множественной регрессии) выражает наилучшее предсказанное значение зависимой переменной (Y) для заданных значений независимых переменных (X). Однако, в действительности редко можно предсказать что-то с абсолютной точностью, и обычно существует необъясненные отклонения наблюдаемых точек от подогнанной регрессионной поверхности. Отклонение отдельной точки от ближайшей соответствующей точки на предсказанной регрессионной поверхности называется остаточным значением (или, просто, остатком). Поскольку задача линейных регрессионных процедур заключается в подгонке поверхности, которая является линейной функцией от переменных X, в соответствии с наблюдаемой переменной Y, остаточные значения наблюдаемых точек можно использовать при разработке критерия "наилучшей подгонки". В задачах регрессии поверхность вычисляется так, чтобы минимизировать сумму квадратов отклонений наблюдаемых точек от поверхности. Поэтому общая процедура иногда называется оценивание по методу наименьших квадратов. См. также описание оценивания по методу взвешенных наименьших квадратов.

Реальные вычисления при решении регрессионных задач можно легко выразить в терминах операций с матрицами. Предположим, что существует n наблюдаемых значений Y и n соответствующих значений для каждой из k различных переменных X. Пусть Yi, Xik и ei представляют iое наблюдаемое значение переменной Y, iые наблюдаемые значения переменных X, и iое неизвестное остаточное значение, соответственно. Используя эти выражения, получаем, что

T Модель множественной регрессии в терминах матриц можно представить как

Y = Xb + e

где b - вектор-столбец с 1 (для свободного члена) + k неизвестных регрессионных коэффициентов. Вспомним, что задача множественной регрессии заключается в минимизации суммы квадратов остатков. Регрессионные коэффициенты, удовлетворяющие этому критерию, можно найти, решив несколько нормальных уравнений

X'Xb = X' Y

Если переменные X являются независимыми (то есть они являются неизбыточными, и матрица X'X имеет полный ранг), то существует единственное решение нормальных уравнений. Умножение обоих сторон матричной формулы на обратную матрицу к X'X дает

(X'X)-1X'Xb = (X'X)-1X' Y

или

b = (X'X)-1X' Y

Этот последний результат является одновременно простым и общим. Благодаря его простоте, можно выразить решение регрессионного уравнения в терминах только 2 матриц (X и Y) и 3 основных матричных операций: (1) транспонирование матрицы, (2) умножение матриц и (3) обращение матрицы A:

A-1AA = A

Математикам и статистикам потребовалось много времени, чтобы найти подходящий метод решения задачи регрессии.

Относительно общности модели множественной регрессии можно отметить только несколько ограничений: (1) эту модель можно использовать только для анализа одной зависимой переменной, (2) невозможно предложить метод нахождения регрессионных коэффициентов, если переменные X являются линейно зависимыми (поскольку в противном случае обратная матрица X'X не существует). Тем не менее, эти ограничения можно преодолеть, построив на основе модели множественной регрессии общую линейную модель.

Расширение множественной регрессии до общей линейной модели

Одна из причин, по которой общая линейная модель отличается от модели множественной регрессии заключается в разнице числа зависимых переменных, которые можно одновременно анализировать. Вектор Y из n наблюдений для одной простой переменной Y можно заменить на матрицу Y, состоящую из n наблюдений для m различных переменных Y. Аналогично, вектор регрессионных коэффициентов b для одной переменной Y можно заменить на матрицу регрессионных коэффициентов b, содержащую по одному вектору коэффициентов b для каждой из m зависимых переменных. Подобные замены приводят к модели многомерной регрессии. Необходимо подчеркнуть, что матричные формы моделей множественной и многомерной регрессии идентичны, за исключением разного количества столбцов в матрицах Y и b. Методы нахождения коэффициентов b также идентичны, для каждой из m различных зависимых переменных независимо определяются множества регрессионных коэффициентов m.

Общая линейная модель является следующим шагов по отношению к многомерной регрессионной модели. В общей линейной модели допускается использование линейных преобразований или линейных комбинаций нескольких зависимых переменных. Это расширение придает общей линейной модели важные преимущества по сравнению с регрессионными моделями. Одно из преимуществ заключается в том, что многомерные критерии значимости можно использовать, если отклики по нескольким зависимым переменным коррелированы. Отдельные одномерные критерии значимости для коррелированных зависимых переменных не являются независимыми и могут не соответствовать текущему случаю. Многомерные критерии значимости независимых линейных комбинаций нескольких зависимых переменных также способствуют анализу количества размерностей переменных отклика. Другое преимущество заключается в возможности анализа эффектов факторов с повторными измерениями. Планы с повторными измерениями, или внутригрупповые планы, обычно анализируются с использованием методов ДА. В терминах общей линейной модели можно построить и протестировать значимость линейных комбинаций откликов, отражающих эффект с повторными измерениями, используя одномерный или многомерный подход к анализу повторных измерений.

Вторая важная причина, по которая общая линейная модель сильно отличаются от модели множественной регрессии, заключается в возможности решения нормальных уравнений при условии, что переменные X не являются линейно независимыми, и обратная матрица для X'X не существует. Избыточность переменных X может быть второстепенной (например, два предиктора могут коррелировать между собой на маленьком множестве данных), случайной (например, в анализе могут присутствовать две копии одной и той же переменной) или спланированной (например, в анализе могут использоваться индикаторы с точно противоположными значениями). Нахождение регулярной обратной матрицы для матрицы с неполным рангом аналогично нахождению обратного значения для 0. Естественно, подобного значения не существует, т.к. делить на 0 нельзя. Эта задача решается в общей линейной модели с помощью обобщенной обратной матрицы X'X при решении нормальных уравнений. Обобщенная обратная матрица - это матрица A, которая удовлетворяет равенству

AA`A = A.

Для выбранной матрицы A существует единственная обратная матрица, которая совпадает со стандартной обратной матрицей, только если матрица A имеет полный ранг. Обобщенную обратную матрицу можно вычислить с помощью простого обнуления элементов в избыточных строках и столбцах матрицы. Предположим, что матрица X'X с r неизбыточными столбцами имеет вид

где A11 - матрица размером r*r с рангом r. Таким образом существует стандартная обратная матрица для A11, и обобщенная обратная матрица для X'X имеет вид

где каждая 0 (нулевая) матрицы состоит из одних 0 (нулей) и имеет ту же размерность, что и соответствующая матрица A.

На практике частная обобщенная обратная матрица X'X вычисляется с использованием оператора выметания (Dempster, 1960). Обратная обобщенная матрица, называемая g2 обратная, имеет важно свойство, которое заключается в разделении или переупорядочивании столбцов матрицы X'X так, чтобы матрица была обращена "на месте".

Существует бесконечно много обобщенных обратных матриц для матрицы X'X с неполным рангом. Поэтому существует бесконечно много решений нормальных уравнений. Это может усложнить понимание природы взаимосвязей между предикторами и зависимыми переменными, поскольку регрессионные коэффициенты могут изменять в зависимости от конкретной обобщенной матрицы. Однако, это не должно смущать вас, так как многие результаты, полученные в рамках общей линейной модели, обладают свойством инвариантности.

Рассмотрим простой пример, иллюстрирующий одно из важных свойств инвариантности при использовании обобщенных обратных матриц в общей линейной модели. Если оба предиктора Мужчина и Женщина с противоположными значениями используются в анализе для представления Пола, легко понять, какой предиктор является избыточным (например, Мужчина, или, наоборот, Женщина). Не имеет значения, какой предиктор будет обозначен как избыточный, не имеет значения, какая соответствующая обобщенная обратная матрица используется при решении нормальных уравнений, и не имеет значения, какое итоговое регрессионное уравнение будет использоваться для вычисления предсказанных значения для зависимых переменных - предсказанные значения и соответствующие остатки для мужчин и женщин не изменятся.

Сигма-ограниченная и сверхпараметризованная модель

По сравнению с моделью Множественной регрессии, которая обычно используется в тех случаях, когда переменные X являются непрерывными, общая линейная модель часто применяется при анализе любых планов Дисперсионного анализа с категориальными предикторами, или любых планов ковариационного анализа с категориальными и непрерывными предикторами, а также в многомерных регрессионных планах с непрерывными предикторами. Например, пусть переменная Пол является переменной с двумя уровнями. Существует два основных метода, согласно которым переменная Пол может быть перекодировано в один или несколько предикторов для анализа с использованием общей линейной модели.

Сигма-ограниченная модель (кодирование категориальных предикторов). Используя первый метод, мужчинам и женщинам можно присвоить любые два различающихся значения одного простого предиктора. Значения этого результирующего предиктора будут представлять количественные различия между мужчинами и женщинами. Значения, обозначающие членство в одной из двух групп выбираются не случайно, а с учетом облегчения последующей интерпретации регрессионного коэффициента, соответствующего этому предиктору. Согласно одному из широко используемых способов кодирования, наблюдениям в двух группах присваиваются значения 1 или -1, поэтому, если регрессионный коэффициент для этой переменной является положительным, то группа, закодированная с помощью значения 1, будет иметь большое предсказанное значение (то есть большое групповое среднее) для зависимой переменной, а если получен отрицательный регрессионный коэффициент, то группа, закодированная значением -1, будет иметь большое предсказанное значение зависимой переменной. Дополнительное преимущество заключается в том, что каждая группа кодируется значением, равным по модулю 1. Это помогает интерпретировать величину разностей предсказанных значений между группами, поскольку регрессионные коэффициенты отражают величины изменения зависимой переменной при изменении предиктора на единицу. Этот способ кодирования называется сигма-ограниченной параметризацией, поскольку для обозначения групп используются значения, которые в сумме равны нулю.

Отметим, что сигма-ограниченная параметризация категориальных предикторов обычно приводит к матрице X'X, которая не требует обобщенной обратной матрицы для решения нормальных уравнений. Потенциальная информация об избыточности, такая как пол, понижает полный ранг, создавая количественные контрасты, представляющие различия между характеристиками.

Сверхпараметризованная модель (кодирование категориальных предикторов). Вторым методом перекодировки категориальных предикторов является метод индикатора. Согласно этому методу отдельные предикторы, закодированные для каждой группы, определяются с помощью категориального предиктора. Например, присвоим женщинам значение 1, а мужчинам значение 0 в первом категориальном предикторе, определяющим членство в группе Женщины. Аналогично, присвоим мужчинам значение 1, а женщинам значение 0 во втором категориальном предикторе, определяющим членство в группе Мужчины. Отметим, что подобный метод кодирования категориальных предикторов всегда приводит к матрице X'X с избыточными столбцами, и поэтому требуется использовать обобщенную обратную матрицу при решении нормальных уравнений. Этот метод часто называется сверхпараметризованной моделью для представления категориальных предикторов, поскольку его результат во многих столбцах в матрице X'X является необходимым при определении взаимосвязи между категориальными предикторами и откликами зависимых переменных.

Общая линейная модель может использоваться при выполнении анализов с категориальными предикторами, которые кодируются с использованием одного из двух основных методов кодирования.

Результаты вычислений

Чтобы завершить обсуждение методов, с помощью которых расширяются общие линейные модели и обобщаются регрессионные методы, общую линейную модель можно представить как

YM = Xb + e

Здесь Y, X, b и e - те же величины, которые рассмотрены в контексте многомерной регрессионной модели, а M - m x s матрица коэффициентов, определяющих s линейных преобразований зависимой переменной. Нормальное уравнение имеет вид

X'Xb =X' YM

а решением этого нормального уравнения будет

b = (X'X)`X' YM

Если в матрице X'X содержатся избыточные столбцы, то в качестве обратной матрицы X'X подразумевается обобщенная обратная матрица.

Анализ линейных комбинаций составной зависимой переменной, метод обработки избыточных предикторов, перекодировка категориальных предикторов и главные ограничения множественной регрессии компенсируются за счет общей линейной модели.

Плохой вид матриц. Модуль GLM предоставляет богатый набор методов анализа планов с матрицами полных рангов, так и с сингулярными матрицами планов. Необходимо отметить, что в некоторых планах трудно определить сингулярность матрицы и избыточные столбцы в ней. Округление чисел в планах с очень большими разбросами значений в различных столбцах (которые могут появляться, например, в планах факторной регрессии и полиномиальной регрессии) может иногда приводить к некорректным результатам. При обнаружении подобной ошибки GLM выводит предупреждение. Перенормировка непрерывных предикторов, уравнивающая дисперсии, часто позволяет исправить плохой вид матриц.


Виды анализа

Используя общую линейную модель, вы можете анализировать различные типы планов. В действительности, гибкость общей линейной модели позволяет обрабатывать такое большое количество планов, что разработать классификацию самих планов становится достаточно трудно. Можно предложить несколько способов разделения этих планов, но необходимо помнить, что план может быть "смешанным", то есть может обладать характеристиками нескольких типов планов.

Далее постоянно будет встречаться понятие матрица плана X, а также сигма-ограниченное и сверхпараметризованное кодирование. Объяснение этих терминов можно найти в разделе Основные идеи: Общая линейная модель или Результаты вычислений.

Подробное обсуждение одномерных и многомерных методов ДА можно найти в описании модуля Дисперсионный анализ. Обсуждение методов множественной регрессии также представлено в описании модуля Множественная регрессия.

Межгрупповые планы

Уровни или значения предикторов в анализе описывают различия между n объектами или n анализируемыми допустимыми наблюдениями. Поэтому, когда мы говорим о межгрупповом плане, мы должны указать сами предикторы, их число и порядок.

При рассмотрении типов предикторов межгрупповые планы, содержащие только категориальные предикторы, называются планами дисперсионного анализа (ДА), планы, содержащие только непрерывные предикторы, называются регрессионными планами, в межгрупповые планы, содержащие и категориальные и непрерывные предикторы, называются планами ковариационного анализа. Более того, непрерывные предикторы всегда должны иметь фиксированные значения, а уровни категориальных предикторов могут быть как фиксированными, так и случайными. Планы со случайными категориальными факторами называются смешанными планами (см. описание модуля Компоненты дисперсии и смешанная модель ДА).

Межгрупповые планы могут содержать только один предиктор (простые планы; например, простая регрессия) или несколько предикторов (например, множественная регрессия).

Рассматривая порядок предикторов, некоторые межгрупповые планы могут содержать только "главный эффект" или члены первого порядка для предикторов. Это означает, что значения различных предикторов являются независимыми и используется только первая степень. Другие межгрупповые планы могут содержать члены с более высоким порядком, используя степени большие 1 (например, планы полиномиальной регрессии) или используя произведения различных предикторов (например, члены взаимодействия). Общим планом ДА является полный факторный план, в котором представлена каждая комбинация уровней для каждого категориального предиктора. Планы с некоторыми (но не со всеми) комбинациями уровней для каждого категориального предиктора называются дробными факторными планами. Планы с иерархически упорядоченными уровнями для различных категориальных предикторов называются гнездовыми планами.

Эти основные различия между планами можно использовать при описании различных ситуаций. Некоторые более общие межгрупповые планы описаны ниже.

Однофакторный ДА

План с простым категориальным предиктором называется планом однофакторного ДА. Например, анализ 4 различных типов удобрений на различных заводах можно провести с помощью однофакторного ДА с четырьмя уровнями для фактора Fertilizer.

В общем, рассмотрим один категориальный предикторов A с 1 наблюдением в каждой из 3 категорий 3. Используя сигма-ограниченное кодирование А по 2 переменным, матрица межгруппового плана X будет иметь вид:

Это означает, что наблюдениям в группах A1, A2 и A3 присваивается значение 1 для переменной X0 (свободный член), наблюдению в группе A1 присваивается значений 1 для переменной X1 и значение 0 для переменной X2, наблюдению в группе A2 присваивается значений 0 для переменной X1 и значение 1 для переменной X2, и наблюдению в группе A3 присваивается значение -1 для переменной X1 и значение -1 для переменной X2. Конечно, любые дополнительные наблюдения в любой из 3 групп будут закодированы аналогично. Если в группе A1 будет 1 наблюдений, в группе A2 - 2 наблюдения, и в группе A3 - 1 наблюдение, то матрица плана X будет иметь вид:

где первый нижний индекс A обозначает количество наблюдений в каждой группе. Для краткости, эти индексы обычно не отображаются при работе с матрицами планов ДА.

Отметим, что в однофакторных планах с равным количеством наблюдений в каждой группе сигма-ограниченное кодирование создает X1 ... Xk переменных, причем все из них имеют среднее значение равное 0.

Используя сверхпараметризованную модель для представления A, матрица плана X примет вид:

Эти простые примеры показывают, что матрица X нужна для решения двух задач: (1) для кодирования уровней исходных переменных в матрице X , а также для выявления (2) природы, числа и порядка переменных X, которые составляют межгрупповой план.

Главные эффекты ДА

Планы главных эффектов ДА содержат отдельные однофакторные планы ДА для 2 или более категориальных предикторов. Хорошим примером планов с главными эффектами ДА могут служить отсеивающие планы, описанные в модуле Планирование экспериментов.

Рассмотрим 2 категориальных предиктора A и B, каждый из которых имеет 2 категории. Используя сигма-ограниченное кодирование, матрицу X, определяющую межгрупповой план, можно привести к виду

Отметим, что, если в каждой группе существует равное количество наблюдений, то сумма смешанных произведений столбцов X1 и X2 равна 0 (например, для 1 наблюдения в каждой группе - (1*1)+(1*-1)+(-1*1)+(-1*-1)=0). Используя сверхпараметризованную модель, матрицу X, определяющую межгрупповой план, можно привести к виду

Сравнивая два вида кодирования, можно увидеть, что сверхпараметризованное кодирование требует в два раза больше данных, чем сигма-ограниченное кодирование.

Факторный ДА

Планы факторного ДА содержат переменные X, которые представляют комбинации различных уровней 2 или более категориальных предикторов (например, при изучении мальчиков и девочек по четырем возрастным группам можно получить 2 (Пол) x 4 (Возрастные группы) план). В частности, полные факторные планы представляют все возможные комбинации уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый из которых имеет по 2 уровня, будет являться 2 x 2 полным факторным планом. Используя сигма-ограниченное кодирование, матрицу плана X можно представить как:

Необходимо прокомментировать несколько особенностей матрицы X. Отметим, что столбцы X1 и X2 представляют контрасты основных эффектов для одной переменной (A и B соответственно), разделенной по уровням другой переменной. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Отметим также, что значения X3 являются произведениями соответствующих значений X1 и X2. Такие переменные, как X3 представляют мультипликативные эффекты или эффекты взаимодействия для соответствующих факторов, поэтому можно сказать, что переменная X3 представляет 2-факторное взаимодействие A и B. Зависимость таких переменных с зависимыми переменными показывает интерактивное влияние факторов на отклики. Поэтому факторные планы предоставляют больше информации о зависимости между категориальными предикторами и откликами для зависимых переменных, чем при анализе однофакторных планов или планов с главными эффектами.

Однако при использовании многих факторов для полных факторных планов требуется больше данных, чем можно собрать для представления всех возможных комбинаций уровней этих факторов. Кроме того, взаимодействия высокого порядка между многими факторами достаточно трудно интерпретировать. В этом случае хорошей альтернативой полному факторному плану является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. Этот план может содержать главные эффекты для каждой переменной, все 2-факторные взаимодействия между тремя переменными, но 3-факторные взаимодействия включены в этот план не будут. Используя сверхпараметризованную модель, матрица плана X будет иметь вид

2-факторые взаимодействия являются эффектами с наибольшей степенью, среди всех эффектов плана. Эти типы планов подробно обсуждаются в разделе 2(k-p) Дробные факторные планы в описании модуля Планирование экспериментов.

Гнездовой план ДА

Гнездовые планы похожи на дробные факторные планы, в которых представлены не все возможные комбинации уровней категориальных предикторов. В гнездовых планах пропущенные эффекты являются эффектами низкого порядка. Вложенные эффекты - это эффекты, в которых вложенные переменные никогда не появляются в качестве главных эффектов. Предположим, что для 2 переменных A и B с 3 и 2 уровнями, соответственно, план содержит главный эффект для A и эффект для B, вложенный в эффект A. Матрица плана X для этого плана, при использовании сверхпараметризованной модели имеет вид

Отметим, что если используется сигма-ограниченное кодирование, то в матрице плана X будет только 2 столбца для вложения эффекта B в эффект A вместо 5 столбцов, как в предыдущем случае. Применение сигма-ограниченного кодирования для гнездовых планов сильно ограничено, поэтому для представления таких планов используется только сверхпараметризованная модель.

Сбалансированный ДА

Большинство межгрупповых планов, обсуждаемых в этом разделе, можно анализировать более эффективно, если они будут сбалансированы, то есть если все ячейки в плане ДА будут иметь одинаковое количество наблюдений, в плане не будет пропущенных ячеек и будет присутствовать вложение (вложение является сбалансированным, если равное количество уровней вложенных факторов появляются на уровнях тех факторов, которые вложены внутрь). В этом случае матрица X'X (где X - матрица плана) является диагональной матрицей, и большинство вычислений, проводимых при вычислении результатов ДА (например, обращение матрицы), выполняются намного быстрее и проще.

Простая регрессия

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P, например, 7, 4 и 9, а план включает эффект первого порядка P, то матрица плана X будет иметь вид

а регрессионное уравнение с использованием P для X1 выглядит как

Y = b0 + b1P

Если простой регрессионный план содержит эффект высшего порядка для P, например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

а уравнение примет вид

Y = b0 + b1P2

Сигма-ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X. При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X, а работать только с регрессионным уравнением.

Множественная регрессия

Планы множественной регрессии являются такими же планами для непрерывных предикторов, как и планы главных эффектов ДА для категориальных предикторов. Это означает, что планы множественной регрессии содержат простые регрессионные планы для двух или более непрерывных предикторов. Регрессионной уравнение для плана множественной регрессии с эффектами первого порядка для 3 непрерывных предикторов P, Q и R будет иметь вид

Y = b0 + b1P + b2Q + b3R

Факторная регрессия

Планы факторной регрессии похожи на планы факторного ДА, в которых представлены комбинации уровней различных факторов. Однако в планах факторной регрессии может быть больше комбинаций различных уровней непрерывных предикторов, чем наблюдений в исходном множестве данных. Для упрощения, полные факторные регрессионные планы определяются как планы, в которых присутствуют все возможные произведения непрерывных предикторов. Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет включать главные эффекты (то есть эффекты первого порядка) для P и Q, а также 2-факторное взаимодействие P по Q, которое представлено произведением значений P и Q для каждого наблюдения. В этом случае регрессионное уравнение будет иметь вид:

Y = b0 + b1P + b2Q + b3P*Q

Факторные регрессионные планы могут быть также дробными. Это означает, что эффекты высокого порядка могут быть удалены из плана. Дробный факторный план степени 2 для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты все 2-факторные взаимодействия между предикторами:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Полиномиальная регрессия

Планы полиномиальной регрессии - это планы, которые содержат главные эффекты и эффекты высшего порядка для непрерывных предикторов, но не содержат взаимодействия эффектов. Например, план полиномиальной регрессии второй степени для трех непрерывных предикторов P, Q и R будет включать главные эффекты (то есть эффекты первого порядка) для P, Q и R и их квадратичные (то есть, второго порядка) эффекты, но этот план не будет содержать 2-факторные эффекты или 3-факторное взаимодействие P по Q по R.

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Планы полиномиальной регрессии не обязательно содержат все эффекты одной и той же степени для каждого предиктора. Например, главные, квадратичные и кубические эффекты могут быть включены в план для одних предикторов, а для других предикторов в план могут быть включены эффекты вплоть до четвертой степени.

Регрессия поверхности отклика

Планы регрессии квадратичной поверхности отклика - это смешанный тип плана со свойствами планов полиномиальной регрессии и дробных факторных регрессионных планов. Планы регрессии квадратичной поверхности отклика содержат все эффекты из планов полиномиальной регрессии вплоть до 2 степени, а также 2-факторные взаимодействия предикторов. Уравнение регрессии для плана регрессии квадратичной поверхности отклика с 3 непрерывными предикторами P, Q и R будет иметь вид

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Эти типы планов имеют широкое применение в прикладных задачах (например, в промышленных задачах), и подробное рассмотрение этих типов планов представлено в описании модуля Планирование экспериментов.

Регрессия поверхности смеси

Регрессионный планы поверхности смеси аналогичны планам факторной регрессии второй степени без свободного члена. Смеси, как следует из имени, представляют собой некоторые константы. Например, сумма долей различных ингредиентов в некотором материале всегда равна 100%. Поэтому доля одного ингредиента в материале может уменьшаться за счет увеличения долей других ингредиентов. Регрессионный планы поверхности смеси с подобными ограничениями не должны содержать свободный член. Матрица плана для подобного анализа с 3 непрерывными предикторами P, Q и R может иметь вид

Y = b1P + b2P2 + b3Q + b4P*Q + b5P*R + b6Q*R

Эти типы планов широко применяются в прикладных исследованиях (например, в промышленных экспериментах) и подробно рассматриваются в описании модуля Планирование экспериментов (см. раздел Планы смеси и триангулированные поверхности).

Ковариационный анализ

В общем, планы ковариационного анализа - это межгрупповые планы, которые содержат категориальные и непрерывные предикторы. Однако обычно планами ковариационного анализа называют специальные планы, в которых рассматриваются эффекты первого порядка для одного или нескольких непрерывных предикторов, оценивая при этом эффекты для одного или нескольких категориальных предикторов.

Например, предположим, что аналитик хочет оценить влияние категориального предиктора A с 3 уровнями на итоговый результат. При этом доступны измерения непрерывного предиктора P. Если данные для этого Анализа имеют вид

то сигма-ограниченная матрица X для плана, содержащего отдельные эффекты первого порядка для P и A будет иметь вид

Коэффициенты b2 и b3 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3

обозначают влияние членов групп на категориальный предиктор A в зависимости от влияния значения на непрерывный предиктор P. Аналогично, коэффициент b1 представляет влияние значений на P в зависимости от влияния членов групп на A. Этот стандартный ковариационный анализ является более чувствительным критерием, позволяющим определить уровень влияния A на то, как P уменьшает предсказанную ошибку, которая выражается остатками для итоговой переменной.

Матрица X для этого же плана с использованием сверхпараметризации будет иметь вид

Интерпретация в этом случае не изменяется, за исключением того, что влияние членов групп на категориальные предикторы A в регрессионном уравнении представлено коэффициентами b2, b3 и b4

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4

Неоднородные коэффициенты наклона

Стандартный план ковариационного анализа для категориальных и непрерывных предикторов нельзя использовать, если категориальные и непрерывные предикторы взаимодействуют друг с другом. Соответствующий план для моделирования влияний таких предикторов называется планом с неоднородными коэффициентами наклона. На основе тех же данных, которые использовались в стандартном ковариационном анализе, можно показать, что сверхпараметризованная матрица X для плана, содержащего главный эффект 3-уровнего категориального предиктора A и 2-факторное взаимодействие P по A , будет иметь вид

Коэффициенты b4, b5 и b6 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6

обозначают неоднородные коэффициенты наклона для итоговой регрессии P внутри каждой группы по A.

Также как и для гнездовых планов ДА, применение сигма-ограниченного кодирования эффектов для планов с неоднородными коэффициентами наклона сильно ограничено, поэтому для представления подобных планов может использоваться только сверхпараметризованная модель. В действительности, планы с неоднородными коэффициентами наклона идентичны по форме гнездовым планам ДА, поскольку главные эффекты для непрерывных предикторов не содержатся в планах с неоднородными коэффициентами наклона.

Однородные коэффициенты наклона

Итоговый вид плана для моделирования влияния непрерывных и категориальных предикторов зависит от того, как непрерывные и категориальных предикторы влияют друг на друга. Можно использовать стандартный план ковариационного анализа для непрерывных и категориальных предикторов, если непрерывные и категориальные предикторы не взаимодействуют друг с другом, а план с однородными коэффициентами наклона можно использовать при условии, что такое взаимодействие есть. Планы с однородными коэффициентами наклона можно использовать при проверке влияния непрерывных и категориальных предикторов, а также для выявления того, когда можно использовать стандартный ковариационный план или план с однородными коэффициентами наклона при моделировании эффектов предикторов. Для тех же данных, на основе которых был разобран традиционных ковариационный анализ, сверхпараметризованная матрица X для плана с главным эффектом P, главным эффектов для трехуровневого категориального предиктора A и 2-уровневого взаимодействия P по A будет иметь вид

Если коэффициенты b5, b6 или b7 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5+ b6X6 + b7X7

не равны нулю, то необходимо использовать модель с однородными коэффициентами наклона. Если все три регрессионных коэффициента равны нулю, то нужно использовать стандартный план ковариационного анализа.

Сигма-ограниченная матрица X для однородных коэффициентов наклона будет иметь вид

Если коэффициент b4 или b5 в регрессионном уравнении

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

не равны нулю, то необходимо использовать модель с однородными коэффициентами наклона. Если оба коэффициента равны нулю, то нужно использовать стандартный план ковариационного анализа.

Смешанная модель дисперсионного и ковариационного анализов

Планы, содержащие случайные эффекты для одного или нескольких категориальных предикторов называются планы смешанной модели. Случайные эффекты являются эффектами классификации, в которых уровни эффектов случайно выбираются из бесконечной совокупности возможных уровней. Решение нормального уравнения в планах смешанной модели совпадает с анализом планов с фиксированными эффектами (то есть планов, не содержащих случайные эффекты). Планы смешанной модели отличаются от планов с фиксированными эффектами только способом проверки значимости этих эффектов. В планах с фиксированными эффектами межгрупповые эффекты всегда проверяются с использованием среднеквадратичного остатка в качестве члена ошибки. В планах смешанной модели межгрупповые эффекты проверяются с использованием соответствующих членов ошибок, основанных на ковариации случайных источников дисперсии в плане. Эта процедура выполняется на основе метода Саттервайта синтеза деноминатора (Satterthwaite, 1946), который позволяет найти линейные комбинации источников случайной дисперсии, которая выражается как соответствующие члены ошибки при проверке значимости соответствующих эффектов. Обсуждение этих типов планов и методов оценки компонент дисперсии для случайных эффектов находится в описании модуля Компоненты дисперсии и смешанная модель ДА.

Планы смешанной модели, такие как гнездовые планы и планы с однородными коэффициентами наклона, являются планами, в которых сигма-ограниченное кодирование категориальных предикторов чрезвычайно ограничено. Планы смешанной модели содержат оценки ковариации между уровнями категориальных предикторов, а сигма-ограниченное кодирование категориальных предикторов уменьшает эту ковариацию. Поэтому для представления планов смешанной модели используется только сверхпараметризованная модель (некоторые программы будут использовать сигма-ограниченный метод и так называемую "ограниченную модель" для случайных эффектов; однако только сверхпараметризованная модель внедрена в модуле GLM для использования со сбалансированными и несбалансированными планами, а также вместе с планами с пропущенными ячейками; см. Searle, Casella, & McCullock, 1992, стр. 127). Важно помнить, что сигма-ограниченное кодирование можно использовать для представления любого межгруппового плана, за исключением смешанной модели, гнездовых планов и планов с однородными коэффициентами наклона. Более того, некоторые типы гипотез можно проверить, используя только сигма-ограниченное кодирование (то есть, эффективные гипотезы, Hocking, 1996), поэтому большая общность сверхпараметризованной модели для представления межгрупповых планов не соответствует этому.

Планы с повторными измерениями

Довольно часто аналитики используют одни и те же тесты для нескольких субъектов повторно через определенный период времени. Необходимость подобного исследования возникает обычно при выявлении различий у одного субъекта. Подобные планы называются планами с повторными измерениями. Начальное рассмотрение таких планов представлено в разделе Сложные планы в описании модуля Дисперсионный анализ.

Представьте, что необходимо исследовать увеличение знаний по алгебре у студентов после двух месяцев обучения. В конце первого месяца обучения студентам предлагается контрольная работа (первый уровень фактора с повторными измерениями), а в конце второго месяца студенты выполняют аналогичный тест (второй уровень фактора с повторными измерениями). Таким образом, фактор с повторными измерениями (Time) имеет 2 уровня.

Предположим, что баллы, полученные за эти два теста (то есть значения переменных Y1 и Y2 на уровнях Time 1 и Time 2, соответственно) преобразуются в значения новой составной переменной с использованием линейного преобразования

T = YM

где M - ортонормальная матрица контрастов. Например, если

то разница между средним значением T1 и 0 говорит об увеличении полученных баллов по 2 уровням переменной Time.

Многомерные планы

Если в плане присутствует несколько зависимых переменных, то план называется многомерным. Многомерные измерения в совокупности являются более сложными, чем их одномерные элементы (например, коэффициент корреляции). Действительно, многомерные измерения связи должны принимать в расчет не только взаимосвязи между предикторами и откликами зависимых переменных, но также и связи между несколькими зависимыми переменными. Однако, эти измерения предоставляют информацию о силе связи между предиктором и зависимыми переменными, учитывая при этом внутренние корреляции между зависимыми переменными. Обсуждения многомерных планов также представлено в разделе Многомерные планы в описании модуля Дисперсионный анализ.

Большинство часто используемых многомерных измерений связи можно представить в виде функций от собственных значений матрицы E-1H, где E - матрица ошибок SSCP (то есть матрица сумм квадратов и смешанных произведений для зависимых переменных, которые не объясняются предикторами в межгрупповом плане), а H - гипотетическая SSCP матрица (то есть матрица сумм квадратов и смешанных произведений для зависимых переменных, которые объясняются всеми предикторами в межгрупповом плане, или матрица сумм квадратов и смешанных произведений для зависимых переменных, которые объясняются для отдельного эффекта). Если

li = упорядоченные собственные значения матрицы E-1H, если E-1 существует,

то можно выделить 4 общих многомерных измерения связи

Лямбда Уилкса = Х[1/(1 + li)

След Пиллая = S li/(1 + li)

След Хотеллинга-Лоули = S li

Наибольший корень Роя = li

Эти 4 измерения имеют различные верхнюю и нижнюю границы. Используя Лямбду Уилкса можно наиболее просто интерпретировать эти 4 измерения. Лямбду Уилкса изменяется от 0 до 1. Значений 1 свидетельствует об отсутствии связи между предикторами и откликами, а значение 0 говорит о максимально тесной зависимости между предикторами и откликами. Значений 1 - Лямбда Уилкса можно интерпретировать как многомерный аналог одномерного коэффициента R-квадарт, который показывает долю обобщенной дисперсии зависимых переменных, объясненной предикторами.

Эти 4 величины также можно использовать при построении многомерных критериев значимости. Эти многомерные критерии обсуждаются, например, в Finn, 1974; Tatsuoka, 1971.


Проверка гипотез

Ниже перечислены разделы, в которых обсуждаются методы проверки гипотез в модуле GLM. Например, как проверяется подгонка общая подгонка модели, какие есть параметры критериев для категориальных эффектов в несбалансированных или в неполных планах, как можно выбрать член ошибки, и какова идея проверки пользовательских гипотез в факторных или регрессионных планах.

Разбиение сумм квадратов (SS)

Фундаментальный принцип методов наименьших квадратов заключается в том, что дисперсия зависимой переменной может быть разделена на несколько частей, согласно источникам дисперсии. Предположим, что зависимая переменная регрессируется на одну или более переменных-предикторов, и для удобства зависимая переменная нормируется так, что ее среднее равно 0. Главная особенность метода наименьших квадратов состоит в то, что вся сумма квадратов значений зависимой переменной равна сумме квадратов предсказанных значений плюс сумма квадратов значений остатков (так называемая основная формула ДА). Получаем общую формулу

где выражение в левой части - полная сумма квадратных отклонений наблюдаемых величин зависимой переменной от ее среднего, а соответствующие члены в правой части - (1) сумма квадратных отклонений предсказанных значений зависимой переменной от среднего, и (2) сумма квадратных отклонений наблюдаемых значений зависимой переменной от предсказанных значений, то есть сумма квадратов остатков. Можно написать аналогичное выражение:

Total SS = Model SS + Error SS

Отметим, что член Total SS остается постоянным для любого множества данных, однако члены Model SS и Error SS зависят от вида регрессионного уравнения. Предположим опять, что зависимая переменная стандартизована так, что ее среднее равно 0. В этом случае члены Model SS и Error SS можно вычислить следующим образом:

Model SS = b'X'Y

Error SS = Y'Y - b'X'Y

Шесть типов сумм квадратов

Если в модели существуют категориальные предикторы, упорядоченные в виде факторного плана ДА, то можно изучать главные эффекты и эффекты взаимодействия между категориальными предикторами. Однако если план не является сбалансированным (имеет разное количество наблюдений в ячейках и, соответственно, кодированные эффекты для категориальных факторов обычно коррелированы) или в полном факторном плане ДА существуют пропущенные ячейки, то существует неопределенность. Эта неопределенность зависит от специальных сравнений между средними ячеек, которые составляют главные эффекты и изучаемые взаимодействия. Подобные результаты обсуждались в Milliken and Johnson (1986), и, если вы анализируете неполные факторные планы, то рекомендуем вам обратиться к этой литературе для получения дополнительной информации об этих проблемах и методах их решения.

GLM предлагает широко используемые методы, которые называются сумма квадратов Типа I, II, III и IV (см. Goodnight, 1980). Кроме этого, мы также предлагаем различные методы проверки эффектов в неполных планах, которые широко используются в других областях деятельности.

Сумма квадратов типа V. Термин сумма квадратов типа V используется для обозначения метода, который широко используется в промышленных приложениях для анализа дробных факторных планов. Эти типы планов подробно обсуждаются в разделе 2(k-p) Дробные факторные планы в описании модуля Планирование экспериментов. Для тех эффектов, для которых выполняются критерии, все маргинальные средние совокупности (средние наименьших квадратов) легко оцениваются.

Сумма квадратов типа VI. Термин сумма квадратов типа VI обозначает метод, который часто используется в программах, содержащих только реализацию сигма-ограниченной модели (которая не очень хорошо подходит для некоторых типов планов; модуль GLM предоставляет пользователю выбор между сигма-ограниченной и сверхпараметризованной моделями). Этот метод абсолютно идентичен тому, который описан как эффективная гипотеза в Hocking (1996).

Сбалансированные планы. Большинство межгрупповых планов, обсуждаемых в этом разделе, можно анализировать более эффективно, если они будут сбалансированы, то есть, если все ячейки в плане ДА будут иметь одинаковое количество наблюдений, в плане не будет пропущенных ячеек и будет присутствовать вложение (вложение является сбалансированным, если равное количество уровней вложенных факторов появляются на уровнях тех факторов, которые вложены внутрь). В этом случае матрица X'X (где X - матрица плана) является диагональной матрицей, и большинство вычислений, проводимых при вычислении результатов ДА (например, обращение матрицы), выполняются намного быстрее и проще.

Ограниченные эффекты

Следующее описание использует термин внутренние эффекты. Эффект E1 (например, A * B взаимодействия) содержится в другом эффекте E2, если выполнено одно из двух условий:

Сумма квадратов типа I

Сумма квадратов Типа I использует последовательное разделение полной модели сумм квадратов. На каждом шаге производится оценка регрессионных уравнений. При этом в модель добавляются новые эффекты. Согласно определению суммы квадратов Типа I, сумма квадратов для каждого эффекта определяется с помощью вычитания предсказанной суммы квадратов с эффектов в модели из предсказанной суммы квадратов для модели без включенного эффекта. После этого производятся проверки значимости для каждого эффекта при увеличении предсказанной суммы квадратов за счет добавления эффекта. Поэтому сумма квадратов Типа I иногда называется последовательной или иерархической суммой квадратов.

Сумма квадратов Типа I часто используется в сбалансированных планах ДА, в которых эффекты добавляются в модель в исходном порядке (то есть все главные эффекты добавляются в модель до любого двухфакторного взаимодействия эффектов, двухфакторные взаимодействия эффектов добавляются в модель до трехфакторных взаимодействий и т.д.). Сумма квадратов типа I также используется в полиномиальных регрессионных планах, в которых любые низкоуровневые эффекты добавляются до эффектов старшего порядка. Другое применение суммы квадратов типа I заключается в проверке гипотез для иерархических гнездовых планов, в которых один эффект вложен во второй эффект, а второй эффект вложен в третий эффект и т.д.

Одно важное свойство суммы квадратов типа I заключается в том, что сумма квадратов может быть отнесена к любому эффекту, вплоть до полной модели. Таким образом, сумма квадратов типа I предоставляет разделение предсказанной суммы квадратов для полной модели. Этим свойством не обладает ни один другой тип суммы квадратов. Важное ограничение для суммы квадратов типа I заключается в том, что сумма квадратов, отнесенная к отдельному эффекту, будет зависеть от порядка включения эффектов в модель. Подобная потеря инвариантности относительно порядка включения эффектов в модель ограничивает использование суммы квадратов типа I для проверки гипотез для отдельных планов (например, дробные факторные планы).

Сумма квадратов типа II

Сумма квадратов типа II иногда называется частной последовательной суммой квадратов. Аналогично сумме квадратов Типа I , сумма квадратов типа II контролирует влияние других эффектов. В сумме квадратов типа II сумма квадратов эффекта вычисляется вместе с регулированием влияние всех других эффектов той же или меньшей степени. Поэтому суммы квадратов для главных эффектов контролируют все другие главные эффекты, суммы квадратов для двухфакторных взаимодействий контролируют все другие двухфакторные взаимодействия, и т.д.

В отличие от суммы квадратов Типа I сумма квадратов типа II является инвариантной относительно порядка включения эффектов в модель. Это позволяет использовать суммы квадратов типа II для проверки гипотез в планах множественной регрессии, для планов главных эффектов ДА, для полных факторных планов ДА с одинаковым количеством наблюдений в ячейках, и для иерархических гнездовых планов.

Однако, существует препятствие при использовании суммы квадратов типа II для факторных планов с неравным количеством наблюдений в ячейках. В этом случае сумма квадратов типа II проверяет гипотезы, которые являются сложными функциями от числа ячеек, не имеющими точной интерпретацией. Поэтому рекомендуется использовать альтернативный метод проверки гипотез.

Сумма квадратов типа III

Суммы квадратов типа I и типа II обычно нельзя использовать при проверке гипотез для факторных планов ДА с различным количеством наблюдений в ячейках. В этом случае, сумма квадратов типа III проверяет ту же гипотезу, при условии, что в каждой ячейке существует хотя бы одной наблюдение. Для планов без пустых ячеек сумма квадратов типа III проверяет гипотезу о разностях маргинальных средних. Если в планах нет пустых ячеек, то такие средние являются средними наименьших квадратов, то есть наилучшими линейными несмещенными оценками маргинальных средних для этих планов (см. Milliken and Johnson, 1986).

Критерии различий между средними наименьших квадратов обладают важным свойством - инвариантность относительно способа кодирования эффектов категориальных предикторов (то есть, относительно использования сигма-ограниченного или сверхпараметризованной модели) и выбора конкретной g2 обратной матрицы X'X, используемой при решении нормальных уравнений. Поэтому критерии проверки линейных комбинаций частных наименьших квадратов, содержащих суммы квадратов типа III, не зависят от параметризации плана. Это позволяет использовать суммы квадратов типа III для проверки гипотез для любых планов, в которых можно использовать суммы квадратов типа I или II, а также для любых несбалансированных планов ДА без пустых ячеек.

Сумма квадратов типа III, отнесенная к некоторому эффекту, вычисляется как сумма квадратов для эффекта, контролируемого для любых эффектов с такой же или меньшей степенью, и ортогональной любым эффектам взаимодействия старшего порядка, которые содержат его. Ортогональность взаимодействиям высокого порядка дает сумме квадратов типа III необходимые свойства, связанные с линейной комбинацией средних наименьших квадратов в планах ДА без пропущенных ячеек. Однако, в планах ДА с пустыми ячейками сумма квадратов типа III не проверяет гипотезу о средних наименьших квадратов, а проверяет гипотезу, которая является сложной функцией от номеров пустых ячеек во взаимодействиях старшего порядка, не имеющих точной интерпретации. В этом случае, рекомендуется использовать сумму квадратов типа V или критерии эффективной гипотезы (сумма квадратов типа VI).

Сумма квадратов типа IV

Сумма квадратов типа IV была разработана для проверки "сбалансированных" гипотез для эффектов малого порядка в планах ДА с пропущенными ячейками. Сумма квадратов типа IV вычисляется с помощью равномерного распределения коэффициентов контрастов для эффектов малого порядка по уровням взаимодействий высокого порядка.

Однако, гипотезу с суммами квадратов типа IV для проверки гипотез с эффектами малого порядка в планах ДА с пропущенными ячейками использовать не рекомендуется, несмотря на то, что она для этого и разработана. В этом случае сумма квадратов типа IV является инвариантной по отношению к некоторым g2 обратным матрицам X'X, которые могут использоваться для решения нормальных уравнений. Сумма квадратов типа IV инвариантна относительно выбора g2 обратной матрицы X'X для заданного порядка уровней категориального предиктора, однако, она не инвариантна для различных порядков этих уровней. Более того, так же как и для суммы квадратов типа III, сумма квадратов типа IV проверяет гипотезу, которая является сложной функцией от номеров пропущенных ячеек для взаимодействий высокого уровня, которые трудно интерпретировать.

Аналитики, которые исследовали эффективность сумм квадратов типа IV, сделали вывод о том, что она не удовлетворяет тем требованиям, для которых была разработана изначально:

Поэтому мы рекомендуем использовать суммы квадратов типа IV с большой осторожностью. При этом необходимо полностью понимать суть проверяемой гипотезы до того, как сделать интерпретацию результатов. Более того, в планах ДА без пропущенных ячеек сумма квадратов типа IV эквивалентна сумме квадратов типа III.

Сумма квадратов типа V

Сумма квадратов типа V была разработана как альтернатива сумме квадратов типа IV для проверки гипотез в планах ДА с пропущенными ячейками. Этот метод широко используется в промышленных экспериментах для анализа дробных факторных планах. Эти типы планов подробно обсуждаются в разделе 2(k-p) Дробные факторные планы в описании модуля Планирование экспериментов. Для эффектов, для которых выполняются критерии, оцениваются все маргинальные средние совокупности (средние наименьших квадратов).

Сумма квадратов типа V включает в себя комбинацию методов, предназначенных для вычисления гипотез типа I и типа III. Будет или нет эффект удален определяется с использованием процедур типа I, а затем гипотеза проверяется для эффектов, не удаленных из модели, с использованием процедур типа III. Сумму квадратов типа V можно проиллюстрировать на простом примере. Предположим, что рассматриваются эффекты A, B и взаимодействие A по B, и, кроме того, A и B являются категориальными предикторами с 3 и 2 уровнями соответственно. Первым в модель включается свободный член. Затем включается эффект A и определяется количество его степенй свободы (то есть число неизбыточных столбцов для эффекта A в матрице X'X, в соответствии с выбранным свободным членом). Если количество степеней свободы A меньше чем 2 (то есть число уровней минус 1), то этот эффект удаляется из модели. После этого в модель включается эффект B, и определяется его количество степеней свободы (то есть число неизбыточных столбцов для эффекта B в матрице X'X для выбранного свободного члена и эффекта A). Если количество степеней свободы B меньше чем 1 (то есть, число степеней свободы минус 1), то этот эффект удаляется из модели. После этого в модель включается взаимодействие A по B, и определяется его число степеней свободы (то есть число неизбыточных столбцов для взаимодействия A по B в матрице X'X, для заданного свободного члена и эффектов A и B). Если число степеней свободы этого взаимодействия меньше 2 (то есть произведение числа степеней свободы его факторов при условии отсутствие пропущенных ячеек), то этот эффект удаляется из модели. Затем вычисляется сумма квадратов типа III для эффектов, оставшихся в модели. Однако, критерии значимости используют член ошибки для полной модели.

Отметим, что сумма квадратов типа V использует полученную краткую модель, в которой все эффекты имеют не меньше того числа степеней свободы, которое они имели бы без пропущенных ячеек. Это эквивалентно нахождению подплана без пропущенных ячеек такого, что суммы квадратов типа III для всех эффектов в этом подплане отражают разницу между средними наименьших квадратов.

Стоит сделать важное замечание по использованию сумм квадратов типа V. Удаление эффекта из модели предполагает, что эффект не влияет на результат (см., например, Hocking, 1996). Разумность этого предположения не обязательно гарантирует его верность, поэтому необходимо внимательно изучать взаимосвязь удаленных эффектов с результатом. Также важно отметить, что суммы квадратов типа V не являются инвариантными относительно порядка удаления эффектов.

Учитывая эти ограничения, сумма квадратов типа V для уменьшенной модели имеет те же свойства, что и сумма квадратов типа III для планов ДА без пропущенных ячеек. Даже, если в планах с пропущенными ячейками (дробные факторные планы, в которых многие взаимодействия высокого уровня равны нулю), сумма квадратов типа V предоставляет критерии интерпретируемых гипотез, а иногда подобные гипотезы нельзя проверить, используя другие методы.

Сумма квадратов типа VI (эффективная гипотеза)

Суммы квадратов типа от I до V можно рассматривать как предоставление критериев проверки гипотез, в которых некоторые подмножества частных регрессионных коэффициентов равны нулю. Эффективные критерии проверки гипотез (разработанные Hocking, 1996) основываются на той идеи, что только однозначная оценка эффекта обозначает долю дисперсии итоговой переменной, соответствующую этому эффекту. Сверхпараметризованное кодирование эффектов для категориальных предикторов нельзя использовать для получения таких уникальных оценок для эффектов низкого порядка. Эффективные критерии проверки гипотез, называемые суммами квадратов типа VI, используют сигма-ограниченное кодирование эффектов категориальных предикторов для получения уникальных оценок эффектов (даже для эффектов малого порядка).

Метод вычисление сумм квадратов типа VI достаточно прост. Используется сигма-ограниченное кодирование, и для каждого эффекта соответствующая сумма квадратов типа VI является суммой квадратов разностей для всех других эффектов из полной модели. Таким образом, сумма квадратов типа VI предоставляет точные оценки дисперсии предсказанных значений результирующей переменной для каждого соответствующего эффекта.

В планах ДА с пропущенными ячейками сумма квадратов типа VI для эффектов может иметь меньшее количество степеней свободы, чем они имели бы, если пропущенных ячеек не было. И даже в некоторых планах с пропущенными ячейками количество степеней свободы может равняться нулю. Идея суммы квадратов типа VI заключается в проверке максимально возможного количества исходных гипотез для заданных наблюдаемых ячеек. Если номера пропущенных ячеек такие, что нельзя проверить ни одной части исходной гипотезы, то все остается без изменений. Невозможность проверки гипотез является ценой за то, что на некоторых комбинациях уровней категориальных предикторов нет наблюдений. Идея заключается в том, что лучше допустить, что гипотезу нельзя проверить, чем проверять искаженную гипотезу, которая может не отражать значения исходной гипотезы.

Сумма квадратов типа VI не может быть использована для проверки гипотез для гнездовых планов ДА, планов с неоднородными коэффициентами наклона или планов смешанной модели, поскольку использование сигма-ограниченного кодирования эффектов для категориальных предикторов в таких планах достаточно ограничено. Однако, данный факт не говорит о том, что сумма квадратов типа VI не может быть вычислена для любых других планов, которые анализируются с использованием общей линейной модели.

Потеря согласия критериев, использующих чистую ошибку

Критерии общей модели и критерии на основе 6 типов сумм квадратов используют остаток квадратов среднего в качестве параметры ошибки критериев значимости. Для определенных типов плана остаточная сумма квадратов может быть в дальнейшем разбита на части, которые важны для проверяемой гипотезы. Один из таких типов плана - это простой регрессионный план, в котором имеются подмножества наблюдений, все имеют те же самые значения переменной-предиктора. Например, производительность выполнения задачи может измеряться на субъектах, которые работают над задачей при различных комнатных температурах. Критерий значимости для эффекта Температура в линейной регрессии Производительности от Температуры не обеспечил бы полной информацией о том, как Температура связана с Производительностью; коэффициент регрессии для Температуры отражает только ее линейный эффект на результат.

Одним из способов тщательного сбора дополнительной информации из этого типа плана является разбиение остаточных сумм квадратов на компоненты потери согласия и чистую ошибку. В только что описанном примере, это бы включило определение разности между суммой квадратов, которые нельзя предсказать по уровням Температуры, представленным линейным эффектом Температуры (остаточные суммы квадратов) и чистой ошибки; этим отличием были бы суммы квадратов, связанные с неадекватностью (в этом примере, линейной модели). Критерий неадекватности, использующий среднеквадратичную чистую ошибку в качестве параметра ошибки, показал бы, нужны ли нелинейные эффекты Температуры для адекватности влияния Температурной модели на результат. Далее линейный эффект можно было бы проверить с помощью чистой ошибки, тем самым обеспечивая более чувствительный критерий линейного эффекта независимым от любых возможных нелинейных эффектов.

Оцениваемость гипотез

Перед рассмотрением критериев гипотез этого класса, важно обратиться к оцениваемости. Критерий заданной гипотезы, использующий обобщенную линейную модель, описан в терминах коэффициентов регрессии для решения нормальных уравнений. Если матрица X'X имеет неполный ранг, коэффициенты регрессии зависят от частной обратной матрицы g2, используемой для решения нормальных уравнений, то коэффициенты регрессии не будут единственными. Когда коэффициенты регрессии не единственны, линейные функции (f) коэффициентов регрессии примут форму

f = Lb

где L - вектор коэффициентов, будет также не единственным решением. Однако Lb для L, которая удовлетворяет

L = L(X'X)`X'X

является инвариантом для всех частных обратных матриц g2, и следовательно будет называться оцениваемой функцией.

Теория оцениваемости линейных функций это отдельная тема в теории алгебраических инвариантов (Searle, 1987, приводится введение в эту теорию), но ее смысл уже понятен. Один из примеров неоцениваемости гипотезы встретился в критериях эффективной гипотезы, когда мы имели дело с нулевой степенью свободы. С другой стороны Тип III суммы квадратов для переменной категориальных предикторов в планах ANOVA без потерянных ячеек (и среднее наименьших квадратов в таких планах) предоставляет пример оцениваемых функций, которые не зависят от модели параметризации (т.е., частная обратная матрица g2, используемая для решения нормальных уравнений). Общее значение теории оцениваемости линейных функций состоит в том, что гипотезы, которые нельзя представить как линейные комбинации строк X (т.е., комбинации наблюдаемых уровней переменных категориальных предикторов), нельзя оценить, а следовательно, и проверить. Другими словами, мы просто не можем проверить заданные гипотезы, которые не представленны в данных. Упоминание об оцениваемости является важным, так как критерий для оцениваемости сразу указывает, какие гипотезы можно проверять, а какие нет.

Проверка гипотез для повторных измерений

При обсуждении различных гипотез, которые проверялись с использованием общей линейной модели, эти критерии были рассмотрены как критерии для "зависимой переменной". Это было сделано исключительно для упрощения обсуждения. Если в анализе существует несколько зависимых переменных, отражающих уровни факторов с повторными измерениями, то общая линейная модель предполагает выполнение критериев с использованием ортонормальных составных преобразований зависимых переменных. Если в анализе рассматриваются несколько зависимых переменных без факторов с повторными измерениями, то общая линейная модель предполагает выполнение критериев с использование гипотез о суммах квадратов и смешанных произведений для нескольких зависимых переменных, которые проверяются с учетом остаточных сумм квадратов и смешанных произведений для нескольких зависимых переменных. Поэтому те же процедуры проверки гипотез, которые применяются к одномерным планам с одной зависимой переменной, также применяются к повторным измерениями и многомерным планам.


Все права на материалы электронного учебника принадлежат компании StatSoft