Электронный учебник Statsoft


Общий дискриминантный анализ



Вводный обзор

Хорошая теория является результатом процесса сложных и одновременно красивых исследований. Мы начинаем наши исследования с модели, которая включает все возможные, поддающиеся изучению факторов влияющих на цель нашего исследования. Затем, проводим тестирования элементов начальной модели, с целью выявления менее сложных моделей, адекватно описывающих цель исследований. В итоге из упрощенных моделей выделяем наипростейшую модель, которая по принципу "простоты" будет являться "наилучшей" интерпретацией нашей цели исследования.

Выбирая более простую модель, мы руководствуемся не только философскими побуждениями, а скорее практическими. Простые модели намного легче тестировать во время кросс-проверки и повторного использования. С другой стороны, простые модели намного легче использовать в будущем с точки зрения стоимости получения отклика и значений предикторов. Так же не стоит преуменьшать философские основы простых моделей. Простые модели намного легче для понимания и зачастую намного "красивее" более сложных.

Процесс исследования, описанный выше, сосредоточен в технике построения модели пошаговой регрессии или регрессии наилучшего подмножества. Использование данной техники начинается с момента задания плана "общей модели." Затем производится тестирование упрощенных подмоделей, с целью определить адекватность описания. В итоге принимаем одну из простых моделей в качестве "наилучшей."

В начало

 


Преимущества GDA

Определение моделей для предикторов и эффектов предикторов. Одним из преимуществ использования общих линейных моделей в анализе дискриминантных функций является то, что вы можете определять сложные модели для множества предикторов. Например, вы можете определить для множества непрерывных предикторов полиномиальную регрессионную модель, модель поверхности отклика, факторную регрессию или регрессию поверхности смеси (без свободного члена). Таким образом, вы можете анализировать эксперимент для смеси с ограничениями (сумма значений предиктора равна константе), когда исследуемая зависимая переменная является категориальной. В действительности, в модуле GDA не устанавливается никаких ограничений на тип используемого предиктора (категориальный или непрерывный) или на тип определяемой модели. Однако при использовании категориальных предикторов необходимо учитывать "Замечание по использованию моделей с категориальными предикторами" (см. ниже).

Пошаговый анализ и анализ наилучшего подмножества. Кроме традиционного пошагового анализа с простыми непрерывными предикторами, используемого в модуле Дискриминантный анализ, модуль Общий дискриминантный анализ предоставляет опции для пошагового анализа и для анализа наилучшего подмножества, представленного в модуле Общие регрессионные модели (GRM). Вы можете определить пошаговый выбор предикторов и выбор наилучшего подмножества предикторов, на основе статистик F-включить и p-включить (эти статистики связаны с многомерной статистикой Лямбда Уилкса). Кроме этого, в случае определения кросс-проверочной выборки, выбор наилучшего подмножества можно провести на основе долей ошибочной классификации для кросс-проверочной выборки. Другими словами, после оценки дискриминантных функций для данного множества предикторов, вычисляются оценки ошибочной классификации для кросс-проверочной выборки, и выбирается модель (подмножество предикторов), которая соответствует наименьшей доли ошибочной классификации для кросс-проверочной выборки. Этот мощный способ выбора модели позволяет получать в итоге высокую точность прогноза, избегая при этом переобучения (см. также описание модуля Нейронные сети).

Профили желательности апостериорных вероятностей классификации. Другой уникальной особенностью Общего дискриминантного анализа (GDA) являются функции для работы с Профилями отклика/желательности. Эти функции частично описаны в модуляx Планирование эксперимента (ПЭ) и Общие линейные модели. Программа вычисляет предсказанные значения отклика для каждой зависимой переменной, а полученные значения объединяются в один показатель желательности. Чтобы наглядно показать "поведение" предсказанных откликов и показателя желательности для различных диапазонов значений предикторов строятся различные графики. В модуле GDA вы можете строить профили простых предсказанных значений (как в модуле Общие регрессионные модели) для кодированных зависимых переменных, и также вы можете строить профили апостериорных вероятностей предсказания. Эта уникальная особенность позволяет вычислять, насколько различные значения предикторов влияют на классификацию наблюдений. Эта функция используется при интерпретации результатов сложных моделей с категориальными и непрерывными предикторами и их взаимодействиями.

Замечание по использованию моделей с категориальными предикторами. Общий дискриминантный анализ обеспечивает функциональные возможности, которые делают этот метод общим средством для классификации и добычи данных. Однако, в большинстве книг применение анализа дискриминантных функций ограничено в области простого или пошагового анализа с непрерывными предикторами с одной степенью свободы. Работу с методами наилучшего подмножества в сочетании с категориальными предикторами или с использованием долей ошибочной классификации для кросс-проверочной выборки при выборе наилучшего подмножества предикторов необходимо рассматривать как эвристический метод поиска, а не как метод статистического анализа.

Использование категориальных предикторов. Использование категориальных предикторов или эффектов в анализе дискриминантных функций может повлечь статистически недостоверные результаты. Например, вы можете использовать GDA для анализа таблицы частот 2х2, определив одну переменную в этой таблице как зависимую переменную, а другую - как предиктор. Очевидно, что в данном случае использовать модуль GDA нерационально (хотя в большинстве случаев вы получите результаты, которые обычно согласуются с теми, которые вычислены согласно простому критерию хи-квадрат для таблицы 2х2). С другой стороны, если вы будете рассматривать оценки параметров, вычисленные в модуле GDA по методу наименьших квадратов (МНК) для системы линейных уравнений, то использование категориальных предикторов в GDA будет полностью оправдано. Кроме того, в прикладных исследованиях обычно не принято сочетать непрерывные и категориальные предикторы для предсказания категориальной зависимой переменной. В этих случаях стоит рассмотреть специальные модели с категориальными предикторами и (возможно) взаимодействиями между категориальными и непрерывными предикторами для классифицированных наблюдений. Однако использование категориальных предикторов в анализе дискриминантных функций не рассмотрено широко в литературе, поэтому необходимо осторожно относится к результатам критериев статистической значимости. Также необходимо помнить, что существуют альтернативные методы для проведения схожих анализов, а именно, полиномиальные логит модели доступны в модуле Обобщенные линейные модели (GLZ), и методы анализа многовходовых таблиц частот находятся в модуле Логлинейный анализ.

В начало



Все права на материалы электронного учебника принадлежат компании StatSoft