Электронный учебник Statsoft


Растущие деревья классификации и регрессии



Растущие деревья классификации и регрессии

Модуль Растущие деревья - полноценная реализация стахостического градиентного метода бустинга. Этот общая вычислительная модель известна также под названиями TreeNet (Древовидная сеть: TM Salford Systems, Inc.) и MART (TM Jerill, Inc). За последние несколько лет этот подход оформился и развился в один из наиболее мощных методов предсказательного data mining (предсказательной добычи данных). Реализация этих алгоритмов в модуле Растущие деревья позволяет применять метод как для задач классификации, так и для задач регрессии с непрерывными и/или категориальными предикторами, а также проводить развертку уже созданных вычислительных моделей прогноза или классификации (скоринга). Подробное описание методов привоится в работах Friedman (1999a, b) и Hastie, Tibshirani, & Friedman (2001).

В начало



Градиентные растущие деревья

Алгоритмы построения Растущих деревьев развивались от области приложения метода бустинга до регрессионных деревьев. Основной принцип заключается в построении последовательности очень простых деревьев, в которой каждое последующее дерево строится для остатков прогноза предыдущего дерева. В процессе работы процедуры будут построены двоичные деревья, разделяющие данные на две выборки в каждой вершине ветвления. Представим теперь, что нам необходимо было ограничить сложность каждого дерева лишь тремя вершинами (в действительности, сложность деревьев может быть задана пользователем): корень и две дочерние вершины - образуют ветвление. На каждом шаге работы алгоритма построения растущих деревьев определяется наилучшее простое разбиение данных, вычисляется отклонение наблюдаемых значений от ожидаемых средних (остатки для каждого разбиения). Следующее трехвершинное дерево строится по этим остаткам так, чтобы новое разбиение уменьшало остаточную (ошибочную) изменчивость данных, исходя из уже построенной последовательности деревьев.

Можно показать, что такиое "адитивное взвешенное разложение" деревьев может в конечном итоге дать отличную подгонку прогноза к наблюдаемым значениям, даже в случаях, когда связь между предикторами и зависимой переменной имеет весьма сложную природу (сильно нелинейна). Таким образом, метод градиентных растущих деревьев - подгонка взвешенного аддитивного разложения в простые деревья - предоставляет общий и мощный алгоритм Машинного Обучения.

В начало



Проблема переподгонки. Стахостические градиентные растущие деревья

Одна из главных проблем процедур машинного обучения - "узнать, когда остановиться", т.е. проблема подгонки модели к скрытым особенностям учебной выборки, влияние которых жожет плохо сказаться на достоверности прогноза. Это явление известно еще как проблема переподгонки. Повторим, что эта проблема возникает в процессе работы практически всех алгоритмов машинного обучения предсказательного data mining (предсказательной добычи данных).

В модулях МАР-Сплайны и Нейронные Сети применяется общий метод решения этой проблеммы - определение качества подгонки по тестовой выборке, наблюдения которой не использовались при оценке модели. Таким образом, можно одновременно измерить точность прогноза в полученном решении и выявить случаи переподгонки модели (или отследить начало процесса).

Решение, реализованное в STATISTICA Растущие деревья, основано на этом подходе. Прежде всего, каждое последующее простое дерево строится только по случайно сформированной подвыборкие данных, имеющихся на соответсвующем шаге работы процедуры. Другими словами, каждое последующее дерево строится по остаткам прогноза (всех предшествующих деревьев) независимо сформированной случайной выборки. Внесение таким образом определенной степени случайности в анализ служит весьма мощным средством предохранения от переподгонки (поскольку последующие деревья строятся по разным выборкам) и выработки модели (взвешенного аддитивного разложения в простые деревья), хорошо обобщаемой на новые наблюдения, т.е. дающей прогнозы с высокой степенью достоверности. Метод последовательных бустинговых вычислений над независимо формируемыми подвыборками.

По данному графику Вы можете достаточно быстро определить нахождение точки, в которой модель (состоящая из последовательных деревьев) начает переподгонять данные.

В начало



Все права на материалы электронного учебника принадлежат компании StatSoft