Электронный учебник Statsoft


Машинное обучение (Machine Learning)



Вводный обзор

Машинное обучение (Machine Learning) включает в себя ряд углубленных статистических методов для решения задач регрессии и классификации с множественными зависимыми и независимыми переменными.
Эти методы включают в себя метод опорных векторов (Support Vector Machines, SVM) для классификации и регрессии, метод Байеса для классификации, и метод k-Ближайших Соседей (k-Nearest Neighbours, KNN) для регрессии и классификации.
Подробное обсуждение этих методов можно найти в Hastie, Tibshirani и Freedman (2001); специализированное всеобъемлющее введение в метод опорных векторов также можно найти в Cristianini и Shawe-Taylor (2000).

В начало

 


Метод опорных векторов (Support Vector Machines)

Данный метод решает задачи классификации и регрессии путем построения нелинейной плоскости, разделяющей решения.
Благодаря особенностям природы пространства признаков, в котором строятся границы решения, метод опорных векторов обладает высокой степенью гибкости при решении задач регрессии и классификации различного уровня сложности.
Существует различные типы SVM моделей: линейные, полиномиальные, RBF (радиальные базисные функции), и сигмовидные.

Вводный обзор
Метод опорных векторов (Support Vector Machines, SVM) основан на концепции гиперплоскостей, которые определяют границы гиперповерхностей.
Разделяющая гиперплоскость – это гиперплоскость, которая отделяет группу объектов, имеющих различную классовую принадлежность.
Примерная схема показана на рисунке ниже.



В этом примере объекты относятся либо к классу ЗЕЛЕНОГО, либо КРАСНОГО цвета.
Разделительная линия определяет границы, с правой стороны которой все объекты ЗЕЛЕНЫЕ, а с левой стороны – КРАСНЫЕ.
Любой новый объект (белый кружок), попадающий справа, классифицируется как ЗЕЛЕНЫЙ (или КРАСНЫЙ, если он попадает слева от разделительной линии).
Выше приведен классический пример линейного классификатора, т.е. классификатора, который разделяет множество объектов на соответствующие группы (в данном случае ЗЕЛЕНУЮ и КРАСНУЮ) с помощью линии.
Большая часть задач классификации, однако, не такая простая, и зачастую необходимы более сложные структуры для того, чтобы сделать оптимальное разделение, т.е., правильно классифицировать новые объекты (тестовая выборка) на основе доступных данных (обучающая выборка).
Эта ситуация изображена на рисунке ниже.



По сравнению с предыдущей схемой, очевидно, что полное разделение зеленых и красных объектов потребует кривой (которая является более сложной, чем линия).
Классификация задач, основанных на привлечении разделительных линий для сортировки объектов различных классов, известна как гиперплоскость классификаторов.
Метод Опорных векторов особенно подходит для работы с такими задачами.
На рисунке ниже показана основная идея опорных векторов.



Здесь мы видим отображение исходных объектов (в левой части схемы), т. е. перегруппировку, использующую набор математических функций, известных как ядра.
Процесс перестановки объектов известен как отображение (преобразование).
Отметим, что в этой новой обстановке отображение объектов (правая часть схемы) является линейно разделимым и, таким образом, вместо построения сложной кривой (слева на схеме) все, что мы должны сделать, это найти оптимальную линию, которая может отделить объекты ЗЕЛЕНОГО и КРАСНОГО цвета.
Метод опорных векторов (SVM), прежде всего, отличный метод, который решает задачи классификации с помощью построения гиперплоскостей в многомерном пространстве.
SVM поддерживает как регрессионный анализ, так и задачи классификации, и может работать с несколькими непрерывными и категориальными переменными.
Для категориальных переменных создается биномиальная переменная со значениями 0 или 1.
Например, категориальная зависимая переменная, состоящая из трех уровней, скажем, (A, B, C), представляет собой набор из трех бинарных переменных:
A: {1 0 0}, B: {0 1 0}, C: {0 0 1}

В начало

 

Технические примечания

Для построения оптимальной гиперплоскости, SVM прибегает к итерационному алгоритму обучения, использующемуся для минимизации функции ошибок.
В зависимости от вида функции ошибки, SVM модели можно разделить на четыре группы:

Ниже приводится краткое описание каждой модели.
В начало

 

Классификация SVM

Классификация SVM типа 1
Для этого типа SVM обучение включает в себя минимизацию функции ошибки:

при ограничениях:


где С – выбираемая константа, W – вектор коэффициентов,b – константа,   - параметры для обработки неразделимых данных (входов).
Индекс iобозначает N процедуры обучения.
Обратите внимание, что обозначает классовую принадлежность, а xi является независимой переменной.
Ядро используется для преобразования данных из входных (независимых) в пространство признаков.
Следует отметить, что чем больше C, тем больше ошибка.
Таким образом, C следует выбирать с осторожностью, чтобы избежать чрезмерного сглаживания.

Классификация SVM типа 2
В отличие от классификации SVM типа 1, модель классификации SVM типа 2 минимизирует функцию ошибок.


в соответствии с ограничениями:

В начало

 

Регрессия SVM

В регрессионной SVM вы должны оценить функциональную зависимость зависимой переменной у на множестве независимых переменных х.
Это предполагает, что, как и в других задачах регрессии, отношения между независимыми и зависимыми переменными определяются детерминированной функцией f и добавлением некоторых аддитивных шумов:
y = f(x) + noise
Задача состоит в том, чтобы найти функциональную форму для f, которая может правильно предсказать новые значения.
Функциональная зависимость ищется путем обучения модели SVM на выборочной совокупности, т.е. обучающем множестве; этот процесс включает в себя как классификацию (см. выше), так и последовательную оптимизацию функции ошибки.
В зависимости от определения этой функции ошибок, могут быть использованы два типа SVM моделей.

Регрессия SVM Тип 1
Для этого типа SVM функция ошибок имеет вид:

Функция минимизируется при условии:


Регрессия SVM Тип 2
Для этой модели SVM, функция ошибки определяется по формуле:

Функция минимизируется при условии:

В начало

 

Функции ядра

Существует ряд ядер, которые могут быть использованы в моделях метода опорных векторов.
Они включают в себя линейные, полиномиальные, радиальные базисные функции (RBF) и сигмовидные.

RBF на сегодняшний день является наиболее популярным типом ядра, используемого в методе опорных векторов. Это происходит главным образом из-за его локализованных и конечных откликов по всему спектру действительной оси х.

В начало

 


Метод Байеса (Naive Bayes)

Байесовский метод сформулирован, прежде всего, для решения задач классификации.
Выдвигая строгие предположения (метод опирается на предположение о том, что независимые переменные статистически независимы), модели Байесовских процедур - эффективные инструменты классификации, удобные в использовании и легкие для интерпретации.
Байесовский метод особенно актуален для задач высокой размерности входного пространства, т.е. в случае задач с большим числом входных переменных. С этим тесно связана проблема «проклятия» размерности.
Байесовский метод часто превосходит по качеству другие более сложные методы классификации.
Существуют различные методы для моделирования условных распределений входных значений: нормального, логнормального, гамма-распределения и распределения Пуассона.

В начало

 


Метод k-Ближайших Соседей (k-Nearest Neighbours)

Метод k-Ближайших Соседей – метод, основанный на использовании памяти и, в отличие от других статистических методов, не нуждается в предварительном обучении (т.е., не подгоняет моделей).
Работа метода основана на интуитивном предположении о том, что близкорасположенные объекты, скорее всего, принадлежат одной категории.
Таким образом, прогнозы составляются на основе набора прототипных образцов, которые предсказывают новые (т.е. еще не наблюдаемые) значения, используя принцип "победа большинством голосов" для классификации и принцип усреднения для регрессионных задач по К ближайшим образцам (отсюда и название метода).

В начало

 


Все права на материалы электронного учебника принадлежат компании StatSoft