Электронный учебник Statsoft


Правила ассоциаций



Предварительный обзор

Цель метода, описанного в этом разделе – выявить отношения или связи между специфическими значениями категориальных переменных в больших базах данных. Это часто встречающаяся задача во многих проектах по добыче данных, а также их частном случае - добыче текста.Эти мощные исследовательские методы имеют множество приложений во многих областях бизнеса и исследований – начиная от анализа потребительских предпочтений или управления человеческим потенциалом и до истории языка. Они позволяют аналитикам и исследователям обнаружить скрытые связи в больших базах данных, такие как «покупатели, заказавшие товар A часто также заказывают B или C" или служащие, которые положительно отзываются о событии X часто жалуются по поводу Y, но абсолютно довольны по теме Z. Выполнение так называемого априорного алгоритма (см. Agrawal and Swami, 1993; Agrawal and Srikant, 1994; Han and Lakshmanan, 2001; see also Witten and Frank, 2000) в STATISTICA позволяет быстро обрабатывать большие базы данных для связей, основанных на предопределенных «отправных пунктах» значениях для исследования.

Как действуют связи. Полезность этого метода при решении нестандартных задач добычи данных лучше всего посмотреть на примере. Предположим, вы собираете данные с аппарата, регистрирующего наличные деньги в большом книжном магазине. Информация по каждому покупателю заносится в базу данных, она состоит из названий купленных книг, дополнительных названий магазина и других купленных товарах. Следовательно, каждая запись в базе данных представляет одного покупателя (транзакцию), и может состоять из одной купленной книги или множества (возможно сотен) различных пунктов, расположенных в произвольном порядке, в зависимости от последовательности их поступления и регистрации устройством. Цель аналитиков – найти связи между купленными товарами, т.е. выявить связи между названиями товаров и частотой их потребления. К примеру, вы хотите узнать, какую еще книгу захочет приобрести покупатель, уже купивший одну. Эта информация может быть быстро использована для предложения покупателю каких-то дополнительных наименований товаров. Вы хорошо знакомы с результатами этих анализов, если вы являетесь он-лайн покупателем; когда вы делаете он-лайн покупку, продавец предложит вам похожие наименования товаров в момент регистрации; это основывается на результате типа «покупатели, купившие книгу под названием A, вероятнее всего захотят приобрести книгу B, и так далее.

В начало

 


Категориальные переменные, переменные многомерного отклика, многомерные дихотомии

Правила связи в STATISTICA поддерживают все основные типы данных и форматов, в которых обычно записываются категории, объекты или протоколы (например, информация о покупке).

Переменные многомерного отклика. Переменные многомерного отклика обычно содержат многомерные переменные (точнее, список переменных) который может содержать, для каждого результата наблюдения отдельно, кодовые или текстовые значения, описывающие отдельное "измерение" или транзакцию. хороший пример использования переменных многомерного отклика: продавец зафиксировал покупку потребителя в отдельной записи, где каждая запись может содержать одно или более приобретений, причем в произвольном порядке. Это самый естественный формат данных для хранения информации о покупках потребителя. Более подробное описание этого формата данных см. в справке к системе STATISTICA.

Многомерные дихотомии. В этом формате данных каждая переменная представлена одним событием или категорией, и данные дихотомии в каждой переменной отражают так или иначе соответствующий объект или категорию, относящуюся к определенному наблюдению. К примеру, предположим что продавец создал таблицу данных, в которой каждый столбец содержит товары, которые можно купить. Каждая транзакция (ряд таблицы данных) будет записывать купил или нет соответствующий покупатель этот товар, т.е. задействована или нет соответствующая транзакция. Более подробное описание этого формата данных см. в справке к системе STATISTICA.

Первичная обработка данных: Поддержка. В первую очередь STATISTICA будет сканировать все переменные, чтобы определить уникальные кодовые или текстовые значения, найденные среди переменных для анализа. При этой первичной обработке соответствующая частота, с которой уникальные кодовые или текстовые значения встречаются в каждой транзакции, также будут вычислены. Возможность того, что транзакция содержит определенное кодовое или текстовое значение называется Поддержка; Поддержка также вычисляется при дальнейших последовательных обработках данных, как вероятность встречи (то, как часто встречается среди данных) двойных, тройных и т.д. кодовых или текстовых значениях (объектах), т.е. определяется отдельно для "Причины" и "Следствие" каждой связи.

Вторичная обработка данных: доверие, корреляция. После первичной обработки данных, все объекты, у которых значение поддержки меньше, чем некоторый определенный заранее минимум поддержки, будут сохранены в памяти для последующих обработок данных: особенностью является то, что STATISTICA будет вычислять условные вероятности для всех пар кодовых и текстовых значений, у которых значение поддержки больше, чем некоторый определенный минимум поддержки. Эта условная вероятность - результат, который содержит кодовое или текстовое значение X также содержит кодовое или текстовое значение Y - называется Доверие . В общем (при дальнейших обработках данных) доверие показывает условную вероятность "Причины" которую "Следствие".

В дополнение STATISTICA вычислит поддержку для каждой пары кодовых или текстовых значений и Корреляцию, основанную на поддержке. Значение корреляции для пары кодовых или текстовых значений {X, Y} вычисляется как поддержка этой пары, деленная на квадратный корень из величины поддержки X и Y. После второй обработки данных программа сохранит в памяти те пары кодовых или текстовых значений, которые: 1) имеют значение доверия, большее чем некоторый определенный пользователем минимум доверия; 2) имеют поддержку, большую чем некоторый опредленный пользователем минимум поддержки, и 3) имеют значение корреляции, большее чем некоторая минимальная корреляция.

Последующие обработки данных: максимальный размер объекта в "Причина", "Следствие". STATISTICA будет продолжать сканировать данные, вычисляя поддержку, доверие и корреляцию для двойных кодовых или текстовых значений (связи между единичными кодовыми или текстовыми значениями), тройных и т.д. При каждом повторении программа будет извлекать правила связи вида Если "Причина" то "Следствие" , где "Причина" и "Следствие" представлены кодовыми или текстовыми значениями (объектами), или комбинацией кодовых или текстовых значений (объектов).

Процесс будет продолжать до тех пор, пока еще могут быть найдены связи, удовлетворяющие минимуму значения поддержки, доверия и условия корреляции; процесс может продолжать выстраивать очень сложные правила связи (например, Если X1 и X2 .. и X20 то Y1 и Y2 ...и Y20). Чтобы избежать нежелательного усложнения, пользователь дополнительно может точно установить максимальное количество кодовых или текстовых значений (объектов) в правилах связи "Причина" и "Следствие";тогда это значение будет восприниматься как максимальный размер объекта в связи "Причина" и "Следствие".

В начало

 


Табличное представление связей

Основные статистики, вычисляемые для связей являются Поддержка (относительная частота условия "Причина" или "Следствие"), Доверие(условная вероятность"Причины", определяемой "Следствием"), и Корреляция (поддержка для "Причина" и "Следствие", деленная на квадратный корень из результата поддержки для "Причина" и поддержки для "Следствие"). Эти показатели можно свести в электронную таблицу, приведенную ниже.

Эта таблица результатов показывает, как связи могут быть применены к задаче добыче текста. Этот анализ был проведен для параграфов (диалог между двумя героями в пьесе) в первой сцене произведения Шекспира Все хорошо, что хорошо кончается, после перестановки нескольких часто употребляемых слов, таких как это, то и т.д.. Поддержка, значения доверия и корреляции выражены в процентах. Заметьте, что условия в результатах представленной таблицы были отсортированы по столбцу Корреляция, используя стандартные средства Данные - Сортировка прграммы STATISTICA.

В начало

 


Графическое представление связей

Приведем результаты анализа данных из примера Fastfood.sta. Опрашиваемые в исследовании указывали 3 их любимых фаст-фуд блюда. Правила связи, полученные исходя из этих данных, показаны на 2М графике связи.

Пункты, определяющие причины показаны на графике слева, а следствие - справа. Линии, которые соединяют причину со следствием, отображают правила связи.

Значения поддержки для "Причина" и "Следствие" для каждой связи отражаются в размере и цветах окружностей. Толщина каждой линии отражает доверительное значение (условную вероятность, которую для "Причина" определяет следствие) для соответствующей связи; размеры и цвета окружностей в центре, над надписью Implies отражают объединенную поддержку (для тех, что встретились) соответствующих компонентов "Причина" и "Следствие".

3М график связи.

Как и в 2М графике связи, поддержка для компонентов "Причина" и "Следствие" каждой связи отражены в размере и цветах окружностей в 2М плоскости. Толщина каждой линии отражает значение доверия (возможность объединения) для соответствующей связи; размеры и цвет "плавающих" окружностей , построенных напротив оси Z (вертикальной) указывают на соединение поддержки (для частоты повторений) соответствующих компонентов "Причина" и "Следствие" правил связи. Позиция начерченной окружности по отношению к вертикильной оси Z отражает соответствующее значение доверия. Следовательно, совершенно точно определенный и выраженный графически вывод позволяет сформулировать 2 правила: опрашиваемые, назвавшие Пицца, как самое их любимое, также назвали Гамбургер, и наоборот.

В начало

 



Все права на материалы электронного учебника принадлежат компании StatSoft