Электронный учебник Statsoft


Text Mining



Задача Текстовой добычи заключается в предоставлении мощных средств обработки неупорядоченной (текстовой) информации, выделении значимых числовых показателей из текста и формировании данных, которые доступны многочисленным алгоритмам добычи данных. Информация может быть выделена для получения сводного отчета на основе слов, содержащихся в документе, или для вычисления некоторых показателей документа, основанного на соответствующих словах. Также вы можете анализировать слова, кластеры из нескольких слов, отдельные документы, или выявляться сходные свойства и связи между документами и другими переменными в общем проекте.

В любом случае средства и опции преобразовывают "текст в числа", которые затем можно объединить в других анализах, таких как предсказывающая добыча данных, приложения неконтролируемых методов обучения (кластеризации) и т.д.

Некоторые стандартные приложения Текстовой добычи

Неупорядоченный текст встречается очень часто, и, в действительности, может представлять большую часть информации, доступную в некоторых исследования или проектах.

Анализ неокончательных откликов исследования. При проведении исследования (например, в задачах маркетинга) перед аналитиком обычно стоят различных неокончательные вопросы соответствующей тематики. Главная идея заключается в том, чтобы разрешить выражать респондентам собственные "взгляды" или мнения, не ограничивая их заданными условиями. Это вероятно позволит узнать точные позиции покупателей, которые были бы неизвестны при использовании структурированных анкет. Например, вы можете выявить некоторый набор слов или терминов, которые обычно используют респонденты при описании продукта или услуги.

Автоматическая обработка сообщений, почты и т.д. Другим стандартным приложение текстовой добычи является автоматическая классификация текстов. Например, возможно автоматически "фильтровать" большую часть нежелательной "корреспонденции", используя некоторые термины или слова, которые не встречаются в нормальных сообщениях, а определяют нежелательную почту. Таким образом, подобные сообщения можно автоматически удалять. Подобные автоматические системы классификации электронных сообщений можно также использовать для автоматической сортировки почты. Например, письма, приходящие на корпоративный почтовый ящик, можно легко перенаправить в соответствующие отделы.

В начало


 

Методы Текстовой добычи

Методы текстовой добычи - автоматическая обработка текстовой информации - можно представить как "оцифровку" текста. В самом простом случае, программа проиндексирует все слова, найденные в исходных документах, чтобы создать таблицу документов и слова, т.е. матрицу частот, в которой отображается число раз появления каждого слова в каждом документе. Далее можно попытаться исключить некоторые общие слова, такие как "the" и "a" (стоп-слова), а также учитывать различные грамматические формы одного и того же слова, например "traveling," "traveled," "travel,". Таким образом, после создания таблицы отдельных слов (терминов) для каждого документа, можно применять все стандартные статистические процедуры и процедуры добычи данных для выявления отдельных измерений или кластеров в общем наборе слов и документов.

Использование проверенных методов и анализ результатов текстовой добычи. После построения матрицы данных на основе исходных документов, Текстовая добыча предоставляет богатый набор аналитических средств обработки этих данных. Важная деталь заключается в понимании "философии" Текстовой добычи - использовать понятные и известные методы для выделения полезной информации из данных. Другими словами, мы рекомендуем использовать стандартные и хорошо известные алгоритмы и методы кластеризации, факторного анализа, а также предсказывающей добычи данных (см., например, Manning and Schütze, 2002).

Работа с текстовой добычей в терминах "черного ящика". Методы, внедренные в модуле Текстовая добыча, отличаются от других коммерческих методов для текстовой добычи, поскольку используют более эффективные алгоритмы, позволяющие автоматически анализировать большое количество текстовых документов. Несмотря на то, что существует множество различных алгоритмов выделения "значимой информации из документов", используемая технология обладает существенными преимуществами, позволяющими автоматически обрабатывать множество документов. Идея заключается в следующем: Текстовая добыча предоставляет набор определенных алгоритмов и хорошо понятных аналитических технологий, которые позволяют аналитикам выделять значимую информацию, содержащуюся в тексте. Производители других приложений текстовой добычи представляют все методы рассматриваемого анализа в виде "черного ящика", что позволяет обрабатывать документы с минимальными человеческими усилиями. Мы относимся к данному подходу с большим скептицизмом, поскольку 1) если работа алгоритма не понятна пользователю, то становится невозможно четко интерпретировать результаты работы алгоритмов, и 2) используемые методы не доступны специалистам для специального изучения. В заключении рассмотрим конкретный пример: попробуйте поработать с различными системами автоматического перевода, доступные в Интернет, которые могут переводить достаточно большие куски текста. Затем самостоятельно переведите тот же текст. Почти всегда текст, переведенный автоматически, будет хуже (с литературной точки зрения), чем текст, который вы переводили самостоятельно.

Текстовая добыча в качестве поиска в документах. Существует еще одно приложение рассматриваемых методов, называемых "текстовая добыча" - автоматический поиск в большом количестве документов по заданным словам или фразам. Данная функция обычно применяется в поисковых системах в Интернет для поиска требуемой информации на веб-страницах.

В начало


 

Результат "оцифровки" текста

Несмотря на то, что стандартные методы, внедренные в Текстовую добычу, являются достаточно мощными, существует несколько опций, позволяющие увеличить производительность Анализа.

Индексирование документов; типы исходных документов. Основной алгоритм, внедренный в модуле Текстовая добыча, позволяет осуществлять поиск в документах, содержащих текст, а также индексировать слова, найденные в этих документах. Поддерживаются различные форматы исходных файлов, включая документы MS Word® , RTF, PDF (Acrobat Reader®), PS (PostScript®), htm, html, XML и текстовые файлы. Вы можете также определить переменную в исходной Таблице, содержащую реальный текст.

База данных слов (терминов; создание индексов. Индексирование документов может занимать достаточно много времени, поэтому Текстовая добыча использует продвинутые технологии для создания файлов базы данных, содержащей индексы слов и документов. Эту базу данных можно сохранить для дальнейшего использования, например, чтоюы добавить в нее документы или текст, или чтобы сохранить в ней итоговую информацию. Новые документы можно легко обработаны автоматически и добавить в базу данных. Это позволяет вам создавать такие приложения, в которых информация, полученная из обучающего множества документов, может использоваться для анализа новых документов и проведения вычислений в предсказывающей добычи данных.

Исключение определенных символов, коротких слов, чисел и т.п. Перед началом индексирования исходных документов необходимо настроить несколько опций, с помощью которых можно задать точные параметры Анализа. Во-первых, можно исключить определенные цифры, символы. Можно определить разрешенные слова, начинающиеся с заданной буквы. Вы также можете исключить слова, которые короче или длиннее фиксированного предела, или исключить "редкие слова", ограничив минимальный процент появления слова в документах.

Списки включения и исключения (стоп-слова). Кроме того, вы можете определить список индексируемых слов. Этот список будет использоваться при поиске отдельных слов и классификации исходных документов на основе частот появляющихся слов. Также вы можете определить "стоп-слова", то есть термины, которые будут исключены из индексирования. Например, можно в список стоп-слов можно включить слова "the", "a", "of", "since", т.е. слова, которые используются очень часто и несут в себе мало значимой информации.

Синонимы и фразы. Вы можете объединять синонимы одного понятия в одно слово. Например, выражение "Microsoft Windows" можно рассматривать как одну фразу, поскольку, например, одно слово "Windows" обозначает несколько различных понятий.

Алгоритмы морфологического анализа. Важным этапом предварительной обработки исходных документов до начала индексирования является морфологический анализ. Морфологический анализ обозначает выделение корней у слов. После этого слова с одинаковыми корнями рассматриваются в качестве одного слова. Например, слова "traveling" и "traveled" будут распознаны программой как одно слово.

Поддержка различных языков. Конечно, морфологический анализ сильно зависит от используемого языка.

В начало


 

Преобразование частот слов

После того, как исходные документы проиндексированы и вычислены начальные частоты слов, вы можете использовать несколько дополнительных преобразований для получения дополнительной агрегированной информации.

Лог-частоты. Во-первых, к исходным частотам можно применить различные преобразования. Частота исходного слова или терминах обычно отражает важность слова в каждом документе. В частности, чем чаще слово встречается в документе, тем лучше оно отражает его содержание. Однако, нельзя предполагать, что сами индексы частоты слов пропорциональны важности соответствующего слова. Например, если слово встретилось 1 раз в документе А, а 3 раза в документе В, то нельзя сказать, что это слово в 3 раза важней для документа В, чем для документа А. Поэтому для каждого слова вычисляют преобразованную частоту (wf):

f(wf) = 1+ log(wf), для wf > 0

Это преобразование "уменьшит" абсолютные значения исходных частот и их влияние на последовательные вычисления.

Двоичные частоты. Аналогично предыдущему преобразованию, можно использовать следующее::

f(wf) = 1, если wf > 0

В итоговой матрице документов/слов будут содержаться только значения 1 и 0, показывающие наличие или отсутствие соответствующих слов. Это преобразование также уменьшает значение исходных частот при последовательных вычислениях и анализах.

Обратные частоты документов. Кроме того, вы можете захотеть использовать в следующих Анализах относительные частоты документов (df) различных словo. Например, термин "guess" может часто встречаться во всех документах, а термин "software" - только в некоторых. Причина этого может заключаться в том, что слово "guesses" используется в различных контекстах, а слово "software" обозначает только одно понятие. Часто используется общее преобразование, которое позволяет отразить специфические особенности слов (частоты документов), а также общие их частоты (частоты слов). Такое преобразование называется обратной частотой документа (для i-ого слова и j-ого документа):

В этой формуле (см. также формулу 15.5 в Manning and Schьtze, 2002), N - это общее число документов, а dfi - это частота документов для i'ого слова (число документов, в котором встречается это слово). Следовательно, можно сделать вывод о том, что эта формула содержит уменьшенную частоту слова с помощью логарифмической функции, а также содержит взвешивающий фактор, который равен 0, если слово появилось во всех документах log(N/N=1)=0), и равен максимальному значению, если слово появилось только в одном документе (log(N/1)=log(N)). Это позволяет легко увидеть, как это преобразование создает индексы, которые отражают относительную частоту слов, а также их семантический смысл в документах.

Замечание: В этой формуле используется натуральное основание логарифма.

В начало


 

Индексация латентной семантики с помощью декомпозиции сингулярного значения

Как сказано выше, основные результаты начального индексирования слов, найденных в исходных документах, сосредоточены в таблице частот, т.е. числа в этой таблице обозначают количество появлений соответствующих слов в каждом исходном документе. Обычно, эти частоты преобразуют в другие величины, которые лучше отражают относительную "важность" слов и/или их семантический смысл в исходных документах. Обычно используются стандартные параметры Текстовой добычи. Например, общее число выделяемых слов равно 500.

Общее аналитическое средство для интерпретации "значения" или "семантического пространства", описываемого выделенными словами, позволяет создавать структуры слов и документов в общем пространстве, а также вычислять частоты слов или преобразованные частоты слов. Далее рассмотрим основные принципы этого алгоритма.

Предположим вы исследуете отзывы клиентов о новых автомобилях (различных марок и моделей). Допустим, вы обнаружили, что каждый отчет содержит термин "расход топлива", а также слово "экономия." Аналогично, вместе со словом "надежность" встречается слово "дефекты" (или фраза "нет дефектов"). Однако, между словами "экономия" и "надежность" нельзя выявить какой-нибудь связи, т.е. в некоторых документах встречаются оба слова, а в некоторых - по отдельности. Другими словами, четыре слова "расход топлива", "экономия", "надежность" и "дефекты" описывают два независимых измерения - первое связано со стоимостью автомобиля, а второе - с качеством. Идея индексации латентной семантики заключается в определении подобных скрытых измерений в пространстве выделенных слов и документов. В результате, мы сможем определить скрытые (латентные) понятия, описывающие исходные документы. Следовательно, мы сможем выделить слова, термины и исходные документы в общем латентном семантическом пространстве.

Декомпозиция сингулярного значения. Использование декомпозиции сингулярного значения для выделения общего пространства переменных и наблюдений заключается в использовании различных статистических методов, в большей части представленных в модуле Анализ соответствий. Эти методы тесно связаны с модулем Факторный анализ. В общем, задача этого метода заключается в уменьшении общей размерности исходной матрицы (число исходных документов х число выделенных слов), где каждое соответствующее измерение представляет наибольшую степень изменчивости. В идеальном случае, вы сможете выделить два или три наиболее важных измерения, имеющих наибольшую изменчивость между словами и документами. Следовательно, вы сможете определить латентное семантическое пространство, которое упорядочивает слова и документы в Анализе.

Текстовая добыча использует эффективный алгоритм декомпозиции сингулярного значения, который позволяет обрабатывать очень большие исходные матрицы.

В начало


 


Все права на материалы электронного учебника принадлежат компании StatSoft