Кластеризация документов на основе статистической близости термов

Амонс О.А., Янов Ю.О., Безпалий І.О.

В статье описан подход к кластеризации коллекции документов с неизвестным заранее количеством кластеров. В основу подхода положен метод, основанный на статистике появления ключевых термов. Предложена модификация метода нахождения матрицы сходства на основе сходства косинуса. Для анализа качества и нахождения предельных значений алгоритма использована модификация функции конкурентного сходства. Подход реализован в виде приложения сервера SmartBase. Приведены результаты экспериментальных исследований предложенного подхода к кластеризации информации с использованием часто применяемого текстового корпуса подтверждают работоспособность предложенных решений.

Загрузить (pdf)