Кластеризация документов на основе статистической близости термов
Амонс О.Ф., Янов Ю.О., Безпалий І.О.
В статье описан подход к кластеризации коллекции документов с неизвестным заранее количеством кластеров. В основу подхода положен метод, основанный на статистике появления ключевых термов. Предложена модификация метода нахождения матрицы сходства на основе сходства косинуса. Для анализа качества и нахождения предельных значений алгоритма использована модификация функции конкурентного сходства. Подход реализован в виде прикладного применения сервера SmartBase. Приведены результаты экспериментальных исследований предложенного подхода к кластеризации информации с использованием часто применяемого текстового корпуса подтверждают работоспособность предложенных решений.
Загрузить (pdf)