post_parent): $temp_content = $post->post_content; $temp_content = explode("

",$temp_content); $temp_content = $temp_content[1]; $temp_content = explode("

",$temp_content); $temp_content = $temp_content[0]; $temp_content = strip_tags($temp_content); $temp_content = trim($temp_content); $authors = explode(",",$temp_content); ?> post_title));?>"> $value): ?> "> "> "> post_content); while ($parser->parse()) { if (($parser->iNodeName=="a")&&(substr_count($parser->iNodeAttributes['href'],".pdf")>0)): ?>

Кластеризация документов на основе статистической близости термов

Амонс О.А., Янов Ю.О., Безпалий І.О.

В статье описан подход к кластеризации коллекции документов с неизвестным заранее количеством кластеров. В основу подхода положен метод, основанный на статистике появления ключевых термов. Предложена модификация метода нахождения матрицы сходства на основе сходства косинуса. Для анализа качества и нахождения предельных значений алгоритма использована модификация функции конкурентного сходства. Подход реализован в виде приложения сервера SmartBase. Приведены результаты экспериментальных исследований предложенного подхода к кластеризации информации с использованием часто применяемого текстового корпуса подтверждают работоспособность предложенных решений.

Загрузить (pdf)