post_parent): $temp_content = $post->post_content; $temp_content = explode("

",$temp_content); $temp_content = $temp_content[1]; $temp_content = explode("

",$temp_content); $temp_content = $temp_content[0]; $temp_content = strip_tags($temp_content); $temp_content = trim($temp_content); $authors = explode(",",$temp_content); ?> post_title));?>"> $value): ?> "> "> "> post_content); while ($parser->parse()) { if (($parser->iNodeName=="a")&&(substr_count($parser->iNodeAttributes['href'],".pdf")>0)): ?>

Кластеризація документів на основі статистичної близькості термів

Амонс О.А., Янов Ю.О., Безпалий І.О.

У статті описано підхід до кластеризації колекції документів з невідомою наперед кількістю кластерів. В основу підходу покладено метод, оснований на статистиці появи ключових термів. Запропоновано модифікацію методу знаходження матриці подібності на основі схожості косинуса. Для аналізу якості й знаходження граничних значень алгоритму використана модифікація функції конкурентної подібності. Підхід реалізований у вигляді прикладного застосування сервера SmartBase. Наведені результати експериментальних досліджень запропонованого підходу до кластеризації інформації з використанням часто вживаного текстового корпусу підтверджують працездатність запропонованих рішень.

Завантажити (pdf)