Том 320 № 5 (2012): Управление, вычислительная техника и информатика

Классификация текстов на основе оценки семантической близости терминов

Рассматривается способ увеличения точности классификации текстов по алгоритму kNN путем применения оценки семантической близости на основе матрицы совместной встречаемости терминов. Предлагается метод уменьшения размера матрицы совместной встречаемости путем фильтрации терминов по частям речи. Выполнена проверка влияния метода фильтрации на точность классификации.

Ключевые слова:

классификация, тексты, классификаторы, k-Nearest Neighbor, kNN, семантическая близость, термины, части речи, фильтрация, матрицы, совместная встречаемость, размерность

Авторы:

  Нгуен Ба Нгок

Анатолий Федорович Тузовский

Скачать bulletin_tpu-2012-320-5-08.pdf

Для оптимальной работы сайта журнала и оптимизации его дизайна мы используем куки-файлы, а также сервис для сбора и статистического анализа данных о посещении Вами страниц сайта (Яндекс Метрика). Продолжая использовать сайт, Вы соглашаетесь на использование куки-файлов и указанного сервиса.