Том 320 № 5 (2012): Управление, вычислительная техника и информатика

Классификация текстов на основе оценки семантической близости терминов

Рассматривается способ увеличения точности классификации текстов по алгоритму kNN путем применения оценки семантической близости на основе матрицы совместной встречаемости терминов. Предлагается метод уменьшения размера матрицы совместной встречаемости путем фильтрации терминов по частям речи. Выполнена проверка влияния метода фильтрации на точность классификации.

Ключевые слова:

классификация, тексты, классификаторы, k-Nearest Neighbor, kNN, семантическая близость, термины, части речи, фильтрация, матрицы, совместная встречаемость, размерность

Авторы:

  Нгуен Ба Нгок

Анатолий Федорович Тузовский

Скачать bulletin_tpu-2012-320-5-08.pdf