Регрессионный анализ алгоритма ранжирования результатов текстового поиска в базах данных систем геомониторинга с помощью нейронных сетей
Актуальность исследования обусловлена необходимостью изучения поведения алгоритмов текстового ранжирования. Практическую ценность исследование представляет для разработчиков поисковых систем, в том числе при решении задач распознавания и адаптивной классификации объектов по данным спутниковых систем геомониторинга. Цель исследования: изучение нейросетевой модели алгоритма ранжирования текстовых документов в базах данных систем геомониторинга, построенной на основе использования сети Кохонена, многослойных персептронов и метода кластеризации k-means. Методы исследования: программная реализация и тестирование нейросетевых алгоритмов ранжирования путем сравнения результатов их работы с результатами классического алгоритма ранжирования OkapiBm25. Результаты исследования. Предложен алгоритм идентификации систем текстового поиска в базах данных систем геомониторинга, построенный на основе нейросетевых моделей обработки данных и включающий факторный и регрессионный анализ данных. Факторный анализ включает кластеризацию данных на основе использования сети Кохонена. Для упрощения обучения разработан алгоритм факторного анализа, исключающий малозначимые для ранжирования характеристики. Результатом работы моделей является набор значимых при ранжировании характеристик и их оптимальные значения. Для проведения регрессионного анализа предлагается использовать одну из двух нейросетевых моделей: на основе гибридной нейронной сети или на основе комплекса многослойных персептронов. Выбор модели регрессионного анализа осуществляется на основе результатов кластерного и факторного анализа. В случае выделения большого числа кластеров входных векторов предпочтительнее использование модели на основе гибридной нейронной сети. В случае слабых пересечений наборов значимых характеристик между кластерами предпочтительнее использование модели на основе комплекса многослойных персептронов. Результаты тестирования алгоритма показывают успешное обучение моделей и низкие значения ошибок обучения и тестирования. Предложенные модели апробированы на тестовых данных алгоритма семейства OkapiBm25, и выявлены особенности их применения в зависимости от характеристик входных данных.
Ключевые слова:
базы данных, геомониторинг, алгоритмы, текстовое ранжирование, регрессионный анализ, факторный анализ, классификация, кластеризация, нейронные сети, сеть Кохонена, персептроны
Авторы:
Михаил Сергеевич Тарков
Оюна Алексеевна Кожушко
Скачать bulletin_tpu-2015-326-7-04.pdf