Устройство классификации интернет-ресурсов на основе результатов автоматической обработки текста и взвешенного мнения экспертов

 

Полезная модель относится к области вычислительной техники, в частности, к процессу классификации и категоризации Интернет-ресурсов с возможностью получения результирующей оценки ресурса, накопления и распространения информации о ресурсах в открытом формате.

Техническим результатом является возможность классификации Интернет-ресурсов по полученной рекомендации и в процессе взвешенной оценки экспертов, хранения и предоставления за пределы системы информации о классифицированных интернет-ресурсах, а также возможность автоматического изменения репутаций экспертов для улучшения качественных показателей классификации на основе опыта их участия в оценках интернет-ресурсов.

Технический результат достигается за счет применения механизма расчета и коррекции значений репутации экспертов для формирования взвешенной оценки интернет-ресурса и состава устройства, содержащего модуль 1 регистрации рекомендаций, модуль 2 расчета экспертного мнения, модуль 3 классификации интернет-ресурсов, модуль 4 хранения информации об интернет-ресурсах и модуль 5 расчета и хранения репутаций экспертов.

5 ил.

Полезная модель относится к области вычислительной техники, в частности, к процессу классификации и категоризации Интернет-ресурсов с возможностью получения результирующей оценки ресурса, накопления и распространения информации о ресурсах в открытом формате.

Устройство предназначено для создания базы данных Интернет-ресурсов, структурированных по категориям на основе принятого решения о принадлежности ресурса с использованием результатов автоматической обработки текста отдельно взятой страницы и взвешенного мнения экспертов, основанного на их репутации, с возможностью накопления, изменения и открытого распространения информации о ресурсах. Таким образом, устройство обладает следующими свойствами:

- оценка и классификация Интернет-ресурсов на основе автоматически определенной принадлежности ресурса к той или иной категории и взвешенного мнения экспертов, улучшающего показатели классификации;

- возможность оценки как ресурса в целом, так и отдельных страниц;

- накопление структурированной информации об оценках и принадлежности ресурсов к категориям с возможностью ее распространения средствами стандартных технологий (RDF, Resource Description Framework);

- непрерывное улучшение показателей классификации за счет изменения показателей репутации экспертов, участвующих в формировании общего мнения.

Известны устройства, осуществляющие анализ и классификацию Интернет-ресурсов.

Модель (Патент на полезную модель 77465 М. кл. G06F 12/00, 15/00, 2008) включает в себя модули селекции опорных адресов сайтов в базе данных сервера, идентификации адресов электронных документов в списке доступа, идентификации временных циклов выборки адресов из списка доступа, формирования сигналов управления выборкой записей базы данных сервера и модуль селекции доступа к электронным документам.

Существенным недостатком рассмотренной модели является полностью автоматическая (фиксированная) классификация электронных документов (Интернет-ресурсов) с возможностью классификации всего ресурса по процентному содержанию в нем документов определенной категории. Такой подход значительно ухудшает качество фильтрации ресурсов, содержащих документы различных категорий. Также, политика доступа к ресурсам (список доступа) является частью системы, что может негативно повлиять на масштабируемость (расширяемость) всего решения в целом.

Модель (Патент на полезную модель 105758 М. кл. G06F 17/00, H04N 21/454, 2010) состоит из модулей кэш-прокси-сервера, ядра, модулей принятия решений, классификации многотемных документов и модуля «робот» и позволяет классифицировать гипертекстовые вебстраницы с учетом содержащейся в них ссылочной информации на основе машинного обучения с дообучением.

Основным недостатком данной модели является способ принятия решения о принадлежности ресурса к определенной категории на основе решения дообучаемого классификатора, определяющего меру сходства документа с обучающим набором, а также с использованием ссылочной информации, содержащейся в документе, что может негативно сказаться на качестве классификации ресурсов, состоящих из документов различных категорий.

Наиболее близким аналогом является подсистема репутации (Патент США 0254499 М кл. G06F 15/18, 2009), состоящая из модуля управления репутациями и модуля ввода/вывода репутаций, реализующая механизм фильтрации контента на основе репутации ресурса.

Основным недостатком данного аналога является формирование оценки ресурса на основе полученных через модуль ввода/вывода недифференцированных значений без учета репутации источников, предоставляющих данные значения.

Задача моделирования - классификация Интернет-ресурсов на основе результатов автоматической обработки текста и взвешенного мнения экспертов, основанного на их репутации.

Поставленная цель достигается путем создания устройства классификации Интернет-ресурсов, содержащего следующие модули:

- Модуль регистрации рекомендаций - осуществляет прием результатов автоматического определения принадлежности ресурса к той или иной категории и передачу этой оценки модулю классификации Интернет-ресурсов.

- Модуль расчета экспертного мнения - принимает множество мнений экспертов, каждому мнению ставит в соответствие репутацию эксперта, полученную от модуля расчета и хранения репутаций экспертов и передает полученные значения модулю классификации интернет-ресурсов.

- Модуль классификации интернет-ресурсов - принимает на вход результат автоматической оценки интернет-ресурса от модуля регистрации рекомендаций и значения оценок и репутаций экспертов от модуля расчета экспертного мнения, осуществляет классификацию и расчет итоговой оценки интернет-ресурса, и передает полученные значения в модуль хранения информации об интернет-ресурсах и в модуль расчета и хранения репутаций экспертов для коррекции значения репутации экспертов, принявших участие в оценке данного интернет-ресурса.

- Модуль хранения информации об интернет-ресурсах - принимает и сохраняет полученные от модуля классификации Интернет-ресурсов оценки и обеспечивает возможность передачи этой информации за пределы системы.

- Модуль расчета и хранения репутаций экспертов - передает значения репутаций экспертов модулю расчета экспертного мнения и получает результаты классификации и оценки интернет-ресурса от модуля классификации интернет-ресурсов для корректировки значений репутаций экспертов.

Работа устройства проиллюстрирована на следующих изображениях:

1. Фиг.1. Архитектура системы классификации интернет-ресурсов

2. Фиг.2. Структура RDF-описания интернет-ресурсов

3. Фиг.3. Структура объекта, содержащего информацию об интернет-ресурсе

4. Фиг.4. Структура объекта, содержащего информацию об эксперте

5. Фиг.5. Структура объекта, содержащего информацию об оценке интернет-ресурса

Модуль 1 регистрации рекомендаций выполнен в виде вычислительного блока, реализующего прием и сохранение автоматически определенной принадлежности ресурса к определенной категории (рекомендации) для последующего уточнения этого значения с использованием взвешенных мнений экспертов. Прием значений осуществляется по протоколу HTTP(S) (Hypertext Transfer Protocol (Secure)) в виде RDF-описания ресурса (фиг.1, вход 1). Для описания ресурсов используется простой набор атрибутов стандарта Дублинское ядро (Dublin Core, ГОСТ Р 7.0.10-2010) и XML-нотация (extensible Markup Language) RDF (RDF/XML). При этом ключевая, с точки зрения системы, информация передается в узлах Identifier, Type и Subject (фиг.2). Узел Identifier содержит URL 3 (Uniform Resource Locator) ресурса. Узел Type определяет природу или жанр описываемого ресурса и содержит в данном случае характеристику Е3 (aims) текстовой части Интернет-ресурса по классификации Синклера-Шарова, описывающую влияние текста на аудиторию (значения данного элемента не входят во множество значений, описанных в словаре значений атрибута Type, и имеют дополнительный смысл). Узел Subject определяет тему содержимого ресурса при помощи характеристики I1 (topic) по классификации Синклера-Шарова, позволяющей определить принадлежность текста к какой-либо предметной области. Узел Creator в данном случае содержит идентификатор источника рекомендации. Значения узлов Creator, Identifier, Type и Subject в виде идентифицированного соответствующими значениями свойств объекта (фиг.3) передаются в модуль 3 классификации Интернет-ресурсов.

Модуль 2 расчета экспертного мнения выполнен в виде вычислительного блока, реализующего прием мнений экспертов, обращение к модулю 5 расчета и хранения репутаций экспертов для получения соответствующего значения репутации и передачу полученных значений модулю 3 классификации Интернет-ресурсов. Прием мнений экспертов осуществляется по протоколу HTTP(S) в формате RDF/XML (фиг.1, вход 2), аналогичном формату, принимаемому модулем 1 регистрации рекомендаций. Каждое сообщение содержит идентификатор эксперта в поле Creator, URL ресурса в поле Identifier, факторы Е3 (aims) и II (topic) классификации Синклера-Шарова в полях Type и Subject соответственно (фиг.2). Используя полученное значение идентификатора эксперта, модуль обращается с запросом значения репутации соответствующего эксперта к модулю 5 расчета и хранения репутаций экспертов. Из полученных значений формируется объект, свойства которого содержат значения идентификатора и репутации эксперта (в виде объекта, фиг.4), URL ресурса, факторы Е3 (aims) и II (topic) классификации Синклера-Шарова (фиг.3). Сформированный объект передается модулю 3 классификации Интернет-ресурсов.

Модуль 3 классификации интернет-ресурсов - центральный модуль системы - выполнен в виде вычислительного блока, реализующего совместный прием полученных от модулей 1 регистрации рекомендаций и 2 расчета экспертного мнения объектов, содержащих оценки определенного интернет-ресурса (по совпадающему значению URL), классификацию интернет-ресурса на основе полученных значений, передачу информации о классифицированном ресурсе модулю 4 хранения информации об интернет-ресурсах и информации о результате классификации модулю 5 расчета и хранения репутаций экспертов для коррекции значений репутации экспертов, принявших участие в оценке ресурса. Типичный сценарий работы модуля следующий. Полученные от модулей 1 регистрации рекомендаций и 2 расчета экспертного мнения значения факторов Е3 (aims) и I1 (topic) классификации Синклера-Шарова для каждого эксперта и для полученной рекомендации преобразуются в набор двоичных столбцов bE3 и b I1, в которых значение фактора, присвоенного определенным экспертом, равно 1, а остальные строки в столбце равны 0. Из множества репутаций экспертов ri, участвующих в оценке ресурса (участвуют m экспертов), рассчитывается суммарная репутация , где последняя единица является, по сути, репутацией рекомендации, полученной от модуля 1 регистрации рекомендаций. Итоговое мнение по каждому из факторов Е3 и I1 также представляет собой пару столбцов bE3 и bI1 и рассчитывается для каждого из значений по формуле , где R- суммарная репутация, bi- соответствующее значение из столбцов bI1 и bE3, определяющее значения факторов Е3 и I1, присвоенных ресурсу i-ым экспертом, и ri - репутация i-го эксперта. Процесс определения общего мнения считается завершенным, если в каждом из столбцов из пары bE3 и bI1 найдутся максимальные значения, большие либо равные величине сходимости мнения c 0(0<c01). Найденные значения заменяются единицами, все остальные значения - нулями. Из полученных столбцов bI1 и b E3 извлекаются значения характеристик Е3 и I1, на основе которых создается объект, аналогичный получаемому от модуля 1 регистрации рекомендаций, содержащий URL ресурса в поле Identifier, рассчитанные факторы Е3 и I1 в полях Type и Subject соответственно (фиг.3). Сформированный объект передается в модуль 4 хранения информации о веб-ресурсах. На основе рассчитанных значений Е3 и I1 строится объект, содержащий значения Е3 и I1, указанные для данного ресурса всеми экспертами, принимавшими участие в оценке, и рассчитанные итоговые значения (фиг.5). Полученный объект передается модулю 5 расчета и хранения репутаций экспертов для корректировки значения репутаций экспертов, принявших участие в оценке данного Интернет-ресурса.

Модуль 4 хранения информации об Интернет-ресурсах выполнен в виде вычислительного блока, принимающего от модуля 3 классификации Интернет-ресурсов результаты оценки определенного Интернет-ресурса в виде объекта, аналогичного объекту, передаваемому модулем 1 регистрации рекомендаций модулю 3 классификации Интернет-ресурсов (фиг.3). Модуль обеспечивает сохранение принятого объекта в базе данных с обеспечением возможности доступа к информации по значению URL. Модуль также может осуществлять передачу сохраненной информации об Интернет-ресурсах по внешнему НТТР(S)-запросу (фиг.1, выход 3) в виде RDF/XML описания Интернет-ресурса (фиг.2).

Модуль 5 расчета и хранения репутаций экспертов выполнен в виде вычислительного блока, предоставляющего модулю 2 расчета экспертного мнения значения репутаций экспертов и получающего от модуля 3 классификации Интернет-ресурсов объект, содержащий значения Е3 и I1 для каждого эксперта, принявшего участие в оценке Интернет-ресурса, для коррекции значений репутации экспертов. Для предоставления значений репутаций экспертов модулю 2 расчета экспертного мнения используется объект, передаваемый в модуль 5, в котором в соответствие идентификатору эксперта ставится значение его репутации, после чего объект возвращается модулю 2 (фиг.4). Для коррекции значений репутаций экспертов, после завершения процесса классификации Интернет-ресурса в модуле 3, модулю 5 передается объект, содержащий для каждого эксперта, участвовавшего в оценке ресурса, значения факторов Е3 и I1, определенные данным экспертом, а также рассчитанные модулем 3 в процессе классификации значения данных факторов (фиг.5). На основании полученных данных, модуль осуществляет перерасчет репутаций экспертов, участвовавших в оценке Интернет-ресурса следующим образом: для экспертов, чье мнение совпало с результирующим, новая репутация r определяется как , где r0 - текущее значение репутации эксперта, Rc - суммарная репутация экспертов, чье мнение совпало с результирующим, и R - суммарная репутация экспертов, принимавших участие в оценке ресурса; для экспертов, чье мнение не совпало с результирующим, новая репутация r определяется как . При этом репутация рекомендации, полученной от модуля 1 регистрации рекомендаций, учитывается при перерасчетах, но остается неизменной (равной 1). Обновленные значения репутаций экспертов сохраняются в базе данных.

Устройство классификации Интернет-ресурсов на основе результатов автоматической обработки текста и взвешенного мнения экспертов, включающее модуль регистрации рекомендаций, реализующий следующие функции: прием рекомендованной оценки интернет-ресурса на первый вход устройства, передача полученных данных для дальнейшей обработки модулю классификации интернет-ресурсов; модуль расчета экспертного мнения, обладающий следующим функционалом: прием мнения экспертов на второй вход устройства, передача полученных данных для расчета оценки модулю классификации Интернет-ресурсов; модуль классификации интернет-ресурсов, осуществляющий функцию определения принадлежности ресурса к определенной категории на основании взвешенной экспертной оценки; модуль хранения информации об интернет-ресурсах, реализующий следующие функции: сохранение данных об оцененных интернет-ресурсах, предоставление доступа к данным о классифицированных интернет-ресурсах на выход устройства; модуль расчета и хранения репутаций экспертов, обеспечивающий функцию коррекции значений репутации экспертов для повышения качества оценки интернет-ресурсов на основании опыта участия экспертов в процессе классификации.



 

Похожие патенты:

Изобретение относится к вычислительной технике, в частности, к электронно-моделирующему стенду для исследования параметров катастрофоустойчивости ГАС «Выборы»
Наверх