Устройство классификации html-страниц с предварительным выделением значимой части страницы и определением функционально-смыслового типа текста

 

Полезная модель относится к области вычислительной техники, в частности, к процессу классификации и категоризации HTML-страниц с возможностью получения оценки страницы на основе двух факторов классификации Синклера-Шарова, определяющих аудиторную и тематическую принадлежность текста и распространения полученной оценки за пределы устройства.

Техническим результатом является возможность классификации HTML-страниц, запрошенных через браузер, с предварительной обработкой, включающей выделение значимой части страницы и определение функционально-смыслового типа текста страницы, а также возможность распространения результатов классификации страниц в виде рекомендаций за пределы системы для формирования взвешенных оценок страниц.

Технический результат достигается за счет использования браузера как источника данных о HTML-странице, применения предварительной обработки кода страницы, и состава устройства, содержащего модуль 1 взаимодействия с браузером, модуль 2 принятия решений, модуль 3 классификации HTML-страниц, модуль 4 хранения информации о классифицированных Интернет-ресурсах и модуль 5 отправки рекомендаций.

6 ил.

Полезная модель относится к области вычислительной техники, в частности, к процессу классификации и категоризации отдельно взятых Интернет-страниц с возможностью отправки результатов классификации за пределы устройства с целью их накопления и корректировки, а также использования в процессе классификации накопленных данных.

Устройство предназначено для определения принадлежности текста отдельно взятой HTML-страницы (Hyper Text Markup Language, язык разметки гипертекста) к определенной категории с предварительной обработкой кода страницы для уменьшения объема текста, подвергающегося классификации. Обработка включает два этапа: выделение значимой части страницы и определение функционально-смыслового типа текста страницы. Таким образом, устройство обладает следующими свойствами:

- выделение значимой части страницы, позволяющее уменьшить объем анализируемого текста и улучшить показатели классификации;

- определение функционально-смыслового типа текста страницы для корректировки весовых коэффициентов частей речи, использующихся в процессе классификации;

- отправка результатов классификации за пределы устройства с целью их накопления для формирования взвешенной оценки страницы и/или Интернет-ресурса в целом;

- использование локальной базы данных классифицированных страниц и Интернет-ресурсов, полученной из внешних источников, для ускорения процесса классификации.

Известны устройства, осуществляющие анализ и классификацию HTML-страниц.

Система фильтрации контента (Патент США 0043839 М. кл. G06F 15/16, 17/30, H04L 9/32, 2009), состоящая из шлюза служб контента, устройства классификации контента и контент-сервера.

Недостатком данной системы является использование в составе устройства классификации контента баз данных, предоставляемых сторонними производителями, что приводит к избыточному хранению информации о классифицированных ресурсах в различных форматах и вызывает необходимость хранить карту соответствий категорий, определенных производителями баз данных, внутренним категориям устройства. Описанный недостаток негативно влияет на масштабируемость (расширяемость) системы и на качество классификации за счет совместного использования баз данных, полученных из различных источников.

Модель (Патент на полезную модель 77465 М.кл. G06F 12/00, 15/00, 2008) включает в себя модули селекции опорных адресов сайтов в базе данных сервера, идентификации адресов электронных документов в списке доступа, идентификации временных циклов выборки адресов из списка доступа, формирования сигналов управления выборкой записей базы данных сервера и модуль селекции доступа к электронным документам.

Существенным недостатком рассмотренной модели является полностью автоматическая (фиксированная) классификация электронных документов (Интернет-ресурсов) с возможностью классификации всего ресурса по процентному содержанию в нем документов определенной категории. Такой подход значительно ухудшает качество фильтрации ресурсов, содержащих документы различных категорий. Также, политика доступа к ресурсам (список доступа) является частью системы, что может негативно повлиять на масштабируемость (расширяемость) всего решения в целом.

Наиболее близким аналогом является система фильтрации веб-контента (Патент на изобретение 2446460 М.кл. G06F 21/20, 2012), включающая в себя блоки библиотеки идентификаторов веб-документов, анализа и перехвата запросов пользователя.

Недостатком данного аналога является использование собственных средств фильтрации веб-контента на рабочем компьютере пользователя в качестве одного из этапов процесса фильтрации только для повышения уровня надежности (снижения риска обхода системы), но не для улучшения показателей качества автоматической фильтрации за счет использования полученных в процессе автоматической фильтрации данных для корректировки оценки Интернет-ресурса. Такой подход может вызвать ложные срабатывания системы, как на запрет, так и на разрешение доступа к ресурсам, вследствие отсутствия в системе обратной связи для улучшения процесса автоматической фильтрации.

Задача моделирования-классификация отдельно взятой HTML-страницы с предварительным выделением значимой части и определением функционально-смыслового типа текста страницы с возможностью передавать результаты классификации за пределы устройства с целью их накопления, уточнения и реализации обратной связи для улучшения процесса классификации.

Поставленная цель достигается путем создания устройства классификации HTML-страниц, содержащего следующие модули:

- Модуль взаимодействия с браузером - осуществляет доступ к коду HTML-страницы, запрошенной пользователем, и ее метаданным, передает полученный код модулю принятия решения, получает от модуля принятия решения результат для отображения и передает его в браузер.

- Модуль принятия решения - принимает на вход код HTML-страницы и ее метаданные, на основе метаданных производит обращение к модулю хранения информации о классифицированных Интернет-ресурсах и при необходимости отправляет код страницы в модуль классификации HTML-страниц; также на основе действующей политики (настроек устройства) принимает решение для отправки модулю взаимодействия с браузером.

- Модуль классификации HTML-страниц - принимает на вход код HTML-страницы и ее метаданные, осуществляет предварительную обработку текста: выделение значимой части страницы и определение функционально-смыслового типа текста, на основе полученных данных производит классификацию страницы, возвращает результат классификации модулю принятия решения и передает его для распространения модулю отправки рекомендаций.

- Модуль хранения информации о классифицированных Интернет-ресурсах - содержит информацию об Интернет-ресурсах, прошедших классификацию, предоставляет доступ к этой информации модулю принятия решения.

- Модуль отправки рекомендаций - распространяет результаты классификации за пределы устройства, для формирования общего хранилища информации о классифицированных Интернет-ресурсах.

Работа устройства проиллюстрирована на следующих изображениях:

1. Фиг.1. Архитектура устройства классификации HTML-страниц

2. Фиг.2. Структура объекта, содержащего метаданные страницы

3. Фиг.3. Структура RDF-описания Интернет-ресурсов

4. Фиг.4. Алгоритм выделения значимой части страницы

5. Фиг.5. Алгоритм определения функционально-смыслового типа текста

6. Фиг.6. Алгоритм классификации HTML-страниц

Модуль 1 взаимодействия с браузером выполнен в виде вычислительного блока, реализующего прием данных от браузера, содержащих код страницы и метаданные, и передачу этих данных модулю 2 принятия решения для получения решения о разрешении или запрете отображения запрошенной страницы. Реализация интерфейса взаимодействия с браузером предполагает использование интерфейса программирования приложений (Application Programming Interface, API) браузера для получения кода запрошенной страницы и ее метаданных (фиг.1, вход 1). Извлеченная информация преобразуется в объект, передаваемый модулю 2 принятия решения (фиг.2). После получения от модуля 2 решения о разрешении или запрете отображения запрошенной страницы, браузеру чрез его API передается код страницы для отображения. Для обеспечения совместимости с различными браузерами, одно устройство может иметь несколько различных модулей 1 взаимодействия с браузером.

Модуль 2 принятия решения выполнен в виде вычислительного блока, осуществляющего прием от модуля 1 взаимодействия с браузером объекта, содержащего код страницы и ее метаданные (фиг.2), и передачу модулю 1 взаимодействия с браузером решения о разрешении или запрете отображения запрошенной страницы. После получения данных от модуля 1 взаимодействия с браузером модуль отправляет запрос характеристик страницы модулю 4 хранения информации о классифицированных Интернет-ресурсах и, если запись о странице существует в базе данных, получает от модуля 4 сообщение о характеристиках страницы в формате RDF/XML (Resource Description Framework, фреймворк описания ресурсов/eXtensible Markup Language, расширяемый язык разметки) (фиг.3). Каждое сообщение содержит URL (Uniform Resource Locator, единый указатель ресурсов) ресурса в поле Identifier, факторы Е3 (aims) и II (topic) классификации Синклера-Шарова в полях Type и Subject соответственно. Поле Creator для внутренних сообщений не заполняется. Если в базе данных отсутствует запись о запрошенной странице, модуль 2 отправляет объект, содержащий код страницы и ее метаданные (фиг.2), модулю 3 классификации HTML-страниц и в ответ получает сообщение о характеристиках страницы в формате RDF/XML (фиг.3) с пустым полем Creator. На основании полученного сообщения и действующей политики (настроек устройства) модуль 2 принимает решение о разрешении или запрете отображения запрошенной страницы и перенаправляет принятое решение в модуль 1 взаимодействия с браузером.

Модуль 3 классификации HTML-страниц выполнен в виде вычислительного блока, принимающего от модуля 2 принятия решения объект, содержащий код страницы и ее метаданные (фиг.2), осуществляющего процесс классификации HTML страницы с предварительным выделением значимой части страницы и определением функционально-смыслового типа текста и передающего результат классификации в модуль 2 принятия решения в виде RDF/XML-сообщения (фиг.3) с пустым полем Creator, а также в модуль 5 отправки рекомендаций для распространения результатов классификации за пределы устройства. Процесс классификации проходит в 3 этапа:

1. Выделение значимой части страницы

Алгоритм выделения значимой части страницы основан на одновременном анализе структурной и содержательной частей страницы. Под структурой страницы подразумевается иерархия узлов разметки страницы, а под содержательной частью - множество значений текстовых узлов страницы.

Алгоритм включает в себя следующую последовательность действий (фиг.4):

1. Формирование из исходного дерева узлов HTML-страницы трех массивов - массива элементов разметки страницы (имен тегов), массива текстовых узлов страницы, а также массива локальных ссылок (теги «а»), содержащего множество локальных URL.

2. Создание массива деревьев узлов HTML-страниц, запрошенных по адресам, содержащимся в массиве локальных URL (шаг 1).

3. Формирование двух массивов- элементов разметки и текстовых узлов - для каждого из деревьев узлов, полученных на шаге 2 (по аналогии с шагом 1).

4. Формирование двух массивов расстояний между соответствующими элементами массивов элементов разметки для каждого документа и массивов текстовых узлов для каждого документа. Расстояния рассчитываются на основе реализации алгоритма сравнения последовательностей (Sun Wu, Udi Manber, Gene Myers - An O (NP) Sequence Comparison Algorithm, 1989).

5. Определение значимой части страницы как пересечения элементов массивов расстояний, имеющих минимальные расстояния между структурными частями страницы и максимальные расстояния между текстовыми узлами страницы.

2. Определение функционально-смыслового типа текста

Алгоритм определения функционально-смыслового типа текста позволяет отнести текст к определенному функционально-смысловому типу текста (внутренняя классификация) и сформировать характеристики текста, определяющие состав слов, необходимых для классификации текста, и изменить весовые коэффициенты соответствующих частей речи. В качестве входных данных для алгоритма используется массив слов, полученный из значимой части текста страницы (п.1). В основу алгоритма положено утверждение о соответствии между коэффициентом лексического разнообразия текста и его функциональным стилем (Ягунова Е.В. - Набор опорных слов как вид свертки текста (в сопоставлении с набором ключевых слов), М.: РГГУ, 2008).

Алгоритм включает в себя следующую последовательность действий (фиг.5):

1. Создание из массива слов массива идентификаторов соответствующих словоформ после выполнения морфологического анализа слов.

2. Определение коэффициента лексического разнообразия путем получения вектора частотной характеристики словоформ в массиве идентификаторов словоформ посредством частотного анализа с использованием словаря словоформ.

3. Определение функционально-смыслового типа текста при помощи нейросетевого классификатора. На вход сети подается полученный на 2-м шаге вектор частотной характеристики словоформ. Полученный на выходе функционально-смысловой тип текста определяет весовые коэффициенты для частей речи, использующиеся при частотном анализе массива нормализованных слов, при выполнении нейросетевой классификации текста (п.3).

3. Нейросетевая классификация текста

Алгоритм использует результаты процесса выделения значимой части страницы (п.1) и анализа текста на предмет определения функционально-смыслового типа речи (п.2) и, учитывая внесенные поправки в характеристики исходного текста, оценивает текст по двум факторам классификации Синклера-Шарова, определяющим аудиторную и тематическую принадлежность текста.

Алгоритм включает в себя следующую последовательность действий (фиг.6):

1. Разбивка текста значимой части страницы по словам. Текстовое представление страницы (одна строка без деления на абзацы и разделы) преобразуется в массив слов без использования знаков препинания и не включающий стоп-слова.

2. Определение функционально-смыслового типа речи. На этом шаге по описанному в п.3 алгоритму определяется один из функционально-смысловых типов речи. На основе определенного типа распределяются весовые коэффициенты частей речи для нормализации вектора частотной характеристики, получаемого на шаге 4.

3. Нормализация слов в предложениях. Подразумевает приведение имен существительных к форме единственного числа именительного падежа, прилагательных - к форме единственного числа мужского рода, глаголов - к неопределенной форме. Остальные части речи исключаются из рассмотрения. Данный этап дает возможность использовать системный словарь для вычисления частотных характеристик текста на шаге 4.

4. Частотный анализ с учетом определенного на шаге 2 функционально-смыслового типа речи. На этом шаге вычисляются частоты вхождения содержащихся в системном словаре слов в анализируемый (входной) текст. Полученные частотные характеристики нормализуются с учетом весов частей речи (шаг 2).

5. Классификация текста проводится при помощи нейросетевого классификатора. На вход сети подается полученный на 4-ом шаге вектор частотной характеристики. Для классификации текста используются два фактора классификации Синклера-Шарова - Е3 (aims), в аспекте, определяющем влияние текста на аудиторию, и фактор II (topic), определяющий принадлежность текста к какой-либо предметной области.

Модуль 4 хранения информации о классифицированных Интернет-ресурсах выполнен в виде вычислительного блока, принимающего от модуля 2 принятия решения запросы о содержании в базе данных записи об определенной странице, и, в случае наличия данных о запрошенной странице, возвращает модулю 2 RDF/XML-сообщение (фиг.3) с пустым полем Creator. Также модуль может осуществлять прием информации об Интернет-ресурсах от внешних источников по НТТР(S)-запросу (HyperText Transfer Protocol, протокол передачи гипертекста) (фиг.1, вход 2) в виде RDF/XML-описания Интернет-ресурса (фиг.3) с пустым полем Creator для пополнения и обновления локальной базы данных.

Модуль 5 отправки рекомендаций выполнен в виде вычислительного блока, реализующего прием от модуля 3 классификации HTML-страниц RDF/XML-сообщения, содержащего описание классифицированной HTML-страницы (фиг.3). Поле Creator заполняется идентификатором классификатора. Сформированное сообщение отправляется за пределы устройства по протоколу HTTP(S) (фиг.1, выход 3) для дальнейшего накопления рекомендаций и вычисления взвешенной оценки HTML-страницы.

Устройство классификации HTML-страниц с предварительным выделением значимой части страницы и определением функционально-смыслового типа текста, включающее модуль взаимодействия с браузером, реализующий следующие функции: прием данных о HTML-странице на первый вход устройства, передача полученных данных для дальнейшей обработки модулю принятия решения; модуль принятия решения, реализующий следующие функции: прием объекта, содержащего код и метаданные HTML-страницы от модуля взаимодействия с браузером, запрос сохраненной информации о странице в модуле хранения информации о классифицированных Интернет-ресурсах, при отсутствии сохраненной информации о странице - передача запроса на классификацию модулю классификации HTML-страниц в виде объекта, содержащего код и метаданные HTML-страницы; модуль классификации HTML-страниц, реализующий следующие функции: прием от модуля принятия решения запроса на классификацию страницы, осуществление трехэтапного процесса классификации, включающего: 1) выделение из кода страницы значимой части, 2) определение функционально-смыслового типа текста значимой части страницы, 3) нейросетевую классификацию значимой части страницы с учетом определенного функционально-смыслового типа текста, передача результатов классификации в модуль принятия решения и в модуль отправки рекомендаций в виде RDF/XML описания страницы; модуль хранения информации о классифицированных Интернет-ресурсах, реализующий следующие функции: прием информации о классифицированных ресурсах от внешнего источника, обработка запросов блока принятия решения о принадлежности страницы к определенной категории; модуль отправки рекомендаций, реализующий следующие функции: прием результатов классификации страницы от модуля классификации HTML-страниц, отправка результатов классификации в виде рекомендации за пределы устройства.



 

Похожие патенты:

Полезная модель относится к области вычислительной техники, в частности, к процессу классификации и категоризации Интернет-ресурсов с возможностью получения результирующей оценки ресурса, накопления и распространения информации о ресурсах в открытом формате
Наверх