Интеллектуальная независимая система мониторинга и оценки качества научно-технических документов

 

Полезная модель относится к области вычислительной техники, в частности, к интеллектуальной системе, предназначенной для автоматизированного вычисления оценки качества научно-технических документов. Техническим результатом является вычисление оценки качества научно-технических документов, основанное на комбинированном подходе с использованием методов латентно-семантического анализа, машинного обучения, а также доступных библиометрических и наукометрических показателей для решения следующих прикладных задач: вычисление оценок качества материалов научно-технических библиотек; автоматизированное рецензирование материалов перед публикацией или экспертизой; ранжирование по качеству документов, релевантных запросу, при поисковой выдаче. Технический результат достигается тем, что интеллектуальная система рассчитывает следующие группы базовых оценок качества научно-технических документов: семантические, построенные на основе семантических моделей отдельных документов и коллекции семантически близких документов; библиометрические и наукометрические, основанные на анализе графа цитирования документов и использующие репутационные оценки авторов и изданий; оценки наличия прямых текстовых заимствований из семантически близких документов; эвристические, использующие заданные экспертом правила и словари. На основе полученных базовых оценок формируется интегральный показатель объективной оценки качества научно-технических документов с использованием методов машинного обучения, аналогично решению задачи ранжирования в информационном поиске. Для этого на основе коллекции семантически близких научно-технических документов с известными интегральными оценками качества, заданными экспертно или вычисленными на основе объективных оценок, строится модель ранжирования, которая определяет интегральную оценку как функцию от совокупности базовых оценок, представленных выше типов. Полученная функция ранжирования далее применяется для вычисления интегральной оценки качества документов, семантически близких к данной коллекции.

Интеллектуальная система оценки качества научно-технических

документов

Описание полезной модели

Полезная модель относится к области вычислительной техники, в частности, к интеллектуальной системе, предназначенной для автоматизированного вычисления оценки качества научно-технических документов.

Отличительной особенностью системы является вычисление оценки качества научно-технических документов, основанное на комбинированном подходе с использованием методов латентно-семантического анализа, машинного обучения, а также доступных библиометрических и наукометрических показателей для решения следующих прикладных задач: вычисление оценок качества материалов научно-технических библиотек; автоматизированное рецензирование материалов перед публикацией или экспертизой; ранжирование по качеству релевантных запросу документов при поисковой выдаче.

Известен ряд подходов [1-3], которые могут быть использованы для решения задач оценки качества научно-технических документов. В патенте [1] описывается метод и программное обеспечение для управления онлайн-контентом. Различные фрагменты онлайн-контента, созданные разными авторами, подготавливаются к онлайн-публикации. Для каждого фрагмента определяется оценка репутации его автора. Оценка репутации автора учитывает оценки одного или более рецензентов данного фрагмента онлайн-контента. В ответ на запрос онлайн-контента, полученного с некоторого компьютера, создаётся набор результатов поиска. Запатентованный метод предлагает ранжировать информационные материалы по репутационной оценке их авторов. Ранжирование фрагментов онлайн-контента в наборе определяется на основе оценки репутации автора, которая в дальнейшем влияет на его известность. Для расчета репутационной оценки в патенте предлагаются различные способы, в том числе учитывающие частоту публикаций онлайн материалов данным автором, репутационные оценки его рецензентов и другие. Оценка репутации автора повышается, если оценка фрагмента онлайн-контента этого автора превышает заданный порог. Автор может повысить свою оценку репутации, если он публикует онлайн-контент на различные темы. Оценка репутации автора понижается, если его уличили в плагиате. В рассматриваемом подходе не учитывается семантика и содержание документа и его невозможно применять для документов новых авторов, не имеющих предыстории.

Патент [2] затрагивает проблему объективной оценки качества документа при принятии его к публикации. Изобретение предлагает использовать следующую модель экономического спроса на документы. После подачи автором заявки на публикацию документа он может быть приобретен участниками виртуального рынка за виртуальные деньги. Документы, проданные более чем предопределенное число раз, допускаются к публикации. Авторы документов, на которые ссыпается одобренный документ, получают виртуальное вознаграждение. Представленный в патенте метод позволяет также интегрировать рецензирование документа в процесс принятия решения о публикации. Рецензенты, написавшие положительные отзывы на документ, который в последствие был одобрен для публикации, получают виртуальное вознаграждение. Описанный метод включает: получение от рассматриваемого участника первого документа; получение от одного или нескольких участников запроса на приобретение первого документа; зачисление виртуальных денег на счёт документа; принятие первого документа для публикации после достижения определенного количества денег на его счету в течение определенного периода времени; добавление денег на счет участников, которые владеют документами, на которые ссылается первый документ. В рассматриваемом подходе не учитывается семантика и содержание документа, а также необходимо участие группы экспертов или авторов, цитирующих данный документ. Таким образом, объективная оценка документов авторов, не имеющих предыстории, является невозможной.

Целью работы поисковой системы в патенте [3] является нахождение в ответ на запрос пользователя набора релевантных документов В патенте предлагается способ определения объективной оценки качества документа, которая может быть использована при упорядочивании результатов поиска. Предлагаемая оценка использует отношение цитирования между документами, а также принимает во внимание авторов рассматриваемого документа и документа, содержащего цитату. Для случая, когда рассматриваемый документ цитируется документами того же автора, в финальной оценке качества документа предлагается использовать максимальную из оценок цитирующих документов этого же автора. Цитирующие документы других авторов должны вносить вклад в финальную оценку данного документа в виде суммы своих оценок. В рассматриваемом подходе не учитывается семантика и содержание документа, а также оценки наличия плагиата или прямых текстовых заимствований.

В результате поиска по базам данных Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (Роспатента) российских патентов по

заданной тематике не обнаружено. В результате поиска по базам данных международных и европейских патентов по заданной тематике также не обнаружены патенты.

Целью полезной модели является решение задачи автоматизированной оценки качества научно-технических документов с использованием комбинированного подхода на основе методов латентно-семантического анализа, машинного обучения, а также доступных библиометрических и наукометрических показателей.

Поставленная цель достигается путем создания интеллектуальной системы автоматизированной оценки качества научно-технических документов, которая рассчитывает следующие группы базовых оценок качества научно-технических документов: семантические, построенные на основе семантических моделей отдельных документов и коллекции семантически близких документов; библиометрические и наукометрические, основанные на анализе графа цитирования документов и использующие репутационные оценки авторов и изданий; оценки наличия прямых текстовых заимствований из семантически близких документов; эвристические, использующие заданные экспертом правила и словари. На основе полученных базовых оценок формируется интегральный показатель объективной оценки качества научно-технических документов с использованием методов машинного обучения, аналогично решению задачи ранжирования в информационном поиске. Для этого на основе коллекции семантически близких научно-технических документов с известными интегральными оценками качества, заданными экспертно или вычисленными на основе объективных оценок, строится модель ранжирования, которая определяет интегральную оценку как функцию от совокупности базовых оценок, представленных выше типов. Полученная функция ранжирования далее применяется для вычисления интегральной оценки качества семантически близких документов.

Сущность изобретения поясняется чертежами.

Система (фиг. 1) содержит модуль 1 первичной обработки научно-технических документов, модуль 2 индивидуального семантического анализа, модуль 3 формирования наукометрических и библиографических показателей, модуль 4 формирования коллекции семантически близких документов, модуль 5 поиска прямых текстовых заимствований, модуль 6 вычисления интегральной оценки качества документов, модуль 7 локальное информационное хранилище. Система взаимодействует с поисковыми сервисами в сети Интернет.

Процедура работы представленной интеллектуальной системы оценки качества научно-технических документов определяется следующей последовательностью

применения методов основных модулей системы: (1) модуль первичной обработки для вычисления эвристических базовых оценок качества анализируемого документа, (2) модуль индивидуального семантического анализа для вычисления индивидуальных семантических оценок качества анализируемого документа, (3) модуль формирования наукометрических и библиографических показателей для ссылочных и репутационных оценок качества анализируемого документа, (4) модуль формирования коллекции семантически близких документов для подготовки множества тематически похожих документов и вычисления групповых семантических оценок качества на основе семантической модели коллекции, (5) модуль индивидуального семантического анализа и модуль формирования наукометрических и библиографических показателей для всех документов сформированной коллекции, (6) модуль поиска прямых текстовых заимствований для вычисления базовых оценок качества всех документов коллекции на основе оценок степени взаимного текстового заимствования, (7) модуль вычисления интегральной оценки качества документов для формирования модели ранжирования, (8) обновление данных в модуле локального информационного хранилища системы.

Модуль 1 (фиг. 2) предназначен для лексического разбора обрабатываемых научно-технических документов, выделения и отождествления связанной с ними метаинформации, включая авторов и библиографию, вычисления эвристических оценок качества документа на основе заданных экспертом правил и словарей. Модуль имеет информационный вход 1, через который получает анализируемый документ, и настроечный вход 2, через который получает правила и словари для эвристической оценки качества.

Модуль 2 (фиг. 3) лредназначен для построения индивидуальной семантической модели анализируемого документа с использованием методов латентно-семантического анализа и неотрицательной матричной факторизации, и использует построенную модель для выделения ключевых слов документа, формирования на их основе семантического поискового запроса, автоматического аннотирования и вычисления базовой семантической оценки качества документа на основе оценки степени «информационной сжимаемости» документа. Модуль имеет информационный вход 3, через который получает векторное представление анализируемого документа от модуля 1.

Модуль 3 (фиг 4.) предназначен для поиска в локальном хранилище 7 и в доступных источниках сети Интернет и вычисления ссылочных и репутационных оценок качества анализируемых документов. Модуль имеет информационный вход 5, через который получает метаинформацию об обрабатываемом документе от модуля 1, и

информационные каналы 6 и 7 взаимодействия с локальным хранилищем и с поисковыми сервисами сети Интернет.

Модуль 4 (фиг 5.) предназначен для поиска в локальном хранилище 7 и в доступных источниках сети Интернет семантически близких документов с использованием выбранной библиографической информации, а также ключевых слов и семантического поискового запроса, сформированных модулем индивидуального семантического анализа. Для сформированной коллекции строится общая семантическая модель с использованием методов латентно-семантического анализа и неотрицательной матричной факторизации, которая используется для фильтрации - удаления из коллекции семантически далеких документов и для вычисления базовых семантических оценок качества документов как степени соответствия тематикам коллекции. Модуль имеет информационный вход 4, через который получает ключевые слова и семантический запрос для поиска семантически близких документов, информационный вход 8, через который получает библиографическую информацию от модуля 3, а также информационные каналы 9 и 10 взаимодействия с локальным хранилищем и с поисковыми сервисами сети Интернет.

Модуль 5 (фиг 6.) использует алгоритмы информационного поиска на основе ядерных функций для вычисления оценки степени наличия взаимных текстовых заимствований в документах коллекции, сформированной модулем 4 и полученной через информационный вход 11.

Модуль 6 (фиг. 7) предназначен для ранжирования документов коллекции, полученных через информационный вход 12, на основе попарных сравнений качества отдельных документов, заданных через настроечный вход 13. Модуль использует методы машинного обучения для построения модели прогнозирования оценки качества документов коллекции в зависимости от значений базовых оценок качества документов коллекции: семантических, построенных на основе семантических моделей отдельных документов и коллекции семантически близких документов; библиометрических и наукометрических, основанных на анализе метаинформации и графа цитирования документов и использующих репутационные оценки авторов и изданий; оценок наличия прямых текстовых заимствований из семантически близких документов; эвристических, использующих заданные экспертом правила и словари. Построенная модель ранжирования применяется для прогнозирования оценки качества анализируемого научно-технического документа относительно сформированной коллекции семантически близких ему документов. Результат работы модуля сохраняется в локальном

информационном хранилище через информационный вход 14 и передается на информационный выход 15.

Информационное хранилище 7 предназначено для хранения научно-технических документов, их векторного представления, метаинформации о них, собранных библиографических и наукометрических показателей, а также промежуточных и окончательных результатов работы всех модулей системы.

Описание чертежей

На фиг.1 представлена схема системы оценки качества научно-технических документов; на фиг.2 - блок-схема алгоритма работы модуля первичной обработки; на фиг.З - блок-схема алгоритма работы модуля индивидуального семантического анализа; на фиг.4 - блок-схема алгоритма работы модуля формирования наукометрических и библиографических показателей; на фиг.5 - блок-схема алгоритма работы модуля формирования коллекции семантически близких документов; на фиг.6 - блок-схема алгоритма работы модуля поиска прямых текстовых заимствований; на фиг.7 - блок-схема алгоритма работы модуля вычисления интегральной оценки.

Источники информации, принятые во внимание при составлении описания заявки:

Патент: US8150842

Патент: US8131559

Патент: US7783639

Интеллектуальная система автоматизированного вычисления оценки качества научно-технических документов содержит: информационное хранилище,предназначенное для хранения научно-технических документов, их векторного представления, метаинформации о них, собранных библиографических и наукометрических показателей, а также промежуточных и окончательных результатов работы всех модулей системы, модуль первичной обработки научно-технических документов, предназначенный для лексического разбора обрабатываемых научно-технических документов, выделения и отождествления связанной с ними метаинформации, включая авторов и библиографию, вычисления эвристических оценок качества документа на основе заданных экспертом правил и словарей, модуль индивидуального семантического анализа,предназначенный для построения индивидуальной семантической модели анализируемого документа с использованием методов латентно-семантического анализа и неотрицательной матричной факторизации и использующий построенную модель для выделения ключевых слов документа, формирования на их основе семантического поискового запроса, автоматического аннотирования и вычисления базовой семантической оценки качества документа на основе оценки степени «информационной сжимаемости» документа, модуль формирования наукометрических и библиографических показателейпредназначен для поиска в локальном хранилище и в доступных источниках сети Интернет и вычисления ссылочных и репутационных оценок качества анализируемых документов, модуль формирования коллекции семантически близких документов, который предназначен для поиска в локальном хранилище и в доступных источниках сети Интернет семантически близких документов с использованием выбранной библиографической информации, а также ключевых слов и семантического поискового запроса, сформированных модулем индивидуального семантического анализа; для сформированной коллекции строится общая семантическая модель с использованием методов латентно-семантического анализа и неотрицательной матричной факторизации, которая используется для фильтрации - удаления из коллекции семантически далеких документов и для вычисления базовых семантических оценок качества документов как степени соответствия тематикам коллекции, модуль поиска прямых текстовых заимствований,использующий методы информационного поиска, в том числе на основе ядерных функций для вычисления оценки степени наличия взаимных текстовых заимствований в документах коллекции, модуль вычисления интегральной оценки качества документов, предназначенный для ранжирования документов коллекции на основе заданных попарных сравнений качества отдельных документов и использования методов машинного обучения для построения модели прогнозирования оценки качества документов коллекции в зависимости от значений базовых оценок качества документов коллекции: семантических, построенных на основе семантических моделей отдельных документов и коллекции семантически близких документов; библиометрических и наукометрических, основанных на анализе метаинформации и графацитирования документов и использующих репутационные оценки авторов и изданий; оценок наличия прямых текстовых заимствований из семантически близких документов; эвристических, использующих заданные экспертом правила и словари, причем процедура работы представленной интеллектуальной системы оценки качества научно-технических документов определяется следующей последовательностью применения методов основных модулей системы: (1) модуль первичной обработкидля вычисления эвристических базовых оценок качества анализируемого документа, (2) модуль индивидуального семантического анализа для вычисления индивидуальных семантических оценок качества анализируемого документа, (3) модуль формирования наукометрических и библиографических показателейдля ссылочных и репутационных оценок качества анализируемого документа, (4) модуль формирования коллекции семантически близких документов для подготовки множества тематически похожих документов и вычисления групповых семантических оценок качества на основе семантической модели коллекции, (5) модуль индивидуального семантического анализаи модуль формирования наукометрических и библиографических показателей для всех документов сформированной коллекции, (6) модуль поиска прямых текстовых заимствований для вычисления базовых оценок качества всех документов коллекции на основе оценок степени взаимного текстового заимствования, (7) модуль вычисления интегральной оценки качества документов для формирования модели ранжирования, по сути модели интегральной оценки качества документов коллекции, (8) обновление данных в локальном информационном хранилище исистеме.



 

Похожие патенты:

Технический результат повышение надежности работы изолятора за счет исключения возможности попадания в зону действия изолятора посторонних биологических объектов

Изобретение относится к вычислительной технике, в частности, к автоматизированной системе учета миграционного потока граждан через границу государства

Изобретение относится к аппаратуре для предотвращения несанкционированного пользования транспортным средством

Полезная модель относится к области информационно-аналитических систем, предназначенных для сбора, обработки, анализа, структурирования и визуализации информации из разнородных источников
Наверх