Система семантического метапоиска, анализа и индексации информации

 

Изобретение относится к области вычислительной техники, в частности, к системам семантического метапоиска, анализа и индексации информации. Техническим результатом является повышение точности и полноты поиска информации путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации. Технический результат достигается тем, что система содержит блок приема данных документа образца, блок приема данных о корпусе документов, блок формирования анализируемых подмножеств словарного состава документов, блок передачи анализируемых подмножеств слов документов, блок передачи данных о корпусе документов, блок задания критерия выбора найденного документа, блок приема данных найденных документов, блок формирования данных для оценки близости документов, блок подсчета числа найденных документов, блок выдачи данных для оценки близости документов. 10 ил.

Изобретение относится к области вычислительной техники, в частности, к системам семантического метапоиска, анализа и индексации информации.

Классическая задача информационного поиска, с которой и началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования,

классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т.д.

Особенность поставленной технической задачи состоит в том, чтобы система информационного поиска смогла бы выполнить функции поиска и анализа текстов, содержательно и тематически соответствующих тексту образца. При этом решение поставленной задачи должно осуществляться путем преобразования текста образца в запрос, используемый для поиска и анализа найденной информации, определения по найденным документам их характеристик и анализа соответствия образца и каждого найденного документа на основании указанных характеристик.

Известны системы, которые могли бы быть использованы для решения поставленной задачи (1, 2).

Первая из известных систем содержит блоки приема и хранения запросов, соединенные с блоками управления и обработки данных, блоки поиска и селекции, подключенные к блокам хранения данных и отображения, синхронизирующие входы которых соединены с выходами блока управления, и использует принципы поиска по ключевым словам и метод human annotation (1). В основе работы системы лежит метод сопоставления текстов и ряд других механизмов.

Существенный недостаток данной системы состоит в ее невысоком быстродействии, обусловленном длительными циклами поиска и анализа данных.

Известна и другая система, содержащая блоки обработки данных, информационные входы которых соединены с блоками приема запросов и управления, а выходы подключены к первой группе блоков памяти, центральный процессор, входы которого соединены с выходами блоков памяти первой группы и блоков обработки данных, а выходы соединены с входами блоков памяти второй группы и блоков отображения данных (2).

Данная система реализует технологию поиска ключевым словам, позволяющего получить базовое множество страниц. Затем ведется поиск

документов, которые имеют ссылки на эти страницы или на которые ссылаются страницы из базового множества.

Система классифицирует страницы базового множества и связанные с ними страницы по количеству ссылок на них. Страница, ссылку на которую посчитало нужным поместить на свой сайт значительное число Web-мастеров, получает название authority и считается ценным источником информации. Узел, имеющий ссылки на множество authority-страниц, называется хабом (hub) и рассматривается как ценный источник ссылок.

Последнее из перечисленных выше технических решений наиболее близко к описываемому.

Его недостатки заключаются в невысокой точности выполнения запросов текстовых образов, обусловленной тем, что выполнение процедуры поиска текстов реализуется лишь по кратким аннотациям образов текстовых документов по единственному запросу.

Цель изобретения - повышение точности и полноты поиска путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации.

Поставленная цель достигается тем, что в систему, содержащую блок приема данных документа образца, информационный и синхронизирующий входы которого являются первыми информационным и синхронизирующими входами системы, при этом первый информационный вход системы предназначен для приема данных документа образца, а первый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных документа образца в блок приема данных документа образца, при этом выход блока приема данных документа образца является первым информационным выходом системы, предназначенным для выдачи данных текстового образца на информационный вход сервера хранилища данных, блок приема данных о корпусе документов, информационный и синхронизирующий входы которого являются вторыми

информационным и синхронизирующими входами системы, при этом второй информационный вход системы предназначен для приема данных о частотах словоупотребления в корпусе документов, а второй синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных о частотах словоупотребления в корпусе документов в блок приема данных о корпусе документов, блок задания критерия выбора найденных документов, информационный и синхронизирующий входы которого являются третьими информационным и синхронизирующими входами системы, при этом третий информационный вход системы предназначен для приема данных критерия, а третий синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных критерия в блок задания критерия выбора найденных документов, блок передачи данных о корпусе документов, информационный выход которого является вторым информационным выходом системы, предназначенным для выдачи данных о частотах словоупотребления в корпусе документов, блок подсчета числа найденных документов, выход которого является третьим информационным выходом системы, предназначенным для выдачи итоговых данных на табло отображения, блок приема данных найденных документов, информационный и синхронизирующий входы которого являются четвертыми информационным и синхронизирующими входами системы, при этом четвертый информационный вход системы предназначен для приема найденных документов с информационного выхода поискового сервера, четвертый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов с синхронизирующего выхода поискового сервера, а один информационный выход блока приема данных найденных документов является четвертым информационным выходом системы, предназначенным для выдачи найденных документов на информационный вход сервера хранилища документов, отличающаяся тем, что система содержит блок

формирования анализируемых подмножеств словарного состава документов, один информационный вход которого соединен с выходом блока приема данных документа образца, другой информационный вход блока формирования анализируемых подмножеств словарного состава документов подключен к выходу блока приема данных о корпусе текстов, один синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов соединен с первым синхронизирующим входом системы, а другой синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов подключен ко второму синхронизирующему входу системы, при этом информационные выходы группы блока формирования анализируемых подмножеств словарного состава документов соединены с соответствующими информационными входами группы блока передачи данных о корпусе документов, блок передачи анализируемых подмножеств слов документов, информационный вход которого соединен с информационным выходом блока формирования анализируемых подмножеств словарного состава документов, один синхронизирующий вход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, а другой синхронизирующий вход блока передачи анализируемых подмножеств слов документов является сигнальным входом системы, при этом управляющие выходы группы блока передачи анализируемых подмножеств слов документов соединены с соответствующими управляющими входами группы блока передачи данных о корпусе документов, а первый синхронизирующий выход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему входу блока передачи данных о корпусе документов, блок формирования данных для оценки близости документов, один информационный вход которого соединен с выходом блока задания

критерия выбора найденных документов, другой информационный вход блока формирования данных для оценки близости документов подключен ко второму выходу блока приема найденных документов, первый синхронизирующий вход блока формирования данных для оценки близости документов соединен с четвертым синхронизирующим входом системы, а второй синхронизирующий вход блока формирования данных для оценки близости документов подключен ко второму синхронизирующему выходу блока передачи анализируемых подмножеств слов документов, при этом первый управляющий выход блока формирования данных для оценки близости документов соединен с первым управляющим входом блока формирования анализируемых подмножеств словарного состава документов, второй управляющий выход блока формирования данных для оценки близости документов подключен ко второму управляющему входу блока формирования анализируемых подмножеств словарного состава документов, первый синхронизирующий выход блока формирования данных для оценки близости документов соединен со счетным входом блока подсчета числа найденных документов, а установочный выход блока формирования данных для оценки близости документов подключен к установочному входу блока приема данных найденных документов, и блок выдачи данных для оценки близости документов, первый и второй синхронизирующие входы которого соединены со вторым и третьим синхронизирующими выходами блока формирования данных для оценки близости документов соответственно, третий синхронизирующий вход блока выдачи данных для оценки близости документов подключен к сигнальному входу системы, а четвертый синхронизирующий вход блока выдачи данных для оценки близости документов подключен ко второму синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, при этом информационный выход блока выдачи данных для оценки близости

документов является адресным выходом системы, предназначенным для выдачи адресов считывания и записи данных на адресный вход сервера базы данных, первый синхронизирующий выход блока формирования матрицы оценки близости является первым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления записью данных на первый канал прерывания сервера базы данных, второй синхронизирующий выход блока выдачи данных для оценки близости документов является вторым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления считыванием данных на вход второго канала прерывания сервера базы данных, сигнальный выход блока выдачи данных для оценки близости документов является сигнальным выходом системы, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, а управляющий выход блока выдачи данных для оценки близости документов соединен с управляющим входом блока формирования анализируемых подмножеств словарного состава документов.

Сущность изобретения поясняется чертежами, где на фиг.1 представлена структурная схема системы, на фиг.2 - структурная схема блока селекции наборов слов с весовыми коэффициентами, на фиг.3 - структурная схема блока идентификации временных циклов выполнения запросов, на фиг.4 - структурная схема блока выдачи запросов, на фиг.5 - структурная схема блока идентификации входных документов, на фиг.6 - структурная схема блоков селекции опорных адресов документирования данных, на фиг.7 - структурная схема блока формирования сигналов записи и считывания найденных документов, на фиг.8 - структурная схема блока формирования сигналов записи найденных документов, на фиг.9 - структурная схема блока интеграции сигналов записи найденных документов.

Система (фиг.1) содержит блок 1 приема данных документа образца, блок 2 приема данных о корпусе документов, блок 3 формирования

анализируемых подмножеств словарного состава документов, блок 4 передачи анализируемых подмножеств слов документов, блок 5 передачи данных о корпусе документов, блок 6 задания критерия выбора найденного документа, блок 7 приема данных найденных документов, блок формирования данных для оценки близости документов, блок 9 подсчета числа найденных документов, и блок 10 выдачи данных для оценки близости документов.

На фиг.1 также показаны первый 21, второй 22, третий 23 и четвертый 24 информационные входы системы, первый 25, второй 26, третий 27 и четвертый 28 синхронизирующие входы системы, сигнальный 29 вход системы, а также первый 31, второй 32, третий 33 и четвертый 34 информационные выходы системы, адресный 35 выход системы, первый 36 и второй 37 синхронизирующие выходы системы и сигнальный выход 38 системы.

Блок 1 (фиг.1) приема данных документа образца выполнен в виде регистра, имеющего информационный 21 и синхронизирующий 25 входы, а также информационные выход, соединенный с первым информационным выходом системы 31 и информационным входом 55 блока 3.

Блок 2 (фиг.1) приема данных о корпусе документов выполнен в виде регистра, имеющего информационный 22 и синхронизирующий 26 входы, а также информационный 15 выход.

Блок 3 (фиг.2) формирования анализируемых подмножеств словарного состава документов содержит программируемое постоянное запоминающее устройство (ПЗУ) 40, дешифратор 41, регистры 42-44, элементы 45-47 И, первую 48 и вторую 49 группы элементов И, группу 50 элементов ИЛИ, элемент 51 ИЛИ, элементы 52-54 задержки. На чертеже показаны информационные 55, 56 и синхронизирующие 57, 58 входы, управляющие 59, 60 входы, а также группа 61-63 информационных выходов, информационный 64 и синхронизирующий 65 выходы.

Блок 4 (фиг.3) передачи анализируемых подмножеств слов документов содержит элемент 69 И, счетчик 70, компаратор 71, регистр 72, элемент 73 ИЛИ и элемент 74 задержки. На чертеже показаны управляющий вход 68, информационный 75 вход, первый 76 и второй 77 синхронизирующие входы, а также группа управляющих выходов 78-80 и синхронизирующие 81, 82 выходы.

Блок 5 (фиг.4) передачи данных о корпусе документов содержит группы 85-87 элементов И, и группу элементов 87 ИЛИ. На чертеже показаны информационные 89-91 входы, управляющие 92-94 входы, и синхронизирующий 95 вход, а также информационный выход 32.

Блок 6 (фиг.1) задания критерия выбора найденных документов выполнен в виде регистра, имеющего информационный 23 и синхронизирующий 27 входы, а также информационный выход 16.

Блок 7 (фиг.1) приема данных найденных документов выполнен в виде регистра, имеющего информационный 24 и синхронизирующий 28 входы, а также первый 17 и второй 18 информационные выходы.

Блок 8 (фиг.5) формирования данных для оценки близости документов содержит компаратор 100, триггер 101, элементы 102, 103 И, элемент 104 задержки. На чертеже показаны информационные 105, 106 входы, первый 107 и второй 108 синхронизирующие входы, а также первый 109 и второй 110 управляющие выходы, первый 111, второй 112 и третий 113 синхронизирующие выходы, и установочный выход 114.

Блок 9 (фиг.1) подсчета числа найденных документов выполнена виде счетчика, имеющего счетный вход и информационный 33 выходы.

Блок 10 (фиг.6) выдачи данных для оценки близости документов содержит первый 11-1 и второй 11-2 модули селекции опорных адресов найденных документов, модуль 12 формирования сигналов записи и считывания найденных документов поиска, модуль 13 формирования сигналов записи найденных документов поиска и модуль 14 интеграции сигналов записи найденных документов.

На чертеже показаны синхронизирующие 16-19 входы блока, информационный 35 выход, первый 36 и второй 37 синхронизирующие выходы, сигнальный 38 и управляющий 148 выходы блока.

Модули 11-1 и 11-2 (фиг.7) выполнены идентично и содержат ПЗУ 120, регистр 121, триггер 122, элементы 123, 124 И, элемент 125 ИЛИ, элементы 126, 127 задержки. На чертеже показаны синхронизирующий 130 вход, а также информационный 131 и синхронизирующий 132 выходы.

Модуль 12 (фиг.8) формирования сигналов записи и считывания найденных документов содержит компаратор 134, сумматор 135, реверсивный счетчик 136, триггер 137, группу 138 элементов И, элементы 139-142 ИЛИ, триггер 143, элемент 144 И, элементы 145-1, 145-2, 146-1, 146-2, 146-3 задержки. На чертеже показаны информационный 151 и синхронизирующие 147, 152, 153 входы, а также управляющий 148, информационный 154, первый 155, второй 156 и третий 157 синхронизирующие выходы.

Модуль 13 (фиг.9) формирования сигналов записи найденных документов содержит сумматор 160, счетчик 161, триггер 162, группу 163 элементов И, элемент 164 задержки. На чертеже показаны информационный 165 и синхронизирующий 166 входы, а также информационный 167, и синхронизирующий 168 выходы.

Модуль 14 (фиг.8) интеграции сигналов записи найденных документов содержит группу элементов 170 ИЛИ, и элемент 171 ИЛИ. На чертеже показаны информационные 172, 173 и синхронизирующие 174, 175 входы, а также информационный 35 и синхронизирующий 36 выходы.

Все узлы и элементы системы выполнены на стандартных потенциально-импульсных элементах.

Рассматриваемая система предназначена для поиска и анализа текстов, содержательно похожих на предложенный пользователем образец. Образец может быть найден пользователем системы в доступных информационных ресурсах или сформулирован самостоятельно.

Подобно известным техническим решениям система выполняет преобразование текста-образца в запрос, используемый для поиска и анализа найденной информации, по найденным документам определяет их характеристики и анализирует соответствие образца и каждого найденного документа на основании указанных характеристик.

К отличительным чертам предлагаемой формы запроса относятся следующие признаки.

Во-первых, тексту образца соответствует множество запросов, каждый из которых состоит из набора слов с весовыми коэффициентами в отличие от стандартной ситуации, при которой строится единственный запрос. В результате этого формируется набор запросов вместо единственного запроса.

Во-вторых, запросы, соответствующие тексу образца, отличаются друг от друга минимальными относительными частотами словоупотребления слов (число словоупотреблений на 100000 слов), входящих в запросы, в представительном для языка текста образца (или для конкретной предметной области) корпусе текстов. Каждое слово в запросе характеризуется весовым коэффициентом, определяющим важность слова в данном запросе.

В-третьих, для характеристики найденных документов используется множество запросов, которые соответствовали бы найденному документу в случае его использования в качестве образца. При этом запрос может быть пустым (не содержать элементов).

Алгоритм работы системы можно представить следующим образом.

На первом шаге алгоритма для текста образца формируется набор запросов любым подходящим для этого способом (1, 2).

На втором шаге алгоритма по каждому запросу из набора запросов выполняется поиск документов в хранилище данных. Критерием выбора документа для дальнейшего анализа является наличие в документе заданного числа слов из запроса.

На третьем шаге для каждого найденного документа формируется набор запросов, соответствующих случаю использования найденного документа в качестве образца для поиска. При этом для построения набора запросов должна использоваться та же процедура, что и при формировании набора запросов для текста образца на первом шаге алгоритма.

На четвертом шаге выполняется анализ всех найденных документов с целью определения количественной оценки их соответствия тексту образца и найденным документам. При этом для текста образца и каждого найденного документа формируется матрица, элементами которой являются количественные оценки близости запросов, соответствующих тексту образца и найденному документу.

Оценки близости запросов получаются как результат вычисления функции, аргументами которой являются весовые коэффициенты слов, присутствующие в обоих запросах. Количественная оценка соответствия найденного документа образцу является функцией вышерассмотренной матрицы.

На пятом шаге найденные документы упорядочиваются по убыванию величины полученной оценки.

Описанный алгоритм реализуется системой следующим образом.

Через информационный вход 21 системы на информационный вход блока 1 поступает кодограмма запроса, которая синхронизирующим импульсом, поступающим с входа 25 системы на синхронизирующий вход блока 1, заносит кодограмму запроса в блок 1.

Кроме того, задается значение критерия выбора документа поиска, которое через информационный вход 23 системы заносится синхронизирующим импульсом с входа 27 системы в блок 6. С выхода 16 блока 6 значение критерия выбора найденного документа поступает на вход 105 блока 8.

Поступившая кодограмма запроса имеет следующую структуру:

КОДКОД
Тип запроса текстового образца Содержание запроса текстового образца

С выхода блока 1 раздел кодограммы, представляющий содержательную часть текстового образца сразу же выдается на выход 31 системы.

Другой раздел кодограммы с выхода блока 1 через информационный вход 55 блока 3 поступает на одни входы элементов 48 И группы, на другие входы которых с выхода 109 блока 8 через вход 59 блока 3 подается высокий разрешающий потенциал триггера 101 блока 8, находящегося в исходном состоянии.

В результате этого код типа запроса текстового образца через элементы 48 И группы, элементы 50 ИЛИ группы поступает на вход дешифратора 41, который расшифровывает тип поступившего запроса и открывает по одному входу один из элементов 45-47 И.

Параллельно с этим процессом, синхронизирующий импульс с входа 25 системы через вход 57 блока 3 проходит элемент 51 ИЛИ, задерживается элементом 52 на время занесения кодограммы запроса в блок 1 и срабатывания дешифратора 41 блока 3, после чего поступает на другие входы элементов 45-47 И.

Учитывая то обстоятельство, что открытым по одному входу будет только один из элементов 45-47 И, то пройдя соответствующий элемент И, синхронизирующий импульс поступает на вход считывания соответствующей фиксированной ячейки памяти постоянного запоминающего устройства 40, где хранится набор запросов в виде слов с соответствующими весовыми коэффициентами и число слов в наборе.

Структура кодограммы, хранимой в фиксированной ячейке памяти ПЗУ, имеет следующий вид:

кодКОД ...КОДКОД
1-ое слово2-е слово...№-ое слово Количество слов в наборе

Коды слов из блока 40 памяти считывается на соответствующие входы регистров 42-44, а код количества слов в наборе считывается через выход 64 блока 3 и вход 75 блока 4 на информационный вход регистра 72 блока 4.

Параллельно с описанным процессом, тот же импульс считывания с выхода элемента 52 блока 3 задерживается элементом задержки 53 на время считывания содержимого фиксированной ячейки ПЗУ 40 и затем с выхода элемента 53 поступает как на синхронизирующие входы регистров 42-44, занося в них считанные данные, так и после задержки элементом 54 на время занесения данных в регистры 42-44, с выхода 65 блока 3 поступает на вход 76 блока 4, где, во-первых, сразу же поступает на синхронизирующий вход регистра 72, занося в него код количества слов в наборе, а, во-вторых, проходит элемент 73 ИЛИ и поступает на счетный вход счетчика 70, фиксирующего факт начала выдачи первого слова из набора запросов.

Высокий потенциал с выхода первого разряда счетчика 70 через выход 78 блока 4 поступает на вход 92 блока 5, где подается на одни входы элементов 85 И, на другие входы 89 которых с выхода 61 блока 3 выдается код первого слова запроса с соответствующим весовым коэффициентом.

Одновременно с поступлением синхронизирующего импульса на счетный вход счетчика 70 блока 4, синхронизирующий импульс с выхода элемента 73 ИЛИ блока 4 задерживается элементом 74 на время срабатывания счетчика 70, и далее поступает на синхронизирующий вход компаратора 71, на информационные входы которого подается число слов в наборе с выхода регистра 72 и показания счетчика 70.

Учитывая, что к этому моменту времени показания счетчика 70 намного меньше числа слов в наборе в регистре 72, то на выходе 81 блока 4 формируется импульс, поступающий на синхронизирующий вход 95 блока 5, где проходит на входы элементов 85-87 И групп. Поскольку в открытом состоянии к этому моменту времени находятся только элементы 85 И группы, то код первого слова запроса через элементы 88 ИЛИ группы выдается на выход 32 системы и далее поступает на вход управления сервера базы поисковых данных, который переходит на подпрограмму выполнения первого запроса по поиску данных.

При обнаружении запрашиваемых данных сервер хранилища данных выдает коды найденных данных на информационный вход 24 системы, откуда они поступают на информационный вход блока 7, в который и заносятся синхронизирующим импульсом сервера поисковой базы данных, поступающим на вход 28 системы.

Структура принятой кодограммы имеет следующий вид:

КОДКОД
Признак найденного документа Содержание найденного документа

Признак найденного документа с выхода 17 блока 7 поступает на вход 106 блока 8, а содержание найденного документа с выхода 18 блока 7 выдается на выход 34 системы.

Одновременно с этим, синхронизирующий импульс с входа 28 системы через вход 107 блока 8 задерживается элементом 104 задержки блока 8 и поступает на синхронизирующий вход компаратора 100, на вход 105 которого выдается код значения критерия выбора найденного документа, а на вход 106 поступает код признака найденного документа.

По синхронизирующему импульсу компаратор 100 блока 8 сравнивает входные коды, и, если код признака найденного документа не соответствует критерию выбора найденного документа, то на выходе В компаратора 100 формируется импульс, который с выхода 114 блока 8 поступает на установочный вход 19 блока 7 и возвращает его в исходное состояние.

Если же признак найденного документа соответствует значению критерия выбора найденного документа, то на выходе А компаратора 100 формируется сигнал, поступающий как на выход 111, так и через открытый высоким потенциалом с инверсного выхода триггера 101 элемент 103 И на выход 112 блока 8.

С выхода 111 блока 8 импульс поступает на счетный вход 114 блока 9, который фиксирует число найденных документов, удовлетворяющих критерию их отбора, которое выдается на выход 33 системы.

С выхода 112 блока 8 тот же импульс поступает на вход 16 блока 10 для запуска процедуры занесения найденного документа в базу данных сервера, откуда он через вход 130 модуля 11-1 подается на входы элементов 123, 124 И. Однако открытым по одному входу будет только элемент 124 И, так как на один из его входов подается высокий потенциал с инверсного выхода триггера 122, находящегося в исходном состоянии.

В результате синхронизирующий импульс с входа 130 проходит элемент 124 И, и поступает на вход фиксированной ячейки памяти ПЗУ 120, где хранится опорный адрес буферной зоны памяти сервера, отведенной для хранения найденных документов.

Тот же синхронизирующий импульс с выхода элемента 124 И задерживается элементом 126 на время считывания кода из ПЗУ 120, и, во-первых, поступает на синхронизирующий вход регистра 121, занося в него опорный адрес записи.

Во-вторых, этот же импульс поступает на единичный вход триггера 122 и устанавливает его в единичное состояние, при котором элемент 124 И будет закрыт, а элемент 123 И - открыт.Тем самым будет подготовлена цепь прохождения следующего синхронизирующего импульса с входа 130.

И, наконец, в-третьих, импульс с выхода элемента задержки 126 проходит элемент 125 ИЛИ, вновь задерживается элементом 127 на время занесения кода адреса в регистр 121 и далее поступает на выход 132 модуля 11-1.

Код адреса записи с выхода 131 модуля 11-1 через вход 151 модуля 12 выдается на один вход сумматора 135, к другому входу которого подключен выход счетчика 136, соединенный также с одним входом компаратора 134, на другой вход 148 которого постоянно подан «нулевой код».

Синхронизирующий импульс с входа 152 модуля 12, во-первых, сразу же через элемент 140 ИЛИ поступает на синхронизирующий вход сумматора 135, который суммирует код опорного адреса с входа 151 с нулевым кодом счетчика 136, находящегося к этому моменту времени в исходном состоянии и выдает оставшийся без изменения код адреса записи на вход элементов 138 И группы.

Во-вторых, этот же импульс проходит элемент 141 ИЛИ и поступает на прямой вход триггера 137, устанавливая последний в единичное состояние, при котором высоким потенциалом с прямого выхода открываются элементы 138 И группы по другому входу, подключая тем самым выход сумматора 135 к выходу 154.

В результате этого опорный адрес записи с входа 172 модуля 14 через элементы 170 ИЛИ группы выдается на адресный 35 выход системы.

В-третьих, синхронизирующий импульс с входа 152 блока 12 задерживается элементом 145-1 на время формирования итогового кода на адресном 35 выходе системы и через выход 155 модуля 12 поступает на вход 174 блока 14, проходит элемент 171 ИЛИ и выдается на выход 36 системы в качестве сигнала управления записью.

Этот сигнал поступает на вход первого канала прерывания сервера базы данных, по которому сервер переходит на подпрограмму записи содержимого блока 7 с его выхода 18 через информационный выход системы 34 в базу данных по адресу, сформированному на выходе 35 системы.

Кроме того, импульс с выхода элемента 145-1 задержки модуля 12 поступает на счетный вход счетчика 136, фиксируя факт первой записи, а также после задержки элементом 145-2 на время записи данных в базу данных системы, данный импульс проходит вход элемента 142 ИЛИ, устанавливая триггер 137 в исходное состояние. Возвращаясь в исходное состояние триггер 137 закрывает элементы 138 И группы по одному входу и, тем самым, отключает выход сумматора 135 от адресного 35 выхода системы.

Описанный процесс продолжается до тех пор, пока сервер хранилища данных не выдаст сигнала об окончании выполнения запроса, который поступает на сигнальный вход 29 системы, откуда он поступает как на вход 77 блока 4, так и на вход 147 модуля 12. Пройдя через соответствующие входы блока 4 и модуля 12 сигнал окончания выполнения запроса поступает на входы элементов 69 И блока 4 и 144 И модуля 12. Состоянием указанных элементов И управляет триггер 143, который к настоящему моменту времени находится в исходном состоянии, при котором высоким потенциалом с выхода 148 модуля 12 элемент 69 И будет открыт, а элемент 144 И модуля 12 будет закрыт низким потенциалом с прямого выхода триггера 143.

В результате этого сигнал об окончании выполнения запроса проходит через элемент 73 ИЛИ и поступает на счетный вход счетчика 70, увеличивая его показания на единицу. В результате этого счетчик 70 выдаст высокий потенциал на очередной выход 79, откуда высокий потенциал через вход 93 поступает на входы элементов 86 И группы, подключая выход 62 регистра 43 ко входу 90 блока 5 и через элементы 88 ИЛИ к выходу 32, выдавая слово запроса из заданного набора. После чего процесс поиска и документирования документов продолжается описанным выше образом.

Описанный процесс поиска и анализа документов будет продолжаться до тех пор, пока компаратор 71 по синхронизирующему сигналу не зафиксирует факт равенства показаний счетчика 70 и регистра 72 выдачей импульса на выход 82 блока 4.

С выхода 82 блока 4 синхронизирующий импульс поступает как на вход 153 модуля 12 и далее через элемент 141 ИЛИ на единичный вход триггера 137, устанавливая его в единичное состояние, при котором высоким потенциалом с прямого выхода открываются элементы 138 И группы по другому входу, подключая тем самым выход сумматора 135 к выходу 154.

В результате этого адрес записи последнего найденного документа, сохраненный в сумматоре 135, с выхода 154 блока 12 поступает на вход 172 блока 14 и далее через элементы 170 ИЛИ группы выдается на адресный 35 выход системы.

Во-вторых, синхронизирующий импульс с входа 153 задерживается элементом 146-1 на время срабатывания триггера 137, и выдается на выход 156 модуля 12, откуда выдается на выход 37 в качестве сигнала управления считыванием данных. С выхода 37 системы сигнал поступает на вход второго канала прерывания сервера базы данных.

По этому сигналу сервер переходит на подпрограмму считывания содержимого ячейки базы данных по указанному на выходе 35 адресу, и выдачи кодограммы признака первого из найденных документов на информационный вход 22 системы. Кодограмма признака документа заносится в блок 2 синхронизирующим импульсом сервера базы данных, поступающим на вход 26 системы.

С выхода 15 блока 2 данная кодограмма через вход 56 блока 3, элементы 49 И группы, открытые высоким потенциалом, поступающим на вход 60 блока 3 с выхода 110 блока 8, и элементы 50 ИЛИ группы подается на вход дешифратора 41. Одновременно с этим процессом, синхронизирующий импульс с входа 26 системы через вход 58 блока 3 проходит элемент 51 ИЛИ, задерживается элементом 52 задержки на время занесения кодограммы признака найденного документа в блок 2 и срабатывания дешифратора 41.

Дальнейший процесс формирования набора запросов и их выдачи на выход 32 системы, а также отбора найденных документов и их документирования с помощью модулей 11-2, 13 и 14 осуществляется описанным выше образом.

Отличие этого процесса состоит лишь в том, что при считывании признаков найденных документов из хранилища данных, каждый из импульсов считывания с входа 153 после задержки элементами 146-1 и 146-2 поступает на вычитающий вход счетчика 136 и уменьшает его показания на единицу.

Синхронизирующий импульс с выхода элемента 146-2, во-первых, через элемент 139 ИЛИ поступает на установочный вход сумматора 135, сбрасывая его в исходное состояние. Во-вторых, этот импульс поступает на вычитающий вход реверсивного счетчика 136, уменьшая его показания на единицу.

В-третьих, данный импульс задерживается элементом 146-3 на время срабатывания реверсивного счетчика 136 и поступает на синхронизирующий вход компаратора 134.

Компаратор 134 сравнивает показания реверсивного счетчика 136 с нулевым кодом, подаваемым на его другой вход, и пока показания счетчика 136 больше нулевого кода, то на выходе 149 компаратора 134 формируется сигнал, который, во-первых, через элемент 140 ИЛИ поступает на синхронизирующий вход сумматора 135, который по этому сигналу суммирует код опорного адреса с входа 151 с уменьшенными на единицу показаниями реверсивного счетчика 136 и выдает итоговый адрес на адресный 35 выход системы.

Описанный процесс считывания признаков найденных документов базы данных продолжается до тех пор, пока компаратор 134 не зафиксирует факт равенства нулю показаний реверсивного счетчика 136, свидетельствующего о том, что все записи найденных документов в базе данных выданы для формирования новых наборов запросов.

Этот факт будет подтвержден выдачей импульса на выход 150 компаратора 134, который поступает на установочные входы реверсивного счетчика 136, сумматора 135 и триггера 137, а также на прямой вход триггера 143, устанавливая последний в единичное состояние, при котором высоким потенциалом элемент 144 И будет открыт, а низким потенциалом с инверсного выхода триггера 143, выдаваемого через выход 148 на вход 68 блока 4 элемент 69 И блока 4 будет закрыт.

В результате этого с приходом сигнала об окончании выполнения очередного запроса на вход 29 системы последний с входа 147 блока 12 проходит элемент 144 И, выдается через выход 57 на вход второго канала прерывания сервера базы данных.

По этому сигналу сервер переходит на подпрограмму приема данных с выхода 31 и выполнения анализа всех найденных документов с целью определения количественной оценки их соответствия тексту образца и найденным документам. При этом для текста образца и каждого найденного документа блок 10 формирует матрицу, элементами которой являются количественные оценки близости запросов, соответствующих тексту образца и найденному документу.

Оценки близости запросов получаются как результат вычисления функции, аргументами которой являются весовые коэффициенты слов, присутствующие в обоих запросах. Количественная оценка соответствия найденного документа образцу является функцией вышерассмотренной матрицы. После чего все найденные документы упорядочиваются по убыванию величины полученной оценки.

Таким образом, введение новых блоков и новых конструктивных связей позволило существенно повысить точность и полноту поиска информации путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации.

Источники информации, принятые во внимание при составлении описания заявки:

1. Патент США №5136708 М. кл. G 06 F 15/16, 1992

2. Патент США №5129083 М. кл. G 06 F 12/00, 15/40, 1992 (прототип).

Система семантического метапоиска, анализа и индексации информации, содержащая блок приема данных документа образца, информационный и синхронизирующий входы которого являются первыми информационным и синхронизирующими входами системы, при этом первый информационный вход системы предназначен для приема данных документа образца, а первый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных документа образца в блок приема данных документа образца, при этом выход блока приема данных документа образца является первым информационным выходом системы, предназначенным для выдачи данных текстового образца на информационный вход сервера хранилища данных, блок приема данных о корпусе документов, информационный и синхронизирующий входы которого являются вторыми информационным и синхронизирующими входами системы, при этом второй информационный вход системы предназначен для приема данных о частотах словоупотребления в корпусе документов, а второй синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных о частотах словоупотребления в корпусе документов в блок приема данных о корпусе документов, блок задания критерия выбора найденных документов, информационный и синхронизирующий входы которого являются третьими информационным и синхронизирующими входами системы, при этом третий информационный вход системы предназначен для приема данных критерия, а третий синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных критерия в блок задания критерия выбора найденных документов, блок передачи данных о корпусе документов, информационный выход которого является вторым информационным выходом системы, предназначенным для выдачи данных о частотах словоупотребления в корпусе документов, блок подсчета числа найденных документов, выход которого является третьим информационным выходом системы, предназначенным для выдачи итоговых данных на табло отображения, блок приема данных найденных документов, информационный и синхронизирующий входы которого являются четвертыми информационным и синхронизирующими входами системы, при этом четвертый информационный вход системы предназначен для приема найденных документов с информационного выхода поискового сервера, четвертый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов с синхронизирующего выхода поискового сервера, а один информационный выход блока приема данных найденных документов является четвертым информационным выходом системы, предназначенным для выдачи найденных документов на информационный вход сервера хранилища документов, отличающаяся тем, что система содержит блок формирования анализируемых подмножеств словарного состава документов, один информационный вход которого соединен с выходом блока приема данных документа образца, другой информационный вход блока формирования анализируемых подмножеств словарного состава документов подключен к выходу блока приема данных о корпусе текстов, один синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов соединен с первым синхронизирующим входом системы, а другой синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов подключен ко второму синхронизирующему входу системы, при этом информационные выходы группы блока формирования анализируемых подмножеств словарного состава документов соединены с соответствующими информационными входами группы блока передачи данных о корпусе документов, блок передачи анализируемых подмножеств слов документов, информационный вход которого соединен с информационным выходом блока формирования анализируемых подмножеств словарного состава документов, один синхронизирующий вход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, а другой синхронизирующий вход блока передачи анализируемых подмножеств слов документов является сигнальным входом системы, при этом управляющие выходы группы блока передачи анализируемых подмножеств слов документов соединены с соответствующими управляющими входами группы блока передачи данных о корпусе документов, а первый синхронизирующий выход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему входу блока передачи данных о корпусе документов, блок формирования данных для оценки близости документов, один информационный вход которого соединен с выходом блока задания критерия выбора найденных документов, другой информационный вход блока формирования данных для оценки близости документов подключен ко второму выходу блока приема найденных документов, первый синхронизирующий вход блока формирования данных для оценки близости документов соединен с четвертым синхронизирующим входом системы, а второй синхронизирующий вход блока формирования данных для оценки близости документов подключен ко второму синхронизирующему выходу блока передачи анализируемых подмножеств слов документов, при этом первый управляющий выход блока формирования данных для оценки близости документов соединен с первым управляющим входом блока формирования анализируемых подмножеств словарного состава документов, второй управляющий выход блока формирования данных для оценки близости документов подключен ко второму управляющему входу блока формирования анализируемых подмножеств словарного состава документов, первый синхронизирующий выход блока формирования данных для оценки близости документов соединен со счетным входом блока подсчета числа найденных документов, а установочный выход блока формирования данных для оценки близости документов подключен к установочному входу блока приема данных найденных документов, и блок выдачи данных для оценки близости документов, первый и второй синхронизирующие входы которого соединены со вторым и третьим синхронизирующими выходами блока формирования данных для оценки близости документов соответственно, третий синхронизирующий вход блока выдачи данных для оценки близости документов подключен к сигнальному входу системы, а четвертый синхронизирующий вход блока выдачи данных для оценки близости документов подключен ко второму синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, при этом информационный выход блока выдачи данных для оценки близости документов является адресным выходом системы, предназначенным для выдачи адресов считывания и записи данных на адресный вход сервера базы данных, первый синхронизирующий выход блока формирования матрицы оценки близости является первым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления записью данных на первый канал прерывания сервера базы данных, второй синхронизирующий выход блока выдачи данных для оценки близости документов является вторым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления считыванием данных на вход второго канала прерывания сервера базы данных, сигнальный выход блока выдачи данных для оценки близости документов является сигнальным выходом системы, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, а управляющий выход блока выдачи данных для оценки близости документов соединен с управляющим входом блока формирования анализируемых подмножеств словарного состава документов.



 

Похожие патенты:
Наверх