Устройство для кодирования семантики текстовых документов

 

Полезная модель относится к области обработки данных для специальных применений, в частности, для формирования семантического кодового вектора текстового документа. Требуемый технический результат, заключающийся в повышении быстродействия, достигается в устройстве, содержащем N параллельных сумматоров, N блоков умножения на весовые коэффициенты и N блоков сжатия отображения, выполненных в виде функциональных преобразователей входного сигнала Х в выходной сигнал Y по закону Y=0.5+arctg(X)/.

Полезная модель относится к области обработки данных для специальных применений, в частности, для преобразования исходных цифровых кодов во взвешенные коды, и может быть использована для кодирования семантики текстовых документов, когда определяющаяся по текстовому документу исходная семантическая информация преобразуется по специальному кодирующему алгоритму в семантический кодовый вектор этого документа.

Известно устройство, содержащее n параллельных сумматоров, входы и выходы которых являются, соответственно, группой входов и группой выходов устройства, а также n блоков умножения на весовые коэффициенты, при этом, вход i-ого блока умножения на весовые коэффициенты (i=1...N) соединен с выходом i-ого параллельного сумматора, а каждый из выходов j-ого блока умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-ого сумматора (i не = j) [А.В.Назаров, А.И.Лоскутов "Нейросетевые алгоритмы прогнозирования и оптимизации систем", Санкт-Петербург, "Наука и Техника", 2003 г., рис.2.8, 64].

Недостатком устройства является относительно узкие функциональные возможности, обусловленные тем, что, оно позволяет по исходной информации (искаженному сигналу о некотором объекте) сформировать выходной код - заключение о соответствии исходной информации одному из заданных эталонов (образцов), однако не позволяет сформировать семантический кодовый вектор текстового документа по исходной информации об этом документе.

Наиболее близким по технической сущности к предложенному является устройство, содержащее N параллельных сумматоров, входы которых являются группой входов устройства, а также N блоков умножения на весовые коэффициенты и N блоков сжатия отображения, при этом, каждый из выходов j-ого блока умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-ого параллельного сумматора (i=1...N, i не = j), входы i-ых блоков умножения на весовые коэффициенты (i=1...N) соединены с выходами одноименных блоков сжатия отображения, входы которых соединены с выходами одноименных параллельных сумматоров, а выходы - являются группой выходов устройства, причем, блоки сжатия отображения выполнены в виде функциональных преобразователей входного сигнала Х в выходной сигнал Y по закону Y=1/(1+exp(-X)) [RU 45579, U1, H03М 7/14, 2005].

Недостатком известного устройства является относительно низкое быстродействие для тестовых документов с близкими значениями относительных вероятностей совместного вхождения термов, поскольку в известном устройстве веса связей между узлами семантической сети определяются на основе анализа корпуса текстов как относительные вероятности совместного вхождения термов, соответствующих рассматриваемым узлам. При близких значениях относительных вероятностей совместного вхождения термов итерационный процесс сведения к единственному положению равновесия, зависящему от начального вектора, протекает относительно долго.

Требуемый технический результат заключается в повышении быстродействия устройства.

Требуемый технический результат достигается тем, что, в устройстве, содержащем N параллельных сумматоров, входы которых являются группой входов устройства, а также N блоков умножения на весовые коэффициенты и N блоков сжатия отображения, при этом, каждый из выходов j-ого блока

умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-ого параллельного сумматора (i=1...N, i не = j), входы i-ых блоков умножения на весовые коэффициенты (i=1...N) соединены с выходами одноименных блоков сжатия отображения, входы которых соединены с выходами одноименных параллельных сумматоров, а выходы - являются группой выходов устройства, блоки сжатия отображения выполнены в виде функциональных преобразователей входного сигнала Х в выходной сигнал Y по закону Y=0.5+arctg(X)/.

На чертеже представлена электрическая структурная схема устройства для кодирования семантики текстовых документов.

Устройство для кодирования семантики текстовых документов содержит N параллельных сумматоров 1-1...1-N, N блоков 2-1...2-N сжатия отображения и N блоков 3-1...3-N умножения на весовые коэффициенты.

При этом, входы i-ых блоков 3-1...3-N умножения на весовые коэффициенты (i=1...N) соединены с выходами одноименных блоков 2-1...2-N сжатия отображения, входы которых соединены с выходами одноименных параллельных сумматоров 1-1...1-N, входы которых являются группой входов 4-1...4-N устройства, а выходы блоков 2-1...2-N сжатия отображения являются группой выходов 5-1...5-N устройства.

Кроме того, каждый из выходов j-ого блока 3-1...3-N умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-ого параллельного сумматора 1-1...1-N (i=1...N, i не = j), а блоки 2-1...2-N сжатия отображения выполнены в виде функционального преобразователя входного сигнала Х в выходной сигнал Y по закону Y=0.5+arctg(X)/.

Блоки 3-1...3-N умножения на весовые коэффициенты могут быть выполнены аналогично их конструкции в устройстве-прототипе и содержать

N умножителей на весовые коэффициенты, входы которых объединены и являются входом соответствующего блока 3-1...3-N умножения на весовые коэффициенты, а выходы - являются выходами соответствующего блока 3-1...3-N умножения на весовые коэффициенты.

Параллельные сумматоры 1-1...1-N и умножители 6-1...6-N являются стандартными элементами вычислительной техники, а блоки 2-1...2-N сжатия отображения, выполняющие функции преобразования входного сигнала Х в выходной сигнал Y по закону Y=0.5+arctg(X)/, могут быть выполнены в виде специализированных устройств вычислительной техники, а в частном случае - в виде программируемых постоянных запоминающих устройств (ПЗУ), в которых каждому из заданных кодов на входе соответствуют требуемые коды на выходе. Приведенная функциональная зависимость Y=0.5+arctg(X)/ достаточна для их технической реализации (программирования).

Работает устройство для кодирования семантики текстовых документов следующим образом.

Предварительно рассмотрим технологию кодирования текстов, которая реализована в предложенном устройстве.

Реализованная технология кодирования текстов опирается на модель представления корпуса текстов в форме ассоциативной семантической сети, узлы которой представляют термы, т.е. ключевые слова или словосочетания документов корпуса, приведенные к нормальной форме, а связи выражают отношения между этими термами. Веса связей между узлами семантической сети определяются на основе анализа корпуса текстов, как относительные вероятности совместного вхождения термов соответствующих рассматриваемым узлам.

Обозначим через A={Ai|i=1,...,N} - множество всех вершин ассоциативной семантической сети, #А - число вхождений терма А в документы корпуса, а через Ai, Aj - ориентированное ребро сети с началом

в А i и концом в Aj. Мы предполагаем, что веса связей ассоциативной семантической сети удовлетворяют следующим условиям:

1) wij есть вес связи от выхода узла i ко входу узла j;

2) i, j=1,...,N, 0wij1, где N есть число узлов;

3) i=1,...,N, .

При определении весов связей семантической сети существуют различные принципы анализа совместного вхождения слов. Нами были использованы следующие два метода подсчета весов.

Метод 1. Формирование по предложениям.

Если пара термов {А, В} входит в одно общее предложение некоторого документа корпуса документов, то узлы А и В соединяются ребрами А, В и {В, А}. Обозначим через #{А,В} число совместных вхождений термов А и В в предложения документов корпуса. Ребру Аi, Аj сопоставим весовое значение wij=#{Аi, Аj}/#Ai. Обратному ребру Аi, Аj сопоставим весовое значение wij=#{Аi, Аj}/#Ai. Вес wij может быть интерпретирован, как «удельный вес» совместных вхождений термов Аi и А j в предложения документов корпуса по отношению ко всем вхождениям терма Аi в документы корпуса, или как относительная вероятность Р({Ai , Aj}|Ai). Если термы Аi и Аj не имеют совместных вхождений в предложения корпуса, то w ij=wji=0.

Метод 2. Формирование по окну.

Для каждого терма в документе коллекции будем рассматривать его ближайшие окружение (окно). Для примера рассмотрим окно вида [(wn-2wn-1 )fn(wn+1w n)], где fn - центральный элемент окна. Например, для куска текста "this parrot is no more" такое окно будет выглядеть [(this parrot) is (no more)]. Если пара термов {А, B} входит в одно общее окно корпуса

документов, то вершины А и В соединяются ребрами А, B и B, А. Пусть #{А, B} - суммарное число вхождений терма В во все окна с центральным элементом А. Ребру Аi, Аj сопоставим весовое значение wij= #{Аi, Аj}/#Ai.

Обратному ребру Аj, Аi сопоставим весовое значение wij= #{Аi, Аj}/#Aj.

С точки зрения семантики, ассоциативная семантическая сеть индуцирует смысловой контекст корпуса документов, в рамках которого (или с учетом которого) порождаются семантические кодовые вектора текстовых документов. С целью генерации семантических кодовых векторов ассоциативная семантическая сеть используется нами для построения однослойной нейронной сети с обратными связями и с параллельной динамикой, которая строится при помощи следующей конструкции.

Сопоставим узлу Аi ассоциативной семантической сети узел i сети. Выходное значение узла i подадим на вход узла j с весовым коэффициентом wij. В качестве функции активации узла сети выберем функцию , осуществляющую сжатие отображения. Как показали исследования с использованием текстовых документов эта функция обеспечивает большее быстродействие в условиях, когда значения относительных вероятностей совместного вхождения термов отличаются между собой незначительно.

Для генерации семантического кодового вектора документа D задается начальный кодовый вектор Х D размерности N, состоящий из нулей и единиц, где N - число вершин ассоциативной семантической сети. На i-м месте вектора стоит 1, если i-й терм входит в документ D и 0 - в противном случае.

Построенный таким образом вектор Х D подается на вход сети, после чего выполняется последовательность итераций, сходящихся к единственному положению равновесия, зависящему от начального вектора

XD, т.е. от текстового документа D. Найденное положение равновесия, соответствующее сформированному коду на выходах сети, принимается за семантический кодовый вектор документа D.

В предложенном устройстве описанная технология реализуется следующим образом.

На входы параллельных сумматоров 1-1...1-N, которые являются группой входов 4-1...4-N устройства, подается начальный кодовый вектор Х D размерности N, состоящий, например, из сигналов с уровнями логических нулей и единиц и являющийся исходной информацией о соответствующем текстовом документе. Сигналы с выходов параллельных сумматоров 1-1...1-N поступают на входы соответствующих им блоков 2-1...2-N сжатия отображения, в которых производится функциональное преобразование их входных сигналов в выходные сигналы по закону Y=0.5+arctg(X)/. Преобразованные таким образом сигналы поступают на входы соответствующих i-ых блоков 3-1...3-N умножения на весовые коэффициенты, в которых производится умножение выходных сигналов i-ых блоков 2-1...2-N сжатия отображения на весовые коэффициенты w ij. Поскольку каждый из выходов j-ого блока 3-1...3-N умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-ого параллельного сумматора 1-1...1-N (i=1...N, i не = j), то это обеспечивает подачу выходных сигналов блоков 3-1...3-N умножения на весовые коэффициенты на входы соответствующих параллельных сумматоров 1-1...1-N. По окончании короткого переходного процесса на группе выходов 5-1...5-N устройства формируется семантический кодовый вектор соответствующего текстового документа.

Таким образом, благодаря введенным усовершенствованиям предложенное устройство обладает большим быстродействием за счет сокращения длительности итерационного процесса для большого класса текстовых документов.

Устройство для кодирования семантики текстовых документов, содержащее N параллельных сумматоров, входы которых являются группой входов устройства для кодирования семантики текстовых документов, а также N блоков умножения на весовые коэффициенты и N блоков сжатия отображения, при этом, каждый из выходов j-го блока умножения на весовые коэффициенты (j=1...N) соединен с соответствующим ему входом взвешенного сигнала i-го параллельного сумматора (i=1...N, i не = j), входы i-х блоков умножения на весовые коэффициенты (i=1...N) соединены с выходами одноименных блоков сжатия отображения, входы которых соединены с выходами одноименных параллельных сумматоров, а выходы - являются группой выходов устройства для кодирования семантики текстовых документов, отличающееся тем, что, блоки сжатия отображения выполнены в виде функциональных преобразователей входного сигнала Х в выходной сигнал Y по закону Y=0.5+arctg(X)/.



 

Похожие патенты:

Полезная модель относится к области подъемно-транспортной техники и может быть использована в системах управления и защиты от перегрузок мостовых и козловых электрических кранов при использовании их во взрывоопасных зонах
Наверх