Устройство для распознавания изолированных слов

Авторы патента:

G10L7/04 - (Рубрика аннулирована. Содержание перенесено в G10L 13/00, G10L 15/00, G10L 17/00, G10L 19/00)

Изобретение относится к технике цифровой обработки речи и может быть использовано в различных приложениях, таких, как системы речевого общения человека с ЭВМ, автоматическая коммутация в телефонной сети голосом абонента, медицинские исследования патологий речеобразующего тракта пациентов и других. Техническим результатом изобретения является повышение точности распознавания изолированных слов независимо от темпа, громкости и частоты основного тока речи произвольного диктора. Сущность изобретения состоит в том, что в устройство для распознавания изолированных слов, содержащее анализатор моментов начала и окончания слова, блок сегментации слова на интервалы, блок обработки, включающий в себя измеритель среднего числа переходов через нуль и измеритель средней энергии сигнала, а также последовательно соединенные блок предварительной классификации и блок окончательной классификации, выход которого является выходом устройства, введены дополнительно оперативное запоминающее устройство (ОЗУ), измеритель длительности слова, аналого-цифровой преобразователь уровня (АЦПУ) и аналого-цифровой преобразователь (АЦП) числа нулей, при этом первый выход анализатора моментов начала и окончания слова подключен к информационному входу ОЗУ, первый и второй выходы которого соединены соответственно с информационными входами АЦПУ и АЦП числа нулей, их выходы поданы соответственно на первый и второй входы блока предварительной классификации, третий вход которого объединен с входами сброса АЦПУ и АЦП числа нулей и подключен к выходу блока сегментации слова на интервалы, опорные входы АЦПУ и АЦП числа нулей соединены соответственно с выходами измерителя средней энергии сигнала и измерителя среднего числа переходов через нуль, входы которых подключены к первому выходу анализатора моментов начала и окончания слова, второй выход которого подан на объединенные входы записи/считывания ОЗУ и вход измерителя длительности слова, выход которого соединен со входом блока сегментации слова на интервалы. 1 ил.

Предлагаемое изобретение относится к технике цифровой обработки речи и может быть использовано в различных приложениях, таких, как системы речевого общения человека с ЭВМ, автоматическая коммутация в телефонной сети голосом абонента, медицинские исследования патологий речеобразующего тракта пациентов и других.

Известна система, реализованная на ЭВМ /1/. В ней распознаются 200 изолированных слов (разделяемых достаточно продолжительными паузами), произнесенных отдельными дикторами, речь которых была использована для обучения.

Недостатком этой системы является ее техническая сложность, приводящая к тому, что не достигается работа в реальном масштабе времени. Время обработки произнесенного слова примерно в 22 раза превышает реальное, что снижает оперативность распознавания речи и сужает области применения данной системы.

Известна также система распознавания изолированных цифр, инвариантная к голосам дикторов, содержащая последовательно соединенные анализатор моментов начала и окончания слова, блок сегментации слова на интервалы, блок обработки, а также блоки предварительной и окончательной классификации /2/.

Недостатком описанного прототипа является невысокая точность распознавания изолированных слов вследствие ее зависимости от темпа речи, громкости и частоты основного тона голоса диктора. Известно, что продолжительность и громкость звучания данного слова, произнесенного одним и тем же диктором в разное время, оказываются неодинаковыми. Тем более это справедливо для набора различных голосов, отличающихся к тому же частотой основного тона речи. Это затрудняет идентификацию слова при сравнении его с эталонами, записанными в памяти устройства распознавания.

К другим недостаткам прототипа относятся его сравнительная схемотехническая сложность, связанная с реализацией методов линейного предсказания речи, а также некоторая избыточность количества измеряемых в блоке обработки параметров речи, взаимно коррелированных и дублирующих друг друга.

Техническим результатом предлагаемого изобретения является повышение точности распознавания изолированных слов независимо от темпа, громкости и частоты основного тона речи произвольного диктора.

Сущность изобретения состоит в том, что в устройство для распознавания изолированных слов, содержащее анализатор моментов начала и окончания слова, блок сегментации слова на интервалы, блок обработки, включающий в себя измеритель среднего числа переходов через нуль и измеритель средней энергии сигнала, а также последовательно соединенные блок предварительной классификации и блок окончательной классификации, выход которого является выходом устройства, введены дополнительно оперативное запоминающее устройство (ОЗУ), измеритель длительности слова, аналого-цифровой преобразователь уровня (АЦПУ) и аналого-цифровой преобразователь (АЦП) числа нулей, при этом первый выход анализатора моментов начала и окончания слова подключен к информационному входу ОЗУ, первый и второй выходы которого соединены соответственно с информационными входами АЦПУ и АЦП числа нулей, их выходы поданы соответственно на первый и второй входы блока предварительной классификации, третий вход которого объединен с входами сброса АЦПУ и АЦП числа нулей и подключен к выходу блока сегментации слова на интервалы, опорные входы АЦПУ и АЦП числа нулей соединены соответственно с выходами измерителя средней энергии сигнала и измерителя среднего числа переходов через нуль, входы которых подключены к первому выходу анализатора моментов начала и окончания слова, второй выход которого подан на объединенные входы записи / считывания ОЗУ и вход измерителя длительности слова, выход которого соединен со входом блока сегментации слова на интервалы.

На чертеже представлена структурная схема устройства распознавания изолированных слов.

Устройство содержит последовательно соединенные анализатор моментов начала и окончания слова 1, оперативное запоминающее устройство (ОЗУ) 2, блок обработки 3, включающий в себя измеритель средней энергии сигнала 4 и измеритель среднего числа переходов через нуль 5, АЦПУ 6, АЦП числа нулей 7, блок предварительной классификации 8, блок окончательной классификации 9, измеритель длительности слова 10 и блок сегментации слова на интервалы 11.

Устройство работает следующим образом. На вход анализатора моментов начала и окончания слова 1 поступают отсчеты речевого сигнала, следующие с частотой дискретизации F = 8 КГц. Благодаря тому, что каждому изолированному слову предшествует пауза, имеется возможность надежно определить моменты начала и окончания слова, установив адаптивный порог различения по уровню. С этой целью в анализаторе моментов начала и окончания слова 1 в паузе между словами осуществляется измерение среднего уровня шума и по результатам измерений определяется адаптивный порог, превышающий максимальное значение шума. Момент превышения этого порога принимается за начало слова, а момент, после которого сигнал в течение заданного времени оказывается ниже порога, считается моментом окончания слова. Использование адаптивного порога позволяет обеспечить надежное распознавание моментов начала и окончания слова в широком диапазоне значений отношения сигнал / шум на входе устройства, при условии (P_с/P_ш) > 10.

После распознавания момента начала звучания слова происходит запись отсчетов речевого сигнала в ОЗУ (2) вплоть до окончания слова. Одновременно в измерителе длительности слова 10 происходит определение продолжительности звучания с целью дальнейшего разделения слова на сегменты оптимальной длительности. Этим достигается нормирование темпа речи, благодаря чему, независимо от продолжительности произнесения слова, оно оказывается в блоке сегментации слова на интервалы 11 разделенным на фиксированное число n сегментов. Медленному темпу речи соответствуют сегменты большей длительности, быстрому темпу соответствуют короткие сегменты. Выбор в прототипе /2/ сегментов фиксированной длительности приводил к тому, что одно и то же слово, произнесенное в разном темпе, содержало различное число интервалов. Это соответствовало изменению масштаба по оси времени, что затрудняло объективное сравнение данного слова с эталоном, хранящимся в блоке предварительной классификации 8.

В продолжение звучания слова в блоке обработки 3 происходит измерение средней энергии сигнала и среднего числа переходов через нуль. По аналогии с /2/, в качестве энергетического параметра используется средний модуль отсчета сигнала, найденный как среднее арифметическое модулей отсчетов сигнала на протяжении всего слова. Информация о среднем модуле позволяет нормировать речевой сигнал по уровню и устранить зависимость точности распознавания слов от громкости речи. Выбор в АЦПУ 6 адаптивного шага квантования, пропорционального среднему модулю отсчета сигнала, обеспечивает автоматическую регулировку уровня речи. Громким голосам будет соответствовать крупный шаг квантования, тихим - малый шаг, благодаря чему число значащих разрядов двоичного кода на выходе АЦПУ 6 получается одинаковым.

Аналогично, информация на выходе АЦП числа нулей 7 позволяет нормировать голоса по основному тону речи. Среднее число переходов сигнала через нулевой уровень в единицу времени на протяжении звучания слова пропорционально частоте основного тона речи. Для мужских голосов интенсивность переходов через нуль оказывается низкой, поскольку в составе речи преобладают низкие частоты. Для женских и детских голосов основной тон речи в среднем в (1,5-2) раза выше, в речи преобладают более высокие частоты, соответственно растет и интенсивность переходов сигнала через нулевой уровень.

Выбор в АЦП числа нулей 7 адаптивного шага квантования, пропорционального интенсивности смен знака речевого сигнала, обеспечивает постоянство разрядности m двоичного кода на втором входе блока предварительной классификации 8.

Таким образом, каждому произнесенному слову можно поставить в соответствие два нормированных звуковых образа. Первый из них отображает в цифровой форме зависимость нормированного уровня сигнала от номера сегмента (от первого до n-го, где n - фиксированное число сегментов, на которые подразделяется каждое слово).

Второй звуковой образ отображает зависимость нормированной текущей частоты сигнала от дискретного времени, т.е. от номера сегмента внутри данного слова.

Каждый из этих двух звуковых образов отображается последовательностью из n двоичных кодов. Разрядность m двоичных кодовых комбинаций должна выбираться из компромиссных соображений.

С одной стороны, увеличение числа разрядов m повышает точность цифрового отображения звукового образа, позволяет передать больше информации о характере изменения уровня и частоты речевого сигнала на протяжении звучания слова. С другой стороны, требование независимости точности распознавания слова от индивидуальных особенностей голосов различных дикторов обуславливает необходимость снижения разрядности m. При этом звуковой образ сохраняет только основную информацию, общую для всех голосов, произносящих данное слово, а индивидуальные различия оказываются потерянными. Многочисленные эксперименты на ПЭВМ показали, что оптимальное значение разрядности кодов на выходах АЦПУ 6 и АЦП числа нулей 7 составляет m=(2-3), что соответствует числу градаций нормированного уровня и частоты N=(4-8). При этом адаптивный шаг квантования по уровню и частоте в N/2 раз меньше средних значений соответственно уровня и интенсивности числа нулей на протяжении данного слова.

Фиксированное количество сегментов n, на которое делится каждое слово, также выбирается из компромиссных соображений. С одной стороны, увеличение n позволяет более детально отобразить в цифровой форме характер непрерывных изменений во времени громкости и частоты голоса, произносящего слово. С другой стороны, увеличение числа сегментов n приводит к сокращению длительности каждого сегмента и росту погрешности усреднения уровня и числа смен знака сигнала на протяжении короткого интервала. Известно, что продолжительность самых коротких невокализованных звуков речи составляет порядка (30 - 40) мс. Этот интервал принимается за интервал стационарности речи, в течение которого целесообразно производить усреднение параметров речевого сигнала. Поскольку средняя продолжительность звучания одной буквы слова составляет порядка 0,1 сек, а слово звучит в среднем (0,5-0,6) сек, оптимальное число сегментов составляет n=(12-20). Целесообразно выбрать n=16, тогда код длительности сегмента может быть легко найден простым сдвигом двоичного кода числа отсчетов на выходе измерителя длительности слова 10 на четыре разряда влево.

В итоге, каждому слову соответствуют два набора из 16-ти (двух-трех)-разрядных кодов, отображающих изменение соответственно нормированной громкости и частоты звучания голоса на протяжении произносимого слова, разделенного на фиксированное число сегментов.

В постоянном запоминающем устройстве (ПЗУ) блока предварительной классификации 8 записаны по два эталонных набора кодов для каждого слова, полученных путем усреднения звучания многих голосов различных дикторов. Эталонные наборы также содержат каждый n=16 (2-3)-х разрядных двоичных кодов. В процессе распознавания слова в блоке предварительной классификации 8 происходит запись в ОЗУ поступающей на его первый и второй входы информации и ее сравнение с записанными в ПЗУ эталонными наборами кодов, характеризующими произнесенное слово. При этом определяются кодовые расстояния d_i между текущими и эталонными кодами каждого i-го сегмента (i= 1,2,........16) для каждого из K записанных слов в ПЗУ блока предварительной классификации 8. Этот процесс завершается определением среднего квадрата расстояния L_j² между набором n кодов принятого слова и любым j-ым эталонным набором, отображающим изменение громкости или частоты звучания j-го слова.

В блоке окончательной классификации 9 должно быть вынесено решение о том, какое из K слов произнесено, по результатам сравнения между собой значений среднего квадрата расстояния L_j² и выбора номера слова r, для которого L_r² оказалось минимальным.

Для упрощения и ускорения процедуры принятия решения желательно отказаться от полного перебора и сравнения между собой всех K пар значений L_j², по два для каждого из K слов. С этой целью в блоке предварительной классификации 8 осуществляется разделение всех возможных K слов на несколько групп по ряду признаков. Так например, произносимые на русском языке цифры от 0 до 9 могут быть подразделены на две группы - первую, содержащую шесть односложных слов (0, 2, 3, 5, 6, 7), и вторую, содержащую четыре двусложных слова (1, 4, 8, 9). В свою очередь, внутри каждой группы можно выделить подгруппу слов, содержащих ударный гласный звук в начале слова (0, 5, 6, 7) или в его конце (2, 3) для первой группы слов, соответственно (8, 9) или (1, 4) для второй группы слов. Выделение вокализованных гласных звуков и определение местоположения ударных гласных можно осуществить, анализируя звуковые образы, отображающие изменения во времени громкости и частоты голоса. Так, ударным гласным звукам соответствуют отрезки максимальной громкости и максимальной протяженности звучания, охватывающей подряд несколько сегментов речевого сигнала. Безударным гласным звукам также соответствует некоторый подъем уровня сигнала сравнительно с невокализованными звуками. Кроме того, гласные звуки характеризуются стационарностью (примерным постоянством уровня и частоты переходов через нуль) на протяжении нескольких сегментов речи, чего нельзя сказать о невокализованных согласных звуках, особенно глухих (типа "т", "ч", "п", "ш", "с"), отличающихся к тому же резко заниженным уровнем громкости, сравнительно с гласными звуками, и повышенной частотой переходов через нуль.

По ряду признаков произнесенное слово в блоке предварительной классификации 8 оказывается отнесенным с наибольшей вероятностью к одной из групп, содержащей значительно меньшее количество слов Q (Q << K). Информация о номере этой группы поступает в блок окончательной классификации 9, где осуществляется перебор и сравнение между собой значений L_j², j=1,2,........K.

Окончательное решение принимается в пользу того j-го слова из Q возможных, для которого величины L_j² окажутся минимальными одновременно как при анализе звукового образа, отображающего громкость звучания, так и образа, характеризующего частоту переходов сигнала через нуль.

В случае невыполнения этих условий ни для одного из Q слов, на выходе блока окончательной классификации 9 сформируется сигнал переспроса, требующий повторного произнесения слова.

Сопряжение предложенного устройства распознавания изолированных слов с ПЭВМ позволяет обеспечить речевой ввод информации в компьютер, в памяти которого предварительно записаны эталоны произносимых слов. В простейшем случае, распознавание изолированных цифр от 0 до 9 в сочетании со словами, "точка", "ввод", "забой", освобождает оператора ПЭВМ от необходимости пользоваться клавиатурой при вводе цифровой информации в память компьютера.

С учетом возможностей современной элементной базы, описанное устройство реализуется в цифровой форме либо с использованием дискретных микросхем жесткой логики в сочетании с БИС ОЗУ и ПЗУ, либо на основе микропроцессоров среднего быстродействия КМОП-структуры, с малым потреблением тока.

В обоих вариантах распознавание осуществляется в реальном масштабе времени, а именно в паузе между словами происходит распознавание предшествующего слова.

Литература: 1. Дж.Д. Маркел, А.X. Грэй. Линейное предсказание речи. М.: Связь, 1980, стр. 282-283.

2. Л. P. Рабинер, P.В. Шафер. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981, стр.456-464.

Формула изобретения

Устройство для распознавания изолированных слов, содержащее анализатор моментов начала и окончания слова, блок сегментации слова на интервалы, блок обработки, включающий в себя измеритель среднего числа переходов через нуль и измеритель средней энергии сигнала, а также последовательно соединенные блок предварительной классификации и блок окончательной классификации, выход которого является выходом устройства, отличающееся тем, что введены дополнительно оперативное запоминающее устройство, измеритель длительности слова, аналого-цифровой преобразователь уровня и аналого-цифровой преобразователь числа нулей, при этом первый выход анализатора моментов начала и окончания слова подключен к информационному входу оперативного запоминающего устройства, первый и второй выходы которого соединены соответственно с информационными входами аналого-цифрового преобразователя уровня и аналого-цифрового преобразователя числа нулей, их выходы поданы соответственно на первый и второй входы блока предварительной классификации, третий вход которого объединен с входами сброса аналого-цифрового преобразователя уровня и аналого-цифрового преобразователя числа нулей и подключен к выходу блока сегментации слова на интервалы, опорные входы аналого-цифрового преобразователя уровня и аналого-цифрового преобразователя числа нулей соединены соответственно с выходами измерителя средней энергии сигнала и измерителя среднего числа переходов через нуль, входы которых подключены к первому выходу анализатора моментов начала и окончания слова, второй выход которого подан на объединенные входы записи/считывания оперативного запоминающего устройства и вход измерителя длительности слова, выход которого соединен со входом блока сегментации слова на интервалы.

РИСУНКИ

Рисунок 1

Способ распознавания речевых образов // 1751810

Изобретение относится к акустике, в частности к способам распознавания речевых сигналов

Способ фоностенографирования // 2140103

Изобретение относится к способам регистрации речевых сообщений и может найти применение при фоностенографировании