Устройство для фонетического анализа и распознавания речи

 

Решение относится к автоматике и вычислительной технике и может быть использовано при решении задачи автоматического распознавания речи с автоматическим формированием базы данных эталонных слов. Его использование позволяет получить технический результат в виде увеличения точности распознавания произносимых четко (с выделением слогов) произвольным диктором в компьютер слов и словосочетаний, сравниваемых с большим количеством эталонов, хранящихся в памяти устройства. Технический результат достигается за счет того, что устройство для анализа и распознавания речи включает в себя микрофон, блок сегментации сигнала, спектроанализатор, блок нормализации, блок измерения сходства между фонемами, блок принятия решений, блок коммутации, блок памяти эталонов фонем, блок измерения сходства между словами, второй блок принятия решений, блок оперативной памяти, блок выделения слогов, блок выделения слов, блок формирования фонетического кода слога и блок памяти эталонов слов. Указаны связи между блоками устройства.

1 с.п.формулы, 1 илл.

Решение относится к автоматике и вычислительной технике, а более конкретно к системам автоматической обработки речи.

В большинстве известных способов преобразования речи в текст распознаваемый сигнал разными способами преобразуется в систему электрических импульсов, переводится в цифровую форму, разбивается на последовательность элементарных речевых единиц (ЭРЕ) типа отдельных фонем, и в дальнейшем эта последовательность сравнивается (чаще всего, в спектральной области) с аналогично полученными последовательностями ЭРЕ для преобразованных эталонов из словаря.

Так, устройство перевода речи в текст по заявке US 2010/0217591 A1, G10L 15/00, от 26.08.2010 г., включает микрофон, блок выделения слов, спектроанализатор, блок выделения гласных звуков, блок измерения сходства спектров выделенных гласных фонем и блок принятия решения.

Однако недостатком этого устройства является выделение в анализируемом речевом сигнале только гласных звуков, что ограничивает его функциональные возможности. Кроме того, распознавание гласных в этом устройстве опирается на выделение формант (пиков в спектре), что приводит к дикторозависимости - необходимости предварительной адаптации устройства под конкретного диктора.

Известно устройство для фонетического анализа речи (см. патент РФ на полезную модель 80000, G01L 15/00, опубл. 20.01.2009 г.), содержащее последовательно соединенные микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений, блок коммутации и блок памяти эталонов, а также блок оперативной памяти между выходом блока нормализации и вторым (информационным) входом первого блока коммутации, при этом выход блока памяти эталонов соединен с вторым входом блока измерения сходства.

Однако в этом устройстве речевой сигнал рассматривается только как последовательность фонем, при этом информация о более высокоуровневых структурах (слоги, слова) не принимается во внимание.

Наиболее близким, по сумме признаков, принятым в качестве прототипа, является устройство для анализа и распознавания речи (см. патент РФ на полезную модель 90251, G10L 15/00, опубл. 27.12.2009 г.), включающее последовательно соединенные микрофон, блок сегментации сигнала, спектроанализатор, блок нормализации, блок измерения сходства между фонемами, блок принятия решений, блок коммутации, к второму входу блока измерения сходства между фонемами подключен первый выход блока памяти эталонов фонем, установлены блок измерения сходства между словами, второй блок принятия решений и блок оперативной памяти.

Однако это устройство не обеспечивает независимого от диктора перевода речи в текст.

Задача, на решение которой направлено заявляемое устройство, состоит в независящем от диктора переводе речи в текст с использованием автоматически сгенерированного словаря. Решаемая задача является весьма актуальной в связи с тем, что использующиеся на практике системы распознавания требуют неоправданно больших усилий для формирования эталонного словаря, не привязанного к конкретному диктору.

Технический результат, который может быть получен при реализации предлагаемого устройства, - резкое увеличение точности распознавания произносимых четко (с выделением слогов) произвольным диктором слов и словосочетаний, сравниваемых с большим количеством эталонов, хранящихся в памяти устройства за счет анализа внутренней структуры слов.

Этот технический результат достигается тем, что в устройство для фонетического анализа и распознания речи, включающее последовательно соединенные микрофон, блок сегментации сигнала, спектроанализатор, блок нормализации, блок измерения сходства между фонемами, блок принятия решений, блок коммутации, к второму входу блока измерения сходства между фонемами подключен первый выход блока памяти эталонов фонем, установлены блок измерения сходства между словами, второй блок принятия решений и блок оперативной памяти, введены блок выделения слогов, блок формирования фонетического кода слога, блок выделения слов и блок памяти эталонов слов, причем вход блока выделения слогов соединен с выходом блока сегментации сигнала, к выходу блока коммутации подключен первый вход блока формирования фонетического кода слога, ко второму входу последнего и к входу блока выделения слов подключен выход блока выделения слогов, выходы блока формирования фонетического кода слога и блока выделения слов через блок оперативной памяти подключены к первому входу блока измерения сходства между словами, к второму входу последнего подключен выход блока памяти эталонов слов, к входу которого и к второму входу блока коммутации подключен второй выход блока памяти эталонов фонем, выход блока измерения сходства между словами подключен к второму блоку принятия решений, который является выходом устройства.

Выделение блока формирования фонетического кода слога и блока памяти эталонов слов совместно с блоком памяти эталонов фонем позволило автоматизировать формирование словаря, где каждому слогу, полученному с выхода блока выделения слогов, в слове, полученном с выхода блока выделения слов, поставлен в соответствие вектор номеров эталонов фонем. При этом задача пополнения словаря сводится к задаче адаптации множества фонем, что является более простой задачей, с учетом очевидного обстоятельства - количество различных ЭРЕ типа фонем много меньше количества слов в словаре. А надежное решение этой задачи может быть получено на основе информационной теории восприятия речи (ИТВР), строгое математическое обоснование которой было впервые дано в работах авторского коллектива в рамках проекта РФФИ 07-07-12042-офи.

Блок-схема предлагаемого устройства приведена на чертеже.

Устройство для анализа и распознавания речи содержит микрофон 1, блок сегментации сигнала 2, спектроанализатор 3, блок нормализации 4, блок измерения сходства между фонемами 5, блок принятия решений 6, блок коммутации 7, блок памяти эталонов фонем 8, блок измерения сходства между словами 9, второй блок принятия решений 10, блок оперативной памяти 11, блок выделения слогов 12, блок формирования фонетического кода слога 13, блок выделения слов 14 и блок памяти эталонов слов 15. Блок выделения слогов 12 и спектроанализатор 3 установлены после блока сегментации сигнала 2, вход которого подключен к микрофону 1, выход спектроанализатора 3 подключен к входу блока нормализации 4, выход которого подключен к первому входу блока измерения сходства между фонемами 5, его выход подключен к входу блока принятия решения 6 и, через блок коммутации 7, к первому входу блока формирования фонетического кода слога 13, ко второму входу последнего и к входу блока выделения слов 14 подключен выход блока выделения слогов 12. Выходы блока формирования фонетического кода слога 13 и блока выделения слов 14 через блок оперативной памяти 11 подключены к первому входу блока измерения сходства между словами 9, к второму входу последнего подключен выход блока памяти эталонов слов 15, к входу которого и ко второму входу блока коммутации 7 подключен второй выход блока памяти эталонов фонем 8, выход блока измерения сходства между словами 9 подключен к второму блоку принятия решений 10, который является выходом устройства.

Устройство работает следующим образом. Анализируемый речевой сигнал x(t) длительностью Т, принятый микрофоном 1, разбивается на последовательность М сигналов xm(t), m=1,2,,M, длительностью =Т/М каждый в блоке сегментации сигнала 2. Далее по известному способу, основанному на резком изменении амплитуды речевого сигнала в начале слога, в блоке 12 выделяются отдельные слоги. По каждому последовательному сигналу xm(t) для каждого слога в спектроанализаторе 3 по известному методу определения спектра мощности авторегрессионного процесса оценивается текущая спектральная плотность мощности Gm{f) в диапазоне дискретных значений частоты f от 0 до F. Для вычисления коэффициентов авторегрессии применяется рекуррентная схема Берга-Левинсона с высокой скоростью сходимости. В блоке нормализации 4 вычисляется спектр мощности авторегрессионного процесса с нормированием его дисперсии порождающего шума . В блоке измерения сходства между фонемами 5 по нормированному спектру мощности вычисляются рассогласования (например, информационная метрика Кульбака-Лейблера) между сигналом xm(t) и сигналами из блока памяти эталонов фонем 8. В блоке принятия решений 6 минимальное расстояние между фонемами из блока памяти эталонов фонем 8 и сигналом xm(t) сравнивается с наперед заданным пороговым значением 0. Если для фонемы x(t) из блока памяти фонем 8, наиболее близкой к сигналу xm(t), рассогласование меньше порога р0 , то номер фонемы через блок коммутации 7 в блоке формирования фонетического кода слога 13 добавляется в фонетический код выделенного слога. Фонетические коды слогов, выделенные в блоке 13, накапливаются в блоке оперативной памяти 11.

Описанная процедура повторяется для каждого выделенного в блоке 12 слога, пока в блоке выделения слов 14 не будет принято решение об окончании текущего слова и начале следующего. В этом случае для накопленного в блоке оперативной памяти 11 фонетического кода слова в блоке измерения сходства между словами 9 вычисляется некое рассогласование (например, в метрике Хэмминга) с фонетическими кодами всех слов эталонов из блока памяти эталонов слов 15. Во втором блоке принятия решений выделяется слово-эталон, наиболее близкий (в смысле фонетического кода) к входному слову. Это слово и становится выходом предлагаемого устройства.

Предлагаемое техническое решение осуществлено в виде программы для ЭВМ. По результатам лабораторных испытаний сделаны выводы о повышении точности и надежности распознавания речи за счет введения дополнительных блоков и новых функциональных связей.

Предлагаемое устройство может быть использовано

- в речевом интерфейсе с ЭВМ

- при автоматическом переводе речи в текст («автоматический секретарь»)

- при взаимодействии с CALL-центрами (автоматическая обработка заказов товаров и услуг по телефону).

Устройство для анализа и распознавания речи, включающее последовательно соединенные микрофон, блок сегментации сигнала, спектроанализатор, блок нормализации, блок измерения сходства между фонемами, блок принятия решений, блок коммутации, к второму входу блока измерения сходства между фонемами подключен первый выход блока памяти эталонов фонем, установлены блок измерения сходства между словами, второй блок принятия решений и блок оперативной памяти, отличающееся тем, что в него введены блок выделения слогов, блок формирования фонетического кода слога, блок выделения слов и блок памяти эталонов слов, причем вход блока выделения слогов соединен с выходом блока сегментации сигнала, к выходу блока коммутации подключен первый вход блока формирования фонетического кода слога, ко второму входу последнего и к входу блока выделения слов подключен выход блока выделения слогов, выходы блока формирования фонетического кода слога и блока выделения слов через блок оперативной памяти подключены к первому входу блока измерения сходства между словами, к второму входу последнего подключен выход блока памяти эталонов слов, к входу которого и к второму входу блока коммутации подключен второй выход блока памяти эталонов фонем, выход блока измерения сходства между словами подключен к второму блоку принятия решений, который является выходом устройства.



 

Наверх