Устройство для фонетического анализа и тестирования качества речи

Авторы патента:

Решение относится к технике автоматического распознавания образов на основе спектрального анализа речевых сигналов и может быть использовано для автоматической сегментации речевых сигналов на ключевом этапе настройки и обучения систем автоматической обработки и распознавания речевых сигналов.

Предложено в устройстве для фонетического анализа и тестирования качества речи ввести первый и второй счетчики импульсов, блок деления и генератор тактовых импульсов, приведена блок-схема устройства.

Повышается точность тестирования качества речи за счет применения количественного показателя: вероятности безошибочного распознавания речевых единиц в непрерывном потоке речи.

1 с.п. ф-лы, 1 илл.

Вероятностный или теоретико-информационный подход в задачах автоматической обработки устной речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Однако сама идея статистического (по ансамблю реализации) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле речевых сигналов в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач.

Условно говоря, человеческий мозг объединяет и запоминает как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждого отдельного слова в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом». Это главный постулат информационной теории восприятия речи (ИТВР), созданной в рамках проекта Российского фонда фундаментальных исследований (РФФИ) 07-07-12042-офи.

Известно устройство для распознавания слов по авт. свидетельству СССР 1159060, G10L 1/00, опубл. 30.05.1985 г. Устройство содержит микрофон, соединенный со спектрализатором, блок измерения сходства с присоединенным к его второму входу блоком памяти эталонов, блок принятия решений, выход которого является выходом устройства, для повышения быстродействия в него введены блок нормализации, блок сегментного анализа и детектор границ слов. Во втором зависимом пункте формулы раскрыт блок измерения сходства, первый вход которого соединен с информационным выходом блока нормализации, а выход - с блоком принятия решений. Речевой сигнал, принятый микрофоном, преобразуется в вектор спектральных амплитуд речевого сигнала в спектроанализаторе, начало слова и его конец обнаруживаются детектором границ слов, в пределах которых вектор спектральных амплитуд анализируется блоком сегментного анализа, с помощью которого формируется код чередования фонетических типов сегментов, составляющих анализируемое слово. Этот код используется для выделения зон, из которых в блоке памяти эталонов считываются векторы эталонных сигналов, все прочие эталоны исключаются из дальнейшей обработки принятого вектора спектральных амплитуд.

Недостатком этого устройства является необоснованно большое количество фонетических типов сегментов в анализируемом речевом сигнале, что ограничивает его функциональные возможности.

В качестве прототипа принято устройство для фонетического анализа речи (патент на полезную модель 80000, G01L 15/00, опубл. 20.01.2009).

Устройство для фонетического анализа речи содержит последовательно соединенные микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений, блок памяти эталонов, блок оперативной памяти и блок коммутации, причем спектроанализатор установлен после блока сегментного анализа, вход которого подключен к микрофону, а выход к спектроанализатору, выходы его - к блоку нормализации, к информационному выходу которого подключен блок оперативной памяти, а к выходу последнего - через блок коммутации подключен информационный вход блока памяти эталонов, управляющий вход блока коммутации соединен также с выходом блока принятия решений, вход которого соединен с выходом блока измерения сходства, первый вход которого подключен к выходу блока нормализации, а второй вход - к выходу блока памяти эталонов, который является выходным устройством.

Это устройство может быть использовано и для тестирования речи по результатам ее фонетического анализа. Это осуществляется с помощью блока визуализации (графическое отображение). Однако результатом такого тестирования могут быть исключительно качественные выводы в отношении выявленных различий в фонетическом составе речи разных дикторов, что говорит о недостаточной точности тестирования качества устной речи.

Эти недостатки устраняются предлагаемым решением.

Решается задача расширения функциональных возможностей устройства.

Технический результат - повышение точности тестирования качества речи за счет применения количественного показателя: вероятности безошибочно распознавания элементарных речевых единиц в непрерывном потоке речи.

Этот технический результат достигается тем, что в устройство для фонетического анализа и тестирования качества речи, содержащее последовательно соединенные микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений и блок памяти эталонов, выход которого подключен к группе вторых входов блока измерения сходства, введены первый и второй счетчики импульсов, блок деления и генератор тактовых импульсов, выход которого соединен с управляющим входом блока сегментного анализатора и входом первого счетчика импульсов, вход второго счетчика импульсов - с выходом блока принятия решений, а его выход - с входом блока деления, выход которого является выходом устройства, к нему также подключен выход первого счетчика импульсов.

Предлагаемое включение элементов схемы обеспечивает оценку вероятности ошибки распознавания очередного стационарного отрезка речевого сигнала.

Предлагаемое устройство приведено на чертеже. Оно включает последовательно включенные микрофон 1, блок сегментного анализа 2, спектроанализатор 3, блок нормализации 4, блок измерения сходства 5, блок принятия решений 6, блок памяти эталонов 7, генератор тактовых импульсов 8, первый и второй счетчики импульсов 9, 10.

Выход генератора тактовых импульсов 8 соединен с управляющим входом блока сегментного анализа 2 и входом первого счетчика импульсов 9. Вход второго счетчика импульсов 10 соединен с выходом блока принятия решений 6, а его выход - с входом блока деления 11, к нему также подключен выход первого счетчика импульсов 9.

Устройство работает следующим образом.

Тестируемый речевой сигнал от конкретного диктора с выхода микрофона 1 x(t) через блок сегментного анализа 2 подается на вход спектроанализатора 3, на второй вход блока сегментного анализа 2 подается последовательность тактовых импульсов с выхода генератора тактовых импульсов 8. Период тактовых импульсов Т=10-15 мс - это период приблизительной стационарности речевого сигнала. В результате на выходе блока сегментного анализа 2 формируется последовательность приблизительно стационарных отрезков речевого сигнала. Спектроанализатор 3 по каждому отрезку вычисляет оценку СПМ G_m(t) и дисперсии, порождающие шумы _m². Полученные результаты в текущем времени t передаются в блок нормализации , где формируется нормированная оценка СПМ очередного стационарного отрезка речевого сигнала по формуле G_m(t)/_m². нормированная оценка СПМ с выхода блока нормализации 4 подвергается сравнению в первом блоке измерений сходства 5 с аналогичной СПМ на множестве фонем эталонов с выхода блока памяти эталонов 7. Минимальная величина измеренного сходства (x_m) с выхода блока измерения сходства 5 поступает на блок принятия решений 6, где сравнивается с фиксированным пороговым уровнем ₀. Если ₀(x_m)<₀, то на выходе блока принятия решений 6 сигнал отсутствует, в противном случае появляется единичный импульс. Последовательность единичных импульсов с выхода блока принятия решений 6 суммируется в счетчике импульсов 10 на интервале запуска генератора тактовых импульсов 8. Одновременно на всем указанном интервале в первом счетчике импульсов 9 суммируется общее число тактовых импульсов, а результат суммирования в счетчике импульсов 10 в блоке деления 11 делится на общее число тактовых импульсов, и в результате получаем оценку вероятности ошибки распознавания очередного стационарного отрезка речевого сигнала. Чем больше таких ошибок, тем менее различимы фонемы данного диктора по отношению к фонемам-эталонам. Поэтому полученный результат может быть использован в качестве количественной меры качества данной устной речи.

Устройство для фонетического анализа и тестирования качества речи, содержащее последовательно соединенные микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений и блок памяти эталонов, выход которого подключен к группе вторых входов блока измерения сходства, отличающееся тем, что введены первый счетчик импульсов, второй счетчик импульсов, блок деления и генератор тактовых импульсов, выход которого соединен с управляющим входом блока сегментного анализа и входом первого счетчика импульсов, вход второго счетчика импульсов - с выходом блока принятия решений, а его выход - с входом блока деления, выход которого является выходом устройства, к нему также подключен выход первого счетчика импульсов.

Похожие патенты:

Детектор лжи // 105819