Анализатор основного тона и сигнала тон-шум

 

Полезная модель относится к технологии цифровой обработки речевого сигнала и может быть использована в системах эффективного кодирования и распознавания речи для выделения основного тона речевого сигнала и сигнала тон-шум. Техническим результатом, достигаемым в полезной модели, является повышение точности оценивания частоты основного тона путем определения максимума нормированной функции автокорреляции, инвариантной к длине обрабатываемого блока данных, и коррекции полученных значений частоты основного тона с использованием алгоритма динамического программирования. 3 ил.

Полезная модель относится к области цифровой обработки речевых сигналов и может быть использована в системах эффективного кодирования речи и распознавания речи для выделения основного тона речевого сигнала и сигнала тон-шум.

Известно устройство для автоматического выделения основного тона (А.А.Пирогов. Устройство для автоматического выделения основного тона. - А.с. №129739 СССР. - Приор. от 08.06.58.), содержащее балансные модуляторы, первые входы которых подключены параллельно с линией задержки к источнику входных сигналов, а вторые - к отводам линии задержки, и выходы балансных модуляторов через накопительные устройства (фильтры) и коммутатор соединены с выходным устройством, в качестве которого может быть применен двоичный счетчик или триггер.

В известном устройстве определяют автокорреляционную функцию входного сигнала, по максимумам которой принимают решение о периоде основного тона, поэтому данное техническое решение чувствительно к изменениям формы сигнала от периода к периоду основного тона. Наличие гармоник в речевом сигнале приводит к возрастанию ошибки определения частоты основного тона, а при реализации устройства требуется большое количество вычислений.

Наиболее близким по технической сущности устройством, принятым за прототип, является анализатор основного тона и сигнала тон-шум (Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. - М.: Радио и связь, 2003. - С.82, рис.5.3), содержащий аналого-цифровой преобразователь, фильтр нижних частот, детектор речи и блок коррекции периода основного тона и сигнала тон-шум, выход аналого-цифрового преобразователя подключен к входу

фильтpa нижних частот, а выход блока коррекции периода основного тона и сигнала тон-шум является выходом устройства.

Недостатком указанного устройства является наличие ошибок в оценивании частоты основного тона, обусловленных появлением ложных минимумов кратковременной функции средней разности выборок речевого сигнала, выделяемых с дискретностью 20 выборок на октаву.

Появление ложных минимумов кратковременной функции средней разности объясняется следующими причинами.

1. Речевой сигнал представляет собой нестационарный процесс. Если на стационарных участках его структура относительно регулярна, то на переходных участках (между фонемами, активной речью и паузами) он изменяется как по форме, так и по интенсивности. Количество ложных минимумов на нестационарных участках по сравнению со стационарными значительно возрастает (Вокодерная телефония. / Под ред. А.А.Пирогова. - М.: Связь, 1974. - 536 с.).

2. В процессе речеобразования возможно появление дополнительных возбуждений речевого тракта внутри периода основного тона (J.N.Holmes An investigation of the volume velocity waveform at the larynx during speech by means of inverse filter. // Proc. Speech Commun. Seminar. - Stockholm, 1962. Vol.1. - B4).

3. Ложные минимумов могут появляться из-за внешних аддитивных помех (Hess W. Pitch determination on Speech Signals. Springer-Verlag. New York, USA. 1983).

4. Появление ложных минимумов функции средней разности выборок речевого сигнала также связано с конечной длительностью речевого сигнала, используемого для ее вычисления (Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В.Назарова и Ю.Н.Прохорова. - М.: Радио и связь, 1981. - 496 с.).

Техническим результатом, на достижение которого направлена предлагаемая полезная модель, является повышение точности оценивания частоты основного тона путем использования нормированной функции взаимной корреляции, определяемой выражением:

где N - длина кадра речевого сигнала {s(t-N/2), s(t-n/2+1), ..., s(t+n/2-1)}, центрированного относительно момента времени t, для которого определяется частота основного тона.

Использование функции (1) позволяет повысить помехоустойчивость (способность выдавать верные оценки основного тона при наличии помех) анализатора основного тона и освободиться от проблемы выбора длины N обрабатываемого кадра речи (Huang, Xuedong. Spoken language processing: a guide to theory, algorithm and system development / Xuedong Huang, Alex Acero, Hsiao-Wnen Hon. Prentice Hall, 2001).

Для достижения такого технического результата в анализатор основного тона и сигнала тон-шум, содержащий аналого-цифровой преобразователь, выход которого подключен к входу фильтра нижних частот, детектор речи и блок коррекции периода основного тона и сигнала тон-шум, дополнительно введены блок вычисления нормированной функции автокорреляции, блок формирования задержки, цифровой дискриминатор, блок сравнения и решающее устройство. При этом выход фильтра нижних частот подключен к первому входу блока вычисления нормированной функции автокорреляции, к первому входу блока формирования задержки и к входу детектора речи, а первый выход блока формирования задержки подключен ко второму входу аналого-цифрового преобразователя. Второй выход блока формирования задержки подключен ко второму входу блока вычисления нормированной функции автокорреляции, первый выход которого соединен с входом цифрового дискриминатора, а второй выход - с первым входом блока сравнения. Выход цифрового дискриминатора соединен со вторым входом блока формирования задержки, третий выход которого соединен со вторым входом блока сравнения, выход которого подключен к первому

входу решающего устройства. Выход детектора речи подключен ко второму входу решающего устройства, выход которого подключен к входу блока коррекции периода основного тона и сигнала тон-шум.

На фиг.1 приведена структурная схема анализатора, на фиг.2 показана схема блока формирования задержки, на фиг.3 - графики оценок основного тона с помощью кратковременной функции средней разности FMD () и нормированной функции автокорреляции F NCC() для разных случаев.

В составе схемы анализатора применен аналого-цифровой преобразователь 101, кодирующий мгновенные значения речевого сигнала, выход которого через цифровой фильтр нижних частот 102 подключен к входу блока вычисления нормированной функции автокорреляции 103, к первому входу блока формирования задержки 104 и входу детектора речи 105. Первый выход блока 103 через цифровой дискриминатор 106 соединен со вторым входом блока формирования задержки 104, а третий выход блока 103 подключен ко второму входу блока сравнения 107, первый вход которого соединен со вторым выходом блока вычисления нормированной функции автокорреляции 103. При этом выход блока сравнения 107 через решающее устройство 108 подключен к входу блока 109 коррекции периода основного тона и сигнала тон-шум. Выходы блока 109 являются выходами устройства.

Для повышения точности оценки основного тона и сигнала тон-шум в предлагаемом анализаторе выполняются следующие операции:

Аналого-цифровой преобразователь 101 осуществляет дискретизацию и кодирование речевого сигнала с заданным шагом квантования для получения ряда мгновенных цифровых значений речевого сигнала. Цифровой фильтр нижних частот 102 ограничивает полосу пропускания речевого сигнала на уровне 800 Гц для уменьшения влияния высокочастотных составляющих на результаты преобразования. В блоке 103 вычисляется нормированная функция автокорреляции между исходными значениями речевого сигнала и его значениями, задержанными в блоке формирования задержки 104. Затем для вычисленных значений нормированной функции автокорреляции цифровой дискриминатор

106 определяет максимум функции автокорреляции после ее первого перехода через нулевое значение. При этом при появлении максимума нормированной функции автокорреляции от цифрового дискриминатора 106 через блок формирования задержки 104 передается значение времени задержки в блок сравнения 107. Данный блок сравнения 107 сравнивает значение максимума нормированной функции автокорреляции с порогом, который составляет примерно 30% от значения нормированной функции автокорреляции при времени задержки =0. Если значение максимума больше порога, то кадр речевого сигнала, для которого оценивается частота основного тона, классифицируется в решающем устройстве 108 как вокализованный (тон). При этом значение времени задержки, соответствующее максимуму функции автокорреляции речевого сигнала передается в блок 109 коррекции периода основного тона и сигнала тон-шум.

Если значение максимума меньше заданного порога, и от детектора речи 105 получено решение "Активная речь", то кадр речевого сигнала классифицируется в решающем устройстве 108 как невокализованный (шум). Данное решение передается в блок 109 коррекции периода основного тона и сигнала тон-шум.

Если значение максимума меньше заданного порога, и от детектора речи 105 получено решение "Пауза", то кадр речевого сигнала, классифицируется в решающем устройстве 108 как пауза.

Вычисленные значения периода основного тона и признаки типа сегментов сглаживаются и корректируются в блоке 109 коррекции алгоритмом динамического программирования, использующим соответствующие значения, полученные на двух предыдущих кадрах речевого сигнала.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного устройства условию патентоспособности «новизна».

Аналого-цифровой преобразователь 101 является известным устройством и описан, например, в книге Рахтор Т.С. Цифровые измерения. АЦП/ЦАП. - М.: Техносфера, 2006. - С.239-243, рис.6.26. В частности схема может быть реализована на микросхемах AD1482.

Блок формирования задержки 104 предназначен для формирования значений задержки в диапазоне от 20 до 160, что соответствует частоте основного тона от 50 до 400 Гц, и включает в себя генератор импульсов 201, счетчик импульсов 202 и цифровой таймер 203. Схема блока формирования задержки представлена на фиг.2.

Схемы генераторов импульсов известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.191-193, рис.1.139. В частности, такая схема может быть реализована на микросхемах К531ГГ1.

Схемы счетчиков импульсов известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.97-98, рис.1.70. В частности, такая схема может быть реализована на микросхемах К155ИЕ9.

Цифровой таймер 203 представляет собой ждущий мультивибратор. Схемы ждущих мультивибраторов известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.185-187, рис.1.136. В частности, такая схема может быть реализована на микросхемах К155АГ1.

Цифровой дискриминатор 106 представляет собой сумматор. Схемы сумматоров известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.156-157, рис.1.115. В частности, такая схема может быть реализована на микросхемах К155ИМ1.

Блок сравнения 107 представляет из себя цифровой компаратор. Схемы компараторов известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.270-271, рис.2.67. В частности, такая схема может быть реализована на микросхемах К561ИП2.

Фильтр нижних частот 102 и блок вычисления нормированной функции автокорреляции 103 представляют собой устройства сходящихся вычислений. Схемы устройств сходящихся вычислений известны и описаны, например, в книге Э.Айфичера, Б.Джервиса «Цифровая обработка сигналов: практический подход» (М.: Издательский дом «Вильяме», 2004. - С.850, рис.12.40). В частности, такая схема может быть реализована на комплексных умножителях PDSP16112А (Mitel) и комплексных накопителях PDSP16318A (Mitel).

Детектор речи 105 является известным устройством и описан, например, в книге Шелухина О.И., Лукьянцева Н.Ф. Цифровая обработка и передача речи / Под ред. О.И.Шелухина. - М.: Радио и связь, 2000. - С.195-197, рис.7.4.

Решающее устройство 108 представляет собой арифметическо-логическое устройство (АЛУ). Схемы АЛУ известны и описаны, например, в книге Шило В.Л. Популярные цифровые микросхемы. - М.: Радио и связь, 1987. - С.273-275, рис.2.70. В частности, такая схема может быть реализована на микросхемах К564ИП3.

Блок коррекции периода основного тона и сигнала тон-шум 109 основан на алгоритме динамического программирования, описанном, например, в работе Tremain Т. The Government Standart Linear Predictive Coding Algorithm: LPC-10 // Speech Technology. April 1982.- С.40-49, и может быть реализован на известных устройствах сходящихся вычислений, в частности, на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel) и устройствах оперативной памяти (ОЗУ). Схемы ОЗУ известны и описаны, например, в книге В.Н.Вениаминова, О.Н.Лебедева, А.И.Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - с.146, рис.5.2. В частности, ОЗУ может быть реализовано на микросхемах К565 серии.

Устройство, изображенное на фиг.1, работает следующим образом. Под управлением генератора импульсов 201 блока формирования задержки 104 аналого-цифровой преобразователь 101 осуществляет дискретизацию и кодирование речевого сигнала s(t) с заданным шагом квантования. Полученный ряд 2

мгновенных цифровых значений речевого сигнала поступает на вход цифрового фильтра нижних частот 102, с выхода которого передается на блок вычисления нормированной функции автокорреляции 103, блок формирования задержки 104 и детектор речи 105. В блоке 103 вычисляется нормированная функция автокорреляции (1) между исходными значениями речевого сигнала 3 и его значениями 6, задержанными в блоке формирования задержки 104.

Затем для вычисленных значений нормированной функции автокорреляции F NCC() цифровой дискриминатор 106 определяет ее максимум после первого перехода через нулевое значение. При этом по сигналу 10 в счетчике импульсов 202 блока формирования задержки 104 фиксируется значение max, соответствующее максимуму нормированной функции автокорреляции FNCC(max) 5 и передается в блок сравнения 107. Данный блок сравнения 107 сравнивает значение 7 нормированной функции автокорреляции, соответствующие ее максимуму (max), с порогом, который составляет примерно 30% от значения нормированной функции автокорреляции при времени задержки =0. Если значение максимума больше порога, то значение 12 задержки max передается в решающее устройство 108. В противном случае, в решающее устройство 108 передается значение 12 задержки =0, что свидетельствует об отсутствии основного тона для данного кадра речи.

Кроме того, в решающее устройство 108 передается логический сигнал 11 с выхода детектора речи 105 равный логическому «0» при классификации обрабатываемого кадра речи как «Пауза» или логической «1» при классификации обрабатываемого кадра речи как «Активная речь».

Решающее устройство 108 по сигналам 11, 12 принимает одно из следующих решений.

1. Вокализованный кадр (тон), если принятое от блока сравнения 107 значение 12 задержки отлично от нуля, при этом значение времени задержки 13, соответствующее максимуму функции автокорреляции передается в блок 109 коррекции периода основного тона и сигнала тон-шум.

2. Невокализованный кадр (шум), если принятое от блока сравнения 107 значение 12 задержки =0 и от детектора речи 105 получено решение 11 «Активная речь»; решение о типе кадра 13 передается в блок 109 коррекции периода основного тона и сигнала тон-шум.

3. Пауза, если принятое от блока сравнения 107 значение 12 задержки =0 и от детектора речи 105 получено решение 11 «Пауза»; решение о типе кадра 13 передается в блок 109 коррекции периода основного тона и сигнала тон-шум.

Далее значения 13 периода основного тона, определенные по задержке max, и признаки типа кадров речи сглаживаются и корректируются в блоке 109 коррекции периода основного тона и сигнала тон-шум алгоритмом динамического программирования, использующим соответствующие значения, полученные на двух предыдущих кадрах речевого сигнала. Скорректированные значения периода основного тона 14 и сигнала тон-шум 15 являются выходами анализатора периода основного тона и сигнала тон-шум.

Благодаря наличию перечисленных операций, реализованных в структурной схеме, настоящая полезная модель позволяет повысить точность оценивания частоты основного тона за счет использования нормированной функции автокорреляции. Так, на фиг.3а показаны оценки основного тона, равного 228,6 Гц (=35), с помощью кратковременной функции средней разности FMD() и нормированной функции автокорреляции F NCC() для смеси речевого сигнала и белого гауссова шума с отношением сигнал/шум равным 1 дБ. На фиг.3б представлены аналогичные оценки для того же кадра речевого сигнала, но без шума. Появление ложного минимума кратковременной функции средней разности F MD() связано с малой протяженностью окна анализа по сравнению с периодом основного тона.

Полезная модель применима к различным случаям низкоскоростного кодирования или распознавания речи, использующим информацию об основном тоне речевого сигнала.

Анализатор основного тона и сигнала тон-шум, содержащий аналого-цифровой преобразователь, выход которого подключен к входу фильтра нижних частот, детектор речи и блок коррекции периода основного тона и сигнала тон-шум, отличающийся тем, что в него дополнительно введены блок вычисления нормированной функции автокорреляции, блок формирования задержки, цифровой дискриминатор, блок сравнения и решающее устройство, причем выход фильтра нижних частот подключен к первому входу блока вычисления нормированной функции автокорреляции, к входу детектора речи и к первому входу блока формирования задержки, первый выход которого соединен со вторым входом аналого-цифрового преобразователя, а второй выход блока формирования задержки подключен ко второму входу блока вычисления нормированной функции автокорреляции, первый выход которого соединен с входом цифрового дискриминатора, выход которого подключен к второму входу блока формирования задержки, третий выход которого соединен со вторым входом блока сравнения, первый вход которого соединен со вторым выходом блока вычисления нормированной функции автокорреляции, причем выход блока сравнения подключен к первому входу решающего устройства, а выход детектора речи соединен со вторым входом решающего устройство, выход которого подключен к входу блока коррекции периода основного тона и сигнала тон-шум, выход которого является выходом устройства.



 

Наверх