Система определения параметров линейчатых спектров вокализованных звуков

 

Полезная модель относится к техническим решениям, используемым для выделения спектральных характеристик звуков речи, в частности для обнаружения речи на фоне стохастических шумов, распознавания речи, а также идентификации дикторов и языков речевых сообщений. Система определения параметров линейчатых спектров вокализованных звуков, содержит последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков, а также блок питания, подключенный к питающим входам составных блоков системы, блок памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора компонентов преобразования Фурье, генератор базисных сигналов, выход которого подключен к управляющему входу формирователя матрицы сверток, формирователь параметров разбиения диапазона частот основного тона голоса, выход которого соединен с входом задания диапазонов частот регистратора максимальных значений, формирователь мер схожести, выход которого соединен с одним из задающих входов блока формирования мер веса последовательности информативных признаков, и формирователь порогового уровня, выход которого подключен к задающему входу компаратора.

Полезная модель позволяет повысить точность определения параметров линейчатых спектров вокализованных звуков. 1 н.п ф-лы., 4 ил.

Полезная модель относится к техническим решениям, используемым для выделения спектральных характеристик звуков речи, в частности, для обнаружения речи на фоне стохастических шумов, распознавания речи, а также идентификации дикторов и языков речевых сообщений.

Известна система для выделения частоты основного тона с преобразованием речевых колебаний в импульсную последовательность, содержащая два селектора, ключ, формирователь сигнала равенства чисел, ключ и аналоговый сумматор (RU 2007763 С1, 15.02.1994). В данной системе принимают, что каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход), а также используют свойство повторения межимпульсных интервалов на периоде основного тона последовательности.

Недостатком известной системы является пропуск интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.

Также известна система для выделения частоты основного тона с помощью узкополосного фильтра (Вокодерная телефония. Под ред. А.А.Пирогова. М.; Связь, 1974). Указанным фильтром осуществляют слежение за изменением частоты первой гармоники речевого сигнала. При этом ширину полосы итерационно подстраивают под среднюю частоту

основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря органу обратной связи. Это предопределяет высокое качество выделения частоты основного тона при условии, что фильтр подстраивается под диктора в течение нескольких минут.

Недостатком известной системы является непригодность для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.

Известна система для выделения основного тона с предварительной записью речевого сигнала и его последующей обработкой, содержащая три канала обработки речевого сигнала. В первом канале проводят амплитудную селекцию по схеме Голда, во втором канале используют аппроксимацию первой гармоники основного тона экспоненциальной функцией, а в третьем канале проводят вычисление корреляционной функции по схеме Медана. В том случае, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину, считают, что частота основного тона найдена (М.Е.Hernandez-Diaz Huici and J.V.Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol.31, No.l, pp.15-16).

Недостатком известной системы является низкая точность, обусловленная сильной зависимостью от точности реализации каждого из определяющих способ алгоритмов.

Также известны различные системы, позволяющие в условиях присутствия шумовой составляющей в акустическом сигнале выделять речевую составляющую сигнала (RU 231830 С2, 27.06.2004; RU 296376 С2, 27.03.2007; RU 2271578 С2, 10.03.2006; RU 2263358 С2, 27.10.2005; RU 2103753 C1, 27.01.1998; RU 2161826 С2, 10.01.2001 и др.).

Недостатком известных технических решений является то, что они не позволяют проводить обнаружение речи на фоне стационарных и

нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума.

Известна система для выделения признаков речевого сигнала MFCC (Mel Frequency Cepstral Coefficients), в которой реализуется разбиение сигнала на окна. С помощью блоков преобразования и вычисления над фрагментами сигнала в каждом окне выполняют преобразования Фурье, вычисляют спектр Фурье и параметры амплитудно-частотных характеристик множества интегрирующих фильтров, полосы пропускания которых изменяются в соответствии с известной из психоакустики мел-шкалой. Посредством интеграторов спектр Фурье интегрируют в соответствии с найденными параметрами интегрирующих фильтров. Дополнительными вычислительными блоками осуществляют логарифмирование результатов интегрирования и выполнение косинус - преобразования над результатами логарифмирования (Fang Zheng, Guoliang Zhang and Zhanjiang Song, Comparison of Different Implementations of MFCC, J. Computer Science & Technology, 16(6): p.p.582-589, Sept. 2001).

Недостатком известной системы является неустойчивость к изменению статистических свойств шума, на фоне которого проводится распознавание речи или идентификация диктора.

Известны также различные приложения вейвлет-анализа в задачах приближения функций, сигналов и изображений вследствие обеспечения возможности эффективного сжатия сигналов и их восстановления с малыми потерями информации, а также решения задач фильтрации сигналов (Д.С.Потехин, И.Е.Тарасов. Разработка систем цифровой обработки сигналов на базе ПЛИС, М., 2007, p.p.85-94). Однако, область их распространения не охватывает выделение частоты основного тона вокализованных звуков.

Наиболее близкими к заявленной системе является система для выделения частоты основного тона из речевого сигнала, представленная в RU 2184399 С1, 27.06.2002, в состав которой входят последовательно соединенные блок вычисления спектра Фурье, интегратор, вычислитель

значений определителя автокорреляционной матрицы, блок проверки синхронности и блок аппроксимации подпоследовательностей квадратичной функцией, а также выделитель основного тона по схеме Голда и блок выделения основного тона с полосовым фильтром, включенные между выходом указанного вычислителя и соответствующими входами блока проверки синхронности.

Недостатком известной системы является невозможность обнаружения речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а также невозможность формирования вектора признаков сигналов для систем распознавания речи, идентификации дикторов и идентификации языка, устойчивого к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация.

Техническим результатом, который достигается при использовании заявленной системы для определения параметров линейчатых спектров вокализованных звуков, является повышение точности определения параметров линейчатых спектров, которое достигается за счет:

- использования динамических параметров спектра информационного сигнала и вейвлет-функций в качестве опорных базисных сигналов;

- разделения (квантования) диапазона частот основного тона речевого сигнала на неперекрывающиеся области, которые не обладают кратными частотами.

Технический результат достигается предложенной системой определения параметров линейчатых спектров вокализованных звуков, содержащей последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок

формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков, а также блок питания, подключенный к питающим входам составных блоков системы, блок памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора компонентов преобразования Фурье, генератор базисных сигналов, выход которого подключен к управляющему входу формирователя матрицы сверток, формирователь параметров разбиения диапазона частот основного тона голоса, выход которого соединен с входом задания диапазонов частот регистратора максимальных значений, формирователь мер схожести, выход которого соединен с одним из задающих входов блока формирования мер веса последовательности информативных признаков, и формирователь порогового уровня, выход которого подключен к задающему входу компаратора.

На фиг.1 представлена функциональная схема предложенной системы определения параметров линейчатых спектров вокализованных звуков.

На фиг.2 показан график вейвлет-функции, используемой при проведении анализа спектра звука.

На фиг.3 приведен пример наложения вейвлет-функции в выбранном отсчете спектра Фурье.

На фиг.4 изображен граф формирования мер веса последовательности информативных признаков.

Система определения параметров линейчатых спектров вокализованных звуков (фиг.1) содержит последовательно соединенные цифровое записывающее устройство 1, блок 2 дискретизации, блок 3 дискретного преобразования Фурье, блок 4 нормирования спектра Фурье,

формирователь 5 результирующей матрицы сверток, сумматор 6, регистратор 7 максимальных значений, формирователь 8 вектора признаков, блок 9 линий задержки, блок 10 формирования мер веса последовательности информативных признаков, блок 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор 12, селектор 13 компонентов преобразования Фурье и блок 14 регистрации информативных признаков. Кроме того, система содержит блок 15 питания, подключенный к питающим входам составных блоков системы, блок 16 памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора 13 компонентов преобразования Фурье, генератор 17 базисных сигналов, выход которого подключен к управляющему входу формирователя 5 матрицы сверток, формирователь 18 параметров разбиения диапазона частот основного тона речевого сигнала, выход которого соединен с входом задания диапазонов частот регистратора 7 максимальных значений, формирователь 19 мер схожести, выход которого соединен одним из задающих входов блока 10 формирования мер веса последовательности информативных признаков, и формирователь 20 порогового уровня, выход которого подключен к задающему входу компаратора 12.

Система определения параметров линейчатых спектров вокализованных звуков функционирует следующим образом.

Акустический сигнал поступает на вход цифрового записывающего устройства 1, на выходе которого формируется записанный оцифрованный сигнал. В блоке 2 дискретизации осуществляется его оконное преобразование (дискретизация), при этом не перекрывающиеся интервалы окон имеют длительность не менее 0,032 с и следуют друг за другом со смещением, длительность которого не превышает 0,010 с. Для получения сигнала, соответствующего каждому окну, в блоке 3 происходит

вычисление дискретного преобразования Фурье с сохранением реальной и мнимой частей преобразования в блоке 16 памяти. Блок 4 определяет спектр Фурье и осуществляет его последующее нормирование в соответствии с зависимостью

где - компоненты нормированного спектра Фурье,

i - компоненты исходного спектра Фурье,

n - количество компонент спектра Фурье.

Генератор 17 базисных сигналов формирует управляющие сигналы, структура которых определяется параметрами вейвлет-функции (фиг.2), имеющей вид

где - период вейвлет-функции,

j - номер отсчета вейвлет-функции,

=3,14.

Управляющие базисные сигналы с выхода блока 17 поступают на вход формирователя 5 матрицы сверток, в котором для каждой i-ой компоненты полученного нормированного спектра Фурье производится свертка окружения этой компоненты с вейвлет-функциями, а именно

где k - величина четверть периода вейвлет-функции, выраженная в единицах отсчетов спектра,

- период вейвлет-функции.

Свертка осуществляется с вейвлет-функциями всех возможных масштабов, при этом суммы свертки вычисляются отдельно для каждой полуволны вейвлет-функции. После этого в формирователе 5 формируется результирующая матрица сверток, каждая г-ая компонента которой определяется зависимостью

Частотный диапазон основного тона голоса разбивают на три неперекрывающихся диапазона, при этом верхнюю границу первого диапазона выбирают из условия G1 =2Gmin, где Gmin - известное минимальное значение частоты основного тона мужского голоса, верхнюю границу второго диапазона - из условия G 2=4Gmin, а верхнюю границу третьего диапазона принимают равной известному максимальному значению частоты Gmax основного тона женского голоса. Границы диапазонов заданы формирователем 18 параметров разбиения диапазона частот основного тона голоса.

В сумматоре 6 для частотного диапазона основного тона голоса суммируются компоненты полученной матрицы сверток, имеющие индексы, кратные частоте основного тона, т.е. определяется сумма вида

- частота основного тона, выраженная в единицах спектральных отсчетов.

Для каждого диапазона частот основного тона голоса, границы которых заданы формирователем 18, в блоке 7 вычисляется значение максимума матрицы S

и соответствующий этому максимуму аргумент

9 после чего блок 8 формирует множества пар этих значений, т.е. вектор информативных признаков В=.

С использованием векторов информативных признаков и мер схожести пар (Ii,g i,)

где - дисперсия частоты основного тона,

t - дискретное время,

gi(t) gj(t) - компоненты вектора информативных признаков взятые в

дискретные моменты времени t; t=1,2,..., и i,j=1,...,3.

которые создаются на выходе формирователя 19 мер схожести пар, в блоке 10 формирования мер веса последовательности информативных признаков на основе подпоследовательности Q размером М, не менее четырех в последовательности множеств В, которая реализуется М-1 последовательными линиями задержки блока 9 задержки, формируются

меры веса последовательности информативных признаков

характеризующие наличие линейчатого спектра в сигнале. С помощью этих мер веса последовательности информативных признаков выделяются все спектры, обладающие линейчатостью и гладкостью динамики частоты основного тона.

С выхода блока 10 формирования мер веса последовательности информативных признаков сигналы поступают в блок 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, где определяется траектория последовательности пар (Ii,g i)(t), обладающая максимальным весом D на подпоследовательности Q.

В графе осуществляемого блоком 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, на последовательности множеств пар максимумов и их аргументов (фиг.4) каждое ребро соответствует вычислению меры схожести этих пар. Соответствующий информационный сигнал о выбранной траектории поступает на задающий вход компаратора 12 для сравнения с пороговыми сигналами, поступившими из формирователя 20 пороговых уровней. В компараторе 12 проводится сравнение порогового значения и значения максимального веса D. В том случае, если максимальный вес D траектории превышает пороговое значение, то принимается решение о том, что эта последовательность пар (I i,gi)(t) подпоследовательности Q порождена речевым сигналом, обладающим линейчатым спектром и гладкостью динамики частоты основного тона. На основании этого селектором 13 из последовательности сохраненных в блоке 16 реальных и мнимых частей преобразования Фурье выбирают лишь те компоненты, которые соответствуют участкам, обладающим линейчатым спектром и гладкостью динамики частоты основного тона, и регистрируют их блоком 14 регистрации информативных признаков.

Реализация полезной модели позволяет обеспечить высокую точность определения параметров линейчатых спектров вокализованных звуков. Так, например, сравнение результатов, полученных при использовании технического решения MFCC, позволяющего проводить выделение признаков речевого сигнала, с результатами, обеспечиваемыми предложенной системой, показывает, что на вокализованном участке речи при уменьшении отношения сигнал шум с 20 до 15 дБ, относительный рост дисперсии компонент вектора MFCC составляет 42,1%, а относительный рост дисперсии компонент при реализации предложенной системой - 7.4%. Это позволяет говорить о достигаемой устойчивости определения

параметров линейчатого спектра вокализованных звуков к зашумлению речи.

Система определения параметров линейчатых спектров вокализованных звуков, содержащая последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков, а также блок питания, подключенный к питающим входам составных блоков системы, блок памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора компонентов преобразования Фурье, генератор базисных сигналов, выход которого подключен к управляющему входу формирователя матрицы сверток, формирователь параметров разбиения диапазона частот основного тона голоса, выход которого соединен с входом задания диапазонов частот регистратора максимальных значений, формирователь мер схожести, выход которого соединен с одним из задающих входов блока формирования мер веса последовательности информативных признаков, и формирователь порогового уровня, выход которого подключен к задающему входу компаратора.



 

Похожие патенты:

Автоматизированная беспроводная система дистанционного управления (асу) уличным светодиодным освещением может быть использована при проектировании и строительстве инженерно-технических объектов и систем, обеспечивающих, преимущественно, охрану выделенных зон объектов электроэнергетики, промышленности и социальной сферы, в том числе, аэропортов, аэродромов, промышленных предприятий, предприятий транспортной отрасли, зданий, контрольно-пропускных пунктов, спортивных сооружений, музейных и выставочных комплексов, а также иных объектов, относящихся к их инфраструктуре.

Изобретение относится к комплексу для контроля документов, преимущественно паспортов, снабженных машиночитаемой зоной, содержащей код документа

Маяк проблесковый светодиодный относится к специальному светотехническому оборудованию и предназначен для обозначения в пространстве летательных аппаратов с помощью излучаемых световых вспышек.

Полезная модель относится к устройствам контроля движения транспорта с целью учета или регулирования движения с использованием идентификации транспортных средств
Наверх