Статистическая модель речи

 

Полезная модель относится к области речевых технологий, модель формирует звуковой поток и может использоваться для анализа, синтеза и распознавания речи, а также оценки качества вокодеров и каналов связи. Задачей, на решение которой направлена полезная модель, является создание статистической модели речи, объединяющей в себе элементы синтезатора речи, статистические данные и корпуса речевых данных большого объема. Технический результат достигается за счет того, что в статическую модель речи, включающую интерфейсный блок, блок выбора диктора, содержащий генератор выбора диктора, блок выбора звуков, формирующего выборки звуков, которые в блоке формирования речевого потока преобразуются в звуковые сигналы с заданными свойствами и базу данных, содержащую описания типовых дикторов и другие необходимые сведения, внесены изменения, а именно:

- в блок выбора диктора дополнительно введен модуль статистики параметров населения различных регионов, выход которого соединен с входом генератора выбора дикторов;

- введены дополнительные блоки: выборки типовых дикторов и хранения просодик выбранных звуков или цепочек звуков;

- в блок выбора звука дополнительно введены два модуля: правила следования звуков и правила наименования аллофонов.

Кроме того, внесены изменения в структуру некоторых блоков. Полезная модель обладает рядом преимуществ, к которым можно отнести следующее:

- больший объем исходного речевого корпуса;

- включение в базу дополнительной статистической информации по каждому ТД;

- наличие описаний интонационных контуров для каждого ТД;

- возможность одновременной работы со структурными элементами разного размера и формата и ряд других.

Кроме того, статистическая модель речи не зависит от языка, т.к. все алгоритмы и интерфейсы ее сохранятся. В настоящее время предлагаемая статистическая модель проходит проверку применением в системе синтеза речи по тексту и в системе объективной оценки качества вокодеров.

Полезная модель относится к области речевых технологий. Модель формирует звуковой поток и может использоваться для анализа, синтеза и распознавания речи, а также оценки качества вокодеров и каналов связи.

К вопросу о том, что есть «статистическая модель речи» можно подходить с разных сторон. С прикладной точки зрения - это средство изучения и моделирования процессов речевой активности, база для построения систем синтеза, анализа, и распознавания речи. Однако можно рассматривать статистическую модель и в глобальном масштабе, как слепок текущего состояния языка, сохранение его для потомков.

Традиционно к речевым технологиям относят следующие четыре направления:

- синтез речи (прежде всего text-to-speech);

- распознавание речи;

- идентификация по голосу;

- обработка речевых сигналов

До последнего времени программы, синтезирующие и распознающие человеческую речь, в основной своей массе можно было отнести к «демонстрационным» системам. Они могли принимать или не принимать вид решений практического применения, но в любом случае их создание не предполагало получения прибыли. Основной целью разработчиков таких решений была демонстрация уровня научных достижений.

Обучить компьютер общению на естественном языке крайне интересная и важная задача. Основной формой выражения мыслей, целей и желаний для человека является речь, как наиболее естественная и удобная форма передачи информации. При вводе команд с клавиатуры человек вынужден оформлять мысли в строгую грамматическую форму, контролировать правильность набранного текста на экране. Ручной ввод длительное и утомительное занятие - обычный человек способен вводить 10-20 слов в минуту, в то время как наговаривать за минуту можно до 200 слов. К тому же далеко не все пользователи умеют и хотят пользоваться клавиатурой.

Для работы с неподготовленным пользователем речевой ввод наиболее привлекателен - на естественном языке могут быть сформулированы практически любые задачи из различных областей человеческой деятельности. Речевой ввод не отменяет другие средства обмена информацией (И.Жарков, П.Скрелин, М.Гусев «Голос времени», Компьютер пресс №8, 2005 г.).

Формально процесс распознавания речи можно описать буквально в нескольких фразах. В теории все просто, но стоит перейти к практике, как выясняется множество

«мелких» проблем, которые по сей день не дают исследователям получить процент распознавания, пригодный для использования в коммерческих системах.

С идентификацией (верификацией) голоса диктора - проблема та же, что и с распознаванием - высокий процент ошибки - никто не захочет защищать свой банковский счет голосовым паролем, если, скажем, каждый тысячный сможет получить к нему доступ.

На сегодняшний день известны два основных принципа построения систем синтеза речи - это синтез «по правилам» и компилятивный синтез. Синтез «по правилам» основан на формировании физических характеристик звуков речи на основе их математических описаний и обладает низкой естественностью. Компилятивный синтез предполагает вырезание сегментов из естественной речевой последовательности и их последующую обработку и склейку. Цифровая обработка речевого сигнала позволяет решить задачи изменения частоты основного тона и длительности фрагмента сигнала.

Вокодер моделирует речь в качестве отклика системы на возбуждение на коротких интервалах времени. Примеры систем вокодеров включают в себя вокодеры с линейным предсказанием, гомоморфные вокодеры, канальные вокодеры, кодеры с синусоидальным преобразованием (КСП), вокодеры с многополосным возбуждением (МПВ) и вокодеры с усовершенствованным многополосным возбуждением (УсовМПВ). В этих вокодерах речь делится на короткие сегменты (обычно 10-40 мс), причем каждый сегмент характеризуется набором параметров модели. Эти параметры обычно представляют собой несколько основных элементов каждого речевого сегмента, например шаг сегмента, речевое состояние и спектральную огибающую.

Вокодер может использовать одно из множества известных представлений для каждого из этих параметров. Например, шаг может быть представлен периодом шага, основной частотой, или задержкой долгосрочного предсказания. Аналогично речевое состояние может быть представлено одним или несколькими озвученными/неозвученными решениями, мерой речевой вероятности или отношением периодической энергии к стохастической. Спектральную огибающую часто представляют в виде отклика фильтра с передаточной характеристикой с одними полюсами, но можно также представить набором спектральных амплитуд или других спектральных замеров (Патент РФ №2214048).

Модель речи с многополосным возбуждением (МПВ) обладает способностью обеспечивать высококачественную речь и работать на скоростях передачи битов от средних до низких. В этой модели используется гибкая речевая структура, которая позволяет

получать более естественно звучащую речь и делает ее более устойчивой к присутствию акустического фонового шума.

Наиболее современные речевые кодеры основаны на некоторой модели речевого тракта, используемой для формирования кодированного речевого сигнала. Параметры и сигналы модели подвергают квантованию, и информацию, описывающую их, передают по каналу. Доминирующей моделью кодера в применениях сотовой телефонной связи является способ линейного предсказания с кодовым возбуждением (ЛПКВ).

Известно множество реализации кодекса, на основе ЛПКВ модели, например патент РФ №2223555. Кодированная речь формируется сигналом возбуждения, подаваемым через полюсный синтезирующий фильтр с порядком, обычно равным 10. Сигнал возбуждения формируют как сумму двух сигналов, которые выбирают из соответствующих кодовых книг (одна фиксированная и одна адаптивная) и затем умножают на соответствующие коэффициенты усиления. Сигналы кодовой книги обычно имеют длительность 5 мс (подкадр), тогда как синтезирующий фильтр обычно корректируется каждые 20 мс (кадр). Параметрами, связанными с моделью ЛПКВ, являются коэффициенты синтезирующего фильтра, записи кодовой книги и коэффициенты усиления.

В результате поиска, проведенного по литературным и патентным источникам, из существующего уровня техники не выявлено однозначного прототипа, т.к. выявленные аналоги относятся к отдельным частям модели, поэтому не позволяют качественно решить поставленную задачу.

Задачей, на решение которой направлена полезная модель, является создание статистической модели речи, объединяющей в себе элементы синтезатора речи, статистические данные и корпуса речевых данных большого объема, со следующими целями: - повышения качества синтетической речи, выдаваемой системами синтеза, использующими модель;

- создания звуковых потоков, для обучения систем распознавания речи;

- создание звуковых потоков для тестирования и оценки качества вокодеров и каналов связи.

Анализ описаний аналогов показал, что, в статистической модели, для решения поставленной задачи, могут быть использованы следующие известные блоки: база данных, содержащая описания дикторов, блоки выбора звуков, блок формирования речевого потока, интерфейсный блок, осуществляющий согласованное управление компонентами модели и взаимодействие ее с пользователем.

Пользователем модели может быть автоматическое устройство или оператор, осуществляющие формирование запроса посредством использования интерфейса.

Технический результат достигается за счет того, что в статистическую модель речи, включающую интерфейсный блок, блок выбора диктора, содержащий генератор выборки дикторов, блок выбора звуков, формирующего выборки звуков, которые в блоке формирования речевого потока преобразуются в звуковые сигналы с заданными свойствами и базу данных, содержащую описания типовых дикторов и другие необходимые сведения, внесены изменения, а именно:

- в блок выбора диктора дополнительно введен модуль статистики параметров населения, выход которого соединен со входом генератора выборки дикторов;

- между блоком выбора диктора и блоком выбора звуков дополнительно включен блок выборки типовых дикторов;

- между блоком выбора звуков и блоком формирования речевого потока дополнительно включен блок хранения просодики, соединенный также с одним из входов интерфейсного блока;

- в блок выбора звука дополнительно введены два модуля: правила следования звуков и правила наименования аллофонов, выходы которых соединены с входами соответствующих модулей.

Соответственно, с этими дополнительными требованиями, а также, учитывая возможности взаимодействия отдельных блоков с интерфейсным блоком в процессе работы, а также с отдельными элементами статистической модели, была выбрана модульная структура основных блоков модели, причем структурная схема соединения отдельных модулей в блоках могут несколько отличаться, в зависимости от конкретного примера реализации статистической модели речи.

Большинство блоков модели имеют сложную структуру из-за большого набора выполняемых ими функций. Подробнее они будут описаны в примере реализации статистической модели речи.

Полезная модель поясняется следующими рисунками 1-4, а реализация рис.5, 6.

На рис.1 - общая структура статистической модели речи;

На рис.2 - структура блока выбора диктора;

На рис.3 - структура блока выбора звуков;

На рис.4 - структура блока формирования речевого потока;

На рис.5 - пример использования статистической модели при синтезе речи по тексту;

На рис.6 - пример использования статистической модели в системе оценки качества вокодеров.

Общая структура статистической модели, представленная на рисунке 1.

Интерфейсный блок 1 обеспечивает взаимодействие с внешним миром (или Пользователем). Блок №1 также осуществляет синхронизацию работы остальных блоков статистической модели.

Блок выбора диктора (блок 2) осуществляет генерацию выборки типовых дикторов (ТД) или последовательности индексов ТД. В зависимости от команды может быть сгенерирована либо представительная выборка ТД, либо выборка, состоящая из одного ТД. Представительная выборка является представительной в том смысле, что распределение параметров речи в выборке, будет соответствовать распределению параметров речи населения, описываемого моделью.

Сформированная на выходе этого блока последовательность идентификаторов ТД сохраняется для дальнейшего использования в блоке выборки ТД (блок 3).

Блок выбора звуков (блок 4) формирует просодику (описания звуков). В зависимости от команды просодика формируется либо для представительной выборки звуков, либо для заданной последовательности звуков, либо для одного заданного звука.

Просодика сохраняется в буфере просодики (блок 5) до дальнейшего использования. Блок формирования речевого потока (блок 6) преобразует описания звуков в отсчеты звукового сигнала, а полученный результат выдает в интерфейсный блок 1.

Блок описаний типовых дикторов (блок 7) хранит описания ТД и возвращает по запросу: необходимые части описаний, информацию об их количестве, список дикторов. В нем содержится и другая необходимая информация для функционирования модели, т.е. блок 7 - это база данных статистической модели.

Статистическая модель речи не является вещью в себе, она предназначена для работы в составе различных систем, в которых требуется моделировать речевой поток, являющихся Пользователями модели.

Итак, Пользователь может выполнять запросы следующих типов:

1. запрашивать список типовых дикторов (ТД), представленных в модели;

2. синтезировать отдельные звуки голосом любого ТД;

3. синтезировать цепочки звуков голосом любого ТД;

4. генерировать звуковой поток, характеризующий одного ТД;

5. генерировать звуковой поток, характеризующий население, описываемое моделью;

6. отменять генерацию звукового потока.

Блок 2 выбора диктора (рис.2) содержит два модуля: генератор 2.1. выборки дикторов и модуль 2.2 - статистика параметров населения регионов.

При генерации представительной выборки блок выбора диктора получает статистические данные об описываемом моделью населении (модуль 2.2): регион, возрастно-половой состав, уровень образования, говор/диалект, род деятельности и т.п. Часть описаний ТД (блок 7), используемая модулем, состоит из диапазонов значений статистических параметров, позволяющих определить процент населения, соответствующий каждому ТД, и включать ТД выборку в количестве, пропорциональном составу населения.

Определив сколько и каких типовых дикторов нужно включить в выборку, блок выбора диктора выдает в случайном порядке их индексы в блок 3 на хранение.

После того, как все необходимые индексы сохранены, блок рапортует интерфейсному блоку 1 о завершении выполнения команды.

При выборе одного конкретного диктора блок выбора диктора просто передает его индекс на хранение в блок 3 и рапортует блоку 1 о завершении работы.

Блок 4 - блок выбора звуков, представленный на рис.3, состоит из следующих последовательно соединенных модулей: формирования цепочек - 4.1; приписывания интонационных контуров - 4.2; именования аллофонов - 4.3; определения длительности и энергии звуковой цепочки - 4.4; наложения интонационных контуров - 4.5.

Кроме того, для формирования цепочек звуков на соответствующий вход модуля 4.1 поступает сигнал от модуля 4.6 - правила следования звуков, а на вход модуля 4.3 сигнал от модуля 4.7 - правила именования аллофонов.

Блок 4 выбора звуков работает в одном из двух режимов: режиме генерации распределения и режиме синтезатора, когда звук и параметры выдаются интерфейсным блоком 1. Рассмотрим эти режимы подробнее.

В режиме генерации распределения для каждого ТД (индексы которых берутся из блока 3) формируются выборки звуков с параметрами (работает модуль 4.1), как и в речи ТД. Для этого из блока описаний ТД (блок 7) по индексу берется информация о частотности звуков, и, с учетом правил следования (модуль 4.6), подготавливаются цепочки звуков от паузы до паузы. Длины цепочек также определяются параметрами ТД.

Если по какой-то причине в параметрах ТД отсутствует информация о частотности звуков или длинах цепочек, то используются статистические данные, полученные на большом объеме текстов. Средняя статистика является частью блока 7 описаний ТД.

Каждой цепочке приписывается интонационный контур (модуль 4.2). Параметры интонационных контуров и информация об их используемости в речи берутся из описаний ТД. Если параметры интонационных контуров или распределения длительностей звуков, или энергии отсутствуют в описании данного ТД, берутся среднестатистические значения, являющиеся частью блока 7 описаний ТД.

С учетом контекстов (звуков слева и справа) и правил именования аллофонов (модуль 4.7) названия звуков преобразуются в имена аллофонов в модуле 4.3.

Для всех звуков цепочки на основе информации о параметрах ТД приписываются длительности и энергии (модуль 4.4). После чего производится наложение интонационного контура (ИК). В результате применения интонационных контуров к цепочкам звуков (блок 4.5), для каждого звука определяется основной тон.

В результате на выходе модуля 4.5 известны все необходимые просодические параметры: длительность, основной тон, энергия и идентификатор ТД. Сформированная просодика сохраняется в блоке 5. По завершению генерации просодики блок 4 рапортует об исполнении команды в интерфейсный блок 1.

Распределение просодических параметров звуков в цепочках, совпадает с распределением в реальной речи.

В режиме синтезатора на вход блока 4 выбора звуков поступают либо отдельные звуки, либо цепочки звуков от паузы до паузы. В случае выбора отдельного звука, все просодические параметры (длительность, частота основного тона (ЧОТ), энергия) указываются блоком 1. Блок 4 лишь именует аллофон, используя контекст «пауза»-«звук»-«пауза», передает описание на хранение в блок 5, и рапортует об исполнении команды в блок 1.

В случае генерации последовательности звуков блок 4 формирует просодику в соответствии с параметрами интонационного контура, определяет названия аллофонов и передает их на вход блока 5. После чего рапортует об исполнении команды в блок 1.

Используются разные процедуры определения длительностей звуков, при работе в режиме синтезатора и в режиме генерации выборки. Если при генерации выборки, длительности звуков определяются статистическим распределением, то в режиме синтезатора используются строгие правила, и центральные значения распределений. Правила определения длительностей определяются конкретной реализацией (модуль 4.6).

Блок 6 - блок формирования речевого потока, изображенный на рис 4 состоит из последовательно-соединенных модулей: 6.1 - формирование длительности звуков; 6.2 - изменение ЧОТ; 6.3 - формирование амплитудной огибающей; 6.4 - обработка стыков звуков; 6.5 - приведение к формату, заданному интерфейсным блоком 1.

Блок 6 формирования речевого потока, получив просодику (из блока 5) и формат звукового потока (из блока 1), извлекает из описания ТД (из блока 7) образцы звуков с разметкой. Каждый звук приводится к длительности, определенной параметрами просодики

в модуле 6.1. Для звуков разных типов используются разные алгоритмы (стратегии) изменения длительности, обеспечивающие минимальные искажения качества звуков. Конкретные алгоритмы являются атрибутом реализации.

После того, как длительности аллофонов сформированы, они приводятся к заданным частотам основного тона в модуле 6.2, причем ЧОТ не остается постоянной на всем аллофоне, а изменяется в соответствии с движением, заданным в просодических параметрах. Чтобы минимизировать искажения звуков, модификации ЧОТ звуков разных типов может проводиться с использованием различных алгоритмов. Конкретные алгоритмы являются атрибутом реализации.

Далее, с учетом параметров энергии, заданных в просодике, формируется амплитудная огибающая звуков цепочки (модуль 6.3), и производится морф стыков звуков, для минимизации шумов на стыках (модуль 6.4).

Звуковой сигнал приводится к формату, указанному интерфейсным блоком 1 и передается ему для последующего использования. Преобразование формата звукового сигнала производится в модуле 6.5.

Сформированный речевой поток из блока 6 поступает в интерфейсный блок 1. Блок 1 передает речевой поток Пользователю по мере поступления. При получении рапорта от блока 6 Пользователь информируется о завершении формирования речевого потока.

Ниже приводится описание реализации статистической модели речи. выполненной на персональном компьютере в соответствии с описанием модулей и схем взаимодействия блоков, приведенных ранее. В качестве блоков модели использованы средства программного обеспечения и оборудование компьютера. Для управления работой отдельных блоков модели может быть разработано программное обеспечение.

Для лучшего понимания, ниже приводятся определение терминов, содержащихся в описании работы статистической модели речи.

Аллофон - (от греч. allos - иной. другой и phone - звук, вариант, разновидность фонемы, обусловленная данным фонетическим окружением.

Фонема - (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи.

Синтагма - (от греч. syntagma, буквально - вместе построенное, соединенное), в широком смысле - любая последовательность языковых элементов, связанных отношением определяемое - определяющее. В более узком смысле С. - словосочетание, вычленяемое в составе предложения (С. предикативная, атрибутивная, объектная и т.д.), а

предложение - цепная последовательность синтагм. Если еще проще, то синтагма. - это последовательность звуков от паузы до паузы.

Сонант - среди звонких согласных выделяется группа сонорных согласных, или сонантов (например, л, р, м, н, й),отличающихся от шумных С. (как звонких, так и глухих) наличием четкой формантной структуры. Последнее сближает сонанты с гласными, однако их отличает меньшая общая энергия. К сонорным принадлежат, в частности, носовые.

Фрикативный, взрывной, аффрикат - по характеру шумообразующей преграды согласные делятся на смычные, фрикативные и дрожащие. Первые образуются вследствие смыкания двух активных произносительных органов речи, например, нижней и верхней губы (п, б, м,) или активного органа с пассивным, например языка с небом (т, д, к). Смычка может заканчиваться резким раскрытием, взрывом или же постепенным раскрытием, переходом к щели. В первом случае возникают взрывные согласные (п, б, т, д), во втором - т.н. аффрикаты например, русские (ц и ч), которые являются как бы сложными звуками, т.к. имеют смычный и щелевой (фрикативный) элементы.

Формат - в данном случае подразумевается частота дискретизации звукового сигнала и количество бит, отводимых на отсчет.

Остановимся подробнее на алгоритме работы блока выбора диктора (блок №2).

В основу статистики о составе и характеристиках населения положены данные полученные Госкомстатом России в результате Всероссийской переписи населения 2002 года. Для упрощения в данной конкретной реализации в модуле 2.2 было решено использовать только информацию о возрастно-половом составе населения.

Соответственно для связи ТД со статистикой населения использовались два критерия пол и возраст. Было введено шесть, весьма условных, ТД.

Таблица №1
ТД №ПолВозрастТД №Пол Возраст
1 ммоложе трудоспособного возраста 4жмоложе трудоспособного возраста

2м в трудоспособном возрасте5 жв трудоспособном возрасте
3м старше трудоспособного возраста6 жстарше трудоспособного возраста

Процедура формирования выборки ТД, реализованная в блоке 2 работает следующим образом:

1. На основе статистики о возрастно-половом составе населения определяется процент населения, соответствующий каждому ТД;

2. Значения процентов приводятся к целым числам (путем домножения на 10);

3. Производится минимизация значений (ищется наименьший общий делитель (НОД) всех значений процентов, после чего они все на него делятся);

4. Подсчитывается сумма значений процентов (N ТД) и заводится равномерный датчик случайных чисел. Сумма значений процентов равна длине выборки, поэтому нужно устанавливать разумные ограничения на точность приведения их к целым числам;

5. Строятся интервалы значений, соответствующие ТД ([0, N ТД1[, [NТД, NТД1 +NTД2[...);

6. Генерируются N ТД значений датчика случайных чисел. Попадание значения датчика в интервал приводит к включению ТД в выборку, которая передается в блок 3 выбора звука, как индекс выбранного диктора.

Блок 2 выбора диктора в зависимости от команды интерфейсного блока (блок 1) либо выбирает одного конкретного диктора, либо генерирует выборку в соответствии с описанным выше алгоритмом (модуль 2.1). Статистические данные (модуль 2.2) оформлены в виде структуры данных, являющейся частью базы данных (блок 7). Сформированная выборка сохраняется в блоке 3 в виде файла.

Блок 4 выбора звуков представляет собой сложный блок, состоящий из отдельных модулей, реализующих алгоритм работы блока. По команде интерфейсного блока 1 в модуле 4.1 осуществляется формирование звуковых цепочек. Для этого в модуль 4.1 одновременно с командой на формирование цепочек из блока 3 поступают индексы типовых дикторов и описание параметров их из блока 7, в частности, это информация о частотности звуков, которая является индивидуальной для каждого диктор. В случае, если по каким либо причинам данная статистика отсутствует, предусмотрена возможность подмены ее статистикой, полученной на основе обработки текстов. Естественно общая статистика не позволяет в полной мере моделировать параметры ТД, зато появляется возможность работать с голосами, данные по которым подготовлены не полностью.

Формирование звуковых цепочек осуществляется с учетом правил следования звуков (модуль 4.6), который следит, чтобы, в зависимости от частотности звуков генерировались цепочки звуков от паузы до паузы. Сформированные цепочки подаются на модуль 4.2, в котором на каждую звуковую цепочку накладывается интонационный контур (ИК).

ИК соответствует идентификатору типовых дикторов, индексы которых содержались в блоке 3. В режиме синтезатора, идентификатор (номер) интонационного контура является параметром команды. В режиме генерации распределения (модуль 4.2) сам выбирает номера интонационных контуров, на основании информации, содержащейся в описании ТД (взятой из блока 7), а при ее отсутствии - из общей таблицы. В общем случае количество интонационных контуров для каждого диктора будет свое, причем всегда четное (одна половина для синтагм с охвостьем и другая - без). В зависимости от команды и параметров ИК приписывает каждой цепочке идентификатор ИК и длительность паузы, после чего результат передается на вход модуля 4.3 наименования аллофонов.

Наименование аллофонов производится на основании правил именования (модуль 4.7), который заменяет названия звуков на названия (или имена) комбинаторных аллофонов (или просто аллофонов), после чего в зависимости от команды, цепочки передаются в модуль 4.4 или в блоки 4.5 и/или интерфейсный блок 1.

Модуль 4.7 может быть реализован в виде подпрограммы, устанавливающей правила наименования аллофонов, т.е. порядок образования наименования, но на основании самого звука и звуков, расположенных слева и справа от него (контекста). Каждый звук имеет название, которое становится ядром имени комбинаторного аллофона. Соседние звуки дают имена контекстов (правила именования модуль 4.7), которые добавляются к ядру слева и справа соответственно.

Для аллофонов гласных, гласные имеющие разные редукции, считаются разными аллофонами и дают разные имена ядер. Для согласных разными звуками являются аллофоны твердых и мягких звуков, дающие резные имена ядер (и контекстов). В общем виде имя комбинаторного аллофона записывается так:

<имя левого контекста><название ядра><имя правого контекста>.

Ноли для аллофона отсутствует информация о звуке, расположенном левее и/или правее, то они заменяются паузами, и имена контекстов определяются исходя из предположения о соседстве с паузами.

Модуль 4.4 работает по известному алгоритму. В нем всем звукам в сформированной цепочке приписывает длительности и коэффициенты энергий, после чего результаты обработки цепочек звуков передаются в модуль 4.5.

В зависимости от режима работы используются разные стратегии определения длительностей звуков. В режиме генерации выборки длительности звуков определяются случайным образом с помощью датчиков случайных чисел, и статистики о распределении длительности каждого звука (которая является частью описания ТД и берется из блока 7).

В режиме синтезатора длительности звуков определяются по сложному алгоритму, учитывающему как значения статистики, так и длины цепочек и порядок следования звуков в них.

Далее в модуле 4.5 определяют, по известному алгоритму, значения основного тона на всех гласных звуках и звонких согласных, содержащихся в цепочках и приписывают им параметры интонационных контуров, которые являются частью описания ТД и берутся из блока 7. После того. как была отработана последняя цепочка, в блок 1 выдается сообщение о завершении выполнения команды.

Полученные параметры (описания) звуковые цепочек с приписанными значениями основного тона (ОТ) и наложенным ИК, в зависимости от параметров команды передаются в блок 5 и/или в интерфейсный блок 1.

Блок 5 является блоком памяти, в которой хранится описания (просодика) звуков, полученных в результате их обработки в блоке 4, поэтому работа его не вызывает трудностей в понимании.

Блок 6 формирования речевого потока, также представляет собой сложный, состоящий из отдельных модулей, реализующих алгоритм его работы. Управляющий сигнал из интерфейсного блока 1 поступает в модуль 6.1, в котором команду анализирует, и считывает просодику (описание цепочек звуков) из блока 5, а также при необходимости получает описание ТД из блока 7, после чего начинается формирование речевого потока с учетом формата, заданного интерфейсным блоком 1.

На основании просодики (на один звук) выбирает из описания ТД разметку звукового сигнала, формирует по меткам необходимую длительность звука, причем в зависимости от типа звука (взрывные, фрикативные, сонанты, гласные, аффрикаты) для модификации длительности используются различные алгоритмы.

После того как определятся все метки, необходимые для включения в результирующий сигнал, каждой метке (если звук гласный или звонкий согласный) приписывается конкретное значение длины периода. Длины периодов определяются по просодическим данным и базовому значению основного тона (ОТ), указанному в описании ТД. После чего, список меток передается в модуль 6.2.

Модуль 6.2 получив список меток, соответствующих звуку, тип звука и идентификатор ТД из модуля 6.1, из описания ТД для каждой метки извлекает звуковые данные, после чего производит приведение длин периодов к заданным значениям. Для этого использован известный алгоритм PSOLA (TD-PSOLA) с некоторыми изменениями и дополнениями. Предпочтение отдано именно этому алгоритму, т.к. он обеспечивает достаточно высокое качество преобразованного голоса и не требует значительных вычислительных ресурсов.

Отличия от стандартного алгоритма заключаются в том, что при повышении и понижении ЧОТ используются разные оконные функции. При сокращении длины периода (повышение ЧОТ) используется следующие косинусные прямое и обратное окошки:

а при увеличении длины периода (понижение ЧОТ) используются следующие линейные прямое и обратное окна:

NData - min(NOldData, NNewData);

Wca - весовые коэффициенты прямого окошка;

Wcb - весовые коэффициенты обратного окошка;

i - индекс коэффициента;

NOldData - длина исходного периода;

NNewData - длина формируемого периода.

Другое отличие от стандартного алгоритма заключается в том, что отсчеты сформированного периода нормируются на сумму соответствующих коэффициентов прямого и обратного окон. Кроме того, увеличение длины периода основного тона производится не за один шаг, а за несколько.

После того, как длительности всех периодов сформированы, метки, звуковые данные и описание звука (просодика) передается модулю 6.3. формирования огибающей.

Для ее определения использует только данные, полученные из модуля 6.2 и данные, сформированные на предыдущих этапах работы блоков модели. Сначала все отсчеты сигнала умножаются на коэффициент энергии, указанный в просодике модулем 4.4. Затем дополнительно определяются и применяются дополнительные коэффициенты энергий на каждый период, для того, чтобы получить плавные переход уровня от предыдущего звука. После того, как все коэффициенты энергий применены, рассчитываются и запоминаются максимальное и минимальное значения амплитуды последнего периода, используемые для определения дополнительных коэффициентов энергии, при обработке следующего звука.

Полученные результаты (метки, звуковые данные и описание звука) передаются модулю 6.4, в котором происходит стыковка звуков.

Модуль 6.4 использует только данные, поступившие из модуля 6.3, и данные, сохраненные на предыдущем шаге обработки. Если невозможно произвести морф предыдущего и обрабатываемого звука (например, из-за того, что последний имеет малую длительность), то сохраненные звуковые данные отдаются модулю 6.5. Если морф возможен. производится смешивание сохраненных звуковых данных с началом обрабатываемого звука, после чего звуковые данные, исключая сохраняемую для стыковки со следующим звуком часть, передаются в модуле 6.5.

В модуле 6.5. осуществляется приведение звукового сигнала, полученного из модуля 6.4, к заданному формату, параметры которого получают в команде от интерфейсного блока 1. Звуковой сигнал приводится к заданному в формате частоте дискретизации и количеству бит, приходящемуся на каждый отсчет, после чего выдается в блок 1 рапорт об окончании формирования речевого сигнала..

База данных (блок 7) представляет собой сложную базу данных, содержащую описания ТД и общие таблицы. Описания ТД и общие таблицы создаются вручную.

В базу дачных входят следующие общие таблицы: интонационных контуров, энергий, длительностей и частотностей звуков;

В описания типовых дикторов включены:

обязательные компоненты:

- базовое значение частоты основного тона (ОТ);

- признак формата звуковой базы (аллофонная/субаллофонная), и индивидуальные параметры алгоритмов обработки звукового сигнала;

- звуковая база, состоящая из звуковых фрагментов, соответствующих различным звукам русской речи с необходимой разметкой на периоды ОТ и т.д.;

- параметры для связи ТД со статистикой населения.

необязательные компоненты - это таблицы:

- интонационных типов, энергий, длительностей и частотностей звуков;

Для работы с моделью должны быть заполнены все общие таблицы и создано описание хотя бы одного ТД.

Формирование звуковой базы является длительным и очень трудоемким ручным процессом. Известно, что в русском языке 6 гласных и 36 согласных звуков. Однако, аллофонов будет много больше. Так характер редукции гласного зависит от его качества и ритмической позиции. При формировании звуковой базы Необходимо учитывать положение гласного относительно ударения. Могут быть выделены следующие редукции гласных:

- ударные гласные «а0», «о0», «u0», «е0», «i0», «у0»;

- первый предударный «a1», и предударные «a1», «u1», «e1», «i1», «y1»;

- второй предударный «a2»:

- заударные «a4». «o4», «u4», «e4», «i4». «y4»;

Однако не только ритмическая позиция влияет на качество гласного. Фонетические реализации звуков (как гласных, так и согласных) зависят также и от непосредственных контекстов. Причем для ударных и неударных гласных можно выделить разные наборы контекстов. Некоторые звуки, являющиеся разными контекстами для ударных, являются одинаковыми контекстами для неударных.

Кроме того, что фрагмент, соответствующий звуку речи, должен быть найден, выделен и поименован, требуется его разметить соответствующим образом. Разметка различается для разных звуков.

Приведем два примера применения предлагаемой статистической модели речи, хотя их может быть значительно больше. Так, на основе описанной реализации была разработана система синтеза русской речи по тексту (рис.5). Статистическая модель также, нашла применение в качестве генератора тестовых сигналов в системе оценки качества вокодеров и каналов связи (рис.6).

Синтез речи

Статистическая модель была использована для построения системы высококачественного синтеза речи по тексту. Под высоким качеством подразумевается высокая естественность и разборчивость синтезируемой речи.

Общая схема разработанной системы может быть представлена рисунком 5. Она содержит: оператора, интерфейсный модуль, лингвистический процессор и статистическую модель речи.

Работа системы синтеза осуществляется по следующей схеме. Интерфейсный модуль запрашивает у статистической модели речи список типовых дикторов (ТД). Затем оператор выбирает одного ТД из списка, задает формат звукового сигнала и вводит синтезируемый текст. Затем, интерфейсный модуль передает синтезируемый текст лингвистическому процессору (ЛП). ЛП разделяет текст на синтагмы, приписывает им интонационные типы, проставляет ударения и транскрибирует их и передает статистической модели.

Статистическая модель, на основе заложенных в нее алгоритмов, формирует просодику и звуковой поток. Звуковой поток и просодика передаются интерфейсному модулю. По желанию оператора звуковой поток может либо воспроизводиться звуковой картой компьютера, либо сохраняться в файл для дальнейшего использования.

Просодические данные могут быть сохранены и открыты для просмотра и редактирования в обычном текстовом редакторе.

Оценка качества вокодеров

Статистическая модель используется в качестве источника (генератора) тестового сигнала для оценки качества, вокодеров и систем связи.

Схема использования статистической модели в системе оценки качества вокодеров представлена на рисунке 6. Система состоит из: вокодера, модуля оценки качества, статистической модели речи и файлов для хранения звуковых потоков (исходного и обработанного вокодером).

Модуль оценки качества выдает статистической модели речи команду на генерацию звукового потока, с параметрами характерными для описываемого моделью населения. Звуковой поток, сформированный моделью, сохраняется в файл. Файл подается на вокодер и на модуль оценки качества. Звуковой сигнал, прошедший процедуры кодирования и декодирования, реализуемые вокодером, также подается на модуль оценки качества. Модуль оценки качества производит сравнение сигналов и выдает оценку.

К достоинствам предлагаемой полезной модели можно отнести следующее:

- больший объем исходного речевого корпуса;

- использование большого количества классификационных признаков при сегментации и описании речевого корпуса;

- включение в базу дополнительной статистической информации по каждому ТД;

- наличие описаний интонационных контуров для каждого ТД;

- возможность одновременной работы со структурными элементами разного размера и формата:

- учет статистической информации при формировании звукового потока;

- разные подходы к изменению длительности звуков разных типов, минимизирующие искажение перцептивных свойств звуков;

- разные подходы к изменению ЧОТ звуков разных типов, минимизирующие искажение их перцептивных свойств;

- возможность выбирать из базы звуки, (или, даже, цепочки звуков), требующие наименьшей модификации;

- разнообразие контекстных реализаций звуков позволит синтезировать речевой поток, обладающий высокой естественностью;

- достижению высокой естественности также будет способствовать применение интонационных контуров, специально подобранных для каждого ТД.

Кроме того, статистическая модель речи не зависит от языка. Язык, с которым будет работать модель, определяется лишь теми данными, которыми наполнена модель, а все алгоритмы и интерфейсы сохранятся.

В настоящее время предлагаемая статистическая модель проходит проверку применением в системе синтеза речи по тексту и в системе объективной оценки качества вокодеров.

1. Статистическая модель речи, включающая интерфейсный блок, соединенный соответствующими входами и выходами с блоком выбора, формирующим выборку дикторов, с блоком выбора звуков, осуществляющим выбор звуков и определение их параметров, с блоком формирования речевого потока, осуществляющим действия над элементами речевых сигналов и с базой данных, содержащей описания типовых дикторов, которая также соединена со входами указанных блоков, отличающаяся тем, что в блок выбора дикторов дополнительно включен модуль статистики параметров населения, между блоком выбора диктора и блоком выбора звуков включен блок выборки типовых дикторов, а между блоком выбора звуков и блоком формирования речевого потока дополнительно включен блок хранения просодики, причем в блок выбора звуков дополнительно введены модули правил именования аллофонов и следования звуков.

2. Статистическая модель речи по п.1, отличающаяся тем, что блок выбора диктора состоит из модулей: генератора выборки дикторов и статистики параметров населения, причем выход модуля статистики параметров населения соединен с входом генератора выборки дикторов, выход которого соединен с входом блока выборки типовых дикторов.

3. Статистическая модель речи п.1, отличающаяся тем, что блок выбора звуков состоит из последовательно соединенных модулей: формирования цепочек, приписывания интонационного контура, именования аллофонов, определения длительности, наложения интонационных контуров, а также модулей правил следования звуков и правил именования аллофонов, причем выходы двух последних модулей соединены с дополнительными входами модуля формирования цепочек и модуля именования аллофонов, а дополнительный выход модуля именования аллофонов соединен с выходом модуля наложения интонационных контуров, выходы которого соединены с блоком хранения просодики и интерфейсным блоком.

4. Статистическая модель речи по п.1, отличающаяся тем, что блок формирования речевого потока содержит последовательно-соединенные модули: формирования длительности, изменения частоты основного тона, формирования огибающей, обработки стыков и приведения к заданному формату, причем модуль формирования длительности соединен с выходом блока хранения просодики, а модуль приведения формата с выходом интерфейсного блока, задающего формат приведения, а также с соответствующими входами указанного блока, принимающими признак завершения выполнении команд и сформированный речевой поток.



 

Наверх