Система преобразования голоса в звучания музыкальных инструментов

 

Полезная модель относится к музыке. Система преобразования голоса в звучания музыкальных инструментов содержит по крайне мере один микрофон для одного говорящего или поющего исполнителя, выход которого связан с блоком аналого-цифрового преобразования речевого сигнала, блок преобразования в цифровую форму речевого сигнала на элементарные речевые фрагменты с определением частоты каждого фрагмента, блок определения вокализованности каждого из элементарных речевых фрагментов, выполненным с возможностью реализации функции выбора сэмпла из блока хранения сэмплов музыкальных инструментов, частота и амплитуда которого соответствует этим же параметрам элементарного речевого фрагмента, и блоком выдачи звуковой версии выбранного сэмпла во внешнюю среду. 1 ил.

Полезная модель относится к музыке, в частности к системе преобразования голоса поющего человека или голосов группы певцов в звучание музыкальных инструментов. Полезная модель представляет собой систему отображения голоса человека в новом качестве: музыкальном исполнении/или цветовом сопровождении, что может использоваться в качестве демонстрационного материала, обучающего комплекса, системы коррекции исполнения при обучении.

Речевые технологии это одно из направлений информационных технологий, которое занимается проблемами общения человека с компьютером (или человека с человеком посредством компьютера) на основе использования естественного языка в звуковой его форме. Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач. Эффективность решения прикладных задач в области речевых технологий определяется полнотой использования фонетических сведений, полученных при изучении свойств естественной речи или пения.

Аналоговой по своей природе естественный речевой сигнал может быть представлен в виде значений амплитуды в заданные моменты времени, т.е. в виде последовательности чисел. Такая форма представления сигнала позволяет использовать для его обработки вычислительной техникой.

Представление речевого сигнала в цифровой форме открывает широкие возможности его анализа и обработки. Современные средства компьютерного анализа звуковых сигналов показывают осциллограмму или сонограмму звукового сигнала на экране монитора в виде статичного изображения, позволяют просматривать сигнал, передвигать от его начала к концу и наоборот, а также многократно прослушивать как весь сигнал, так и любой его

фрагмент, и производит различного рода модификации (например, фильтрацию или нормализацию).

Известен способ анализа и синтеза речи, включающий сегментацию речевого сигнала, определение вокализованности каждого сегмента, формирование последовательности импульсов возбуждения периодических с периодом основного тона для вокализованных сегментов, формирование спектра исходного речевого сигнала и комплексно-сопряженного спектрального сигнала возбуждения и усреднение их произведения, псевдослучайные последовательности импульсов возбуждения формируют многократно, для сформированных псевдослучайных последовательностей формируют комплексно-сопряженные спектры и выделяют параметры спектральной огибающей исходного сигнала путем нормирования результатов усреднения произведений спектра исходного речевого сигнала и комплексно-сопряженного спектров псевдослучайных последовательностей на усредненный спектр сигналов возбуждения, причем при анализе невокализованных сегментов определяют лучшую псевдослучайную последовательность по критерию максимума суммы мощностей всех параметров спектральной огибающей, передают параметры спектральной огибающей для лучшей псевдослучайной последовательности и после приема формируют сигнал возбуждения, повторяющий лучшую псевдослучайную последовательность, формирование сигнала возбуждения, повторяющего сигнал возбуждения, формируемого для передачи параметров, и формирование синтезируемого речевого сигнала путем фильтрации сигнала возбуждения в соответствии с принятыми параметрами с последующей передачей и приемом выделенных параметров (SU №1434487, опубл. 30.10.1988).

Некоторая модификация этого способа изложена в SU №1501138, опубл. 15.08.1989, в котором дополнительно при определении координат разложения, усреднение выполняют с весами, совпадающими с базисными функциями, при определении спектральной огибающей суммируют сигналы разложения с весами, равными значениям элементов обратной корреляционной матрицы базисных функций, коэффициентами в которой являются принятые параметры

спектральной огибающей исходного речевого сигнала, причем в качестве базисных функций используются В-сплайны.

Несмотря на сложную комплексную обработку речевого сигнала оба способа не в состоянии обеспечить качественное восстановление речевого сигнала, т.к. сведения о фонетической структуре сигнала не используются.

Вопросы анализа и синтеза речевой информации достаточно полно изложены в диссертации на соискание ученой степени доктора филологических наук Скрелина П.А. "Фонетические аспекты речевых технологий" (СПб ГУ, Санкт-Петербург, 1999 г.), которая и принята в качестве прототипа заявляемого изобретения.

Алгоритм способа анализа и синтеза речи, изложенный в диссертации П.А.Скрелина заключается в следующем:

- речевой сигнал поступает на вход звуковой карты компьютера, которая преобразует его в цифровую форму;

- осуществляется сегментация речевого потока с целью выделения элементарных речевых фрагментов и определения их параметров: вокализованности, разметки на периоды основного тона вокализованных фрагментов, параметров спектра. Размер и структура фрагментов зависит от задач решаемых синтезом;

- элементарные речевые фрагменты объединяют в звуковую базу;

- в соответствии со структурой синтезируемой речевой последовательности осуществляется выбор фрагментов из базы и модификация их просодических характеристик, в результате чего формируется звуковой сигнал;

- сформированный цифровой речевой сигнал воспроизводится звуковой картой компьютера или сохраняется в файл для дальнейшего хранения и/или обработки.

В диссертации выделено два подхода к синтезу речи. При первом - синтез основывается на построении действующей модели голосового аппарата человека, при втором - акустический сигнал моделируется как таковой. Первый подход известен под названием артикуляторного синтеза и на данный момент

практически не применяется из-за сложности реализации. Второй подход разделяется на два основных направления: синтез по правилам и компилятивный синтез.

Синтез по правилам использует правила формирования физических характеристик звуков речи по их математическим описаниям. Так, формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, имитирующих резонаторы голосового тракта (LPC-модель). Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.

При компилятивном синтезе из естественной речевой последовательности вырезаются сегменты, из которых склеивается новая речевая последовательность. В зависимости от задачи сегменты могут иметь различный размер: от фрагмента фразы до субаллофона. В системах синтеза речи по произвольному тексту обычно используются сегменты, равные аллофонам, дифонам или субаллофонам.

На основе компилятивного синтеза построено множество систем, использующих разные типы звуковых фрагментов и различные методы составления звуковой базы. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь.

В рамках настоящей полезной модели используются основы не просто записи и воспроизведения голоса человека, но и разделение на сегменты и подбор к каждому сегменту ему соответствующего музыкального го звучания живого музыкального инструмента или его электронной вариации. Поэтому данная полезная модель так же включает в себя основы анализа музыкального звучания инструментов.

Известен метод волнового синтеза, применяемый для цифровой записи непосредственно с микрофона натуральных образцов (т.н. сэмплов) музыкальных и немузыкальных звуков. После программной обработки сэмплы

хранятся в банке данных, например, в постоянном запоминающем устройстве (ПЗУ) в качестве тонов созданных таким образом "инструментов", например, "рояль", "голос", "телефон" и др.

Озвучивание этих "инструментов" происходит в устройствах, использующих эти банки данных, в частности в цифровых музыкальных инструментах или звуковых картах (например, Sound Blaster AWE32), устанавливаемых в компьютерах. Устройства используют банки данных как непосредственно для исполнения музыки, так и для ее записи музыкальными студиями и нотными редакторами, а также для озвучивания музыки, записанной ранее в одном из известных стандартов, например, MIDI. (Ю.В.Петелин, Р.Ю.Петелин "Персональный оркестр... в персональном компьютере", Санкт-Петербург, изд. "Полигон", 1997 стр.36-39).

Разнообразие музыкальных и немузыкальных "инструментов", хранящихся в банке данных ПЗУ, расширяет творческие возможности пользователя.

При этом необходимо отметить, что ни улучшение качества звучания создаваемых сэмплов музыкальных "инструментов", ни количественное их разнообразие в банках данных не могут способствовать ускорению развития музыкальных способностей и музыкального слуха по ряду следующих обстоятельств.

Музыкальный строй, используемый в музыке, основан на равномерной темперации - делении октавы на двенадцать равных полутонов, (Вахромеев В. "Элементарная теория музыки", изд. 7-е. М.: Музыка, 1975). Вследствие несоответствия количества используемых слогов (семь) с количеством звуков в октаве (двенадцать) и, соответственно, мест их извлечения, например клавиш, происходит процесс переименования звуков и мест их извлечения. Этот процесс становится возможным благодаря применению в нотной графике дополнительных корректирующих обозначений (знаков альтерации), таких как #, b, x, bb, прибавляемых в качестве их названий к слогам. Например: До диез # До бемоль b До дубль диез x До дубль бемоль bb. Эти корректирующие дополнения переносят именное значение исходного слога на соседние высоты

звуков и, соответственно, места их извлечения на музыкальном инструменте вверх и вниз до 2-х полутонов, увеличивая количество наименований до тридцати пяти. (фиг.1).

При сольмизации (прочтении нотного текста, пропевании воспроизводимого слоговыми наименованиями), в целях сохранения метроритмической основы озвучиваемого корректирующие понятия (диез, бемоль, дубль диез, дубль бемоль) не произносятся и одним и тем же слогом могут именоваться пять различных звуков, например: Ре (дубль бемоль), Ре (бемоль), Ре, Ре (диез), Ре (дубль диез) (см. пример А, фиг.1).

Вследствие этого возникает проблема, связанная с воспитанием музыкального слуха как памяти на имя высоты звука (т.н. "абсолютного слуха") ввиду того, что переименования звуков (т.н. энгармонизм), возникающие по вышеназванной причине, приводят к тому, что каждая высота музыкального тона может быть именована несколькими именами. Например, высота тона в 440 герц может именоваться не только слогом Ля, но и Соль (дубль диез) или Си (дубль бемоль).

Настоящая полезная модель направлена на решение технической задачи по сегментации речевого сигнала на отдельные фрагменты, установлении частоты и модуляции каждого фрагмента и выборе из ряда сэмплов звучаний музыкальных инструментов такого сэмпла, который полностью повторяет по частоте и модуляции данный фрагмент с получением на выходе системы звучания оркестра синхронизированного с цветовым представлением каждого фрагмента.

Достигаемый при этом технический результат заключается в повышении эффективности за счет формирования условий интонирования, возникающего при непроизвольной имитации воспроизводимых наименований звуков, что приводит к адекватному узнаванию музыкальных тонов (как слоговых фонем) в звучании других музыкальных инструментов и формированию способности восприятия мелодии в качестве слоговой речи. Закрепление в сознании пользователя одного имени и за звуком, и за местом его извлечения в процессе музицирования на музыкальном инструменте ведет к установлению

взаимосвязи фонемно-слоговой музыкальной речи, основанной на именованных звуковысотных представлениях с тактильными ощущениями, формируя у исполнителя качественно новое мышление, оперирующее именованными двигательно-моторными звуковысотными представлениями.

Указанный технический результат достигается тем, что система преобразования голоса в звучания музыкальных инструментов, содержащая по крайне мере один микрофон для одного говорящего или поющего исполнителя, выход которого связан с блоком аналого-цифрового преобразования речевого сигнала, блок преобразования в цифровую форму речевого сигнала на элементарные речевые фрагменты с определением частоты каждого фрагмента, блок хранения сэмплов музыкальных инструментов, а так же блок учета амплитуды каждого речевого фрагмента, снабжена блоком определения вокализованности каждого из элементарных речевых фрагментов, выполненным с возможностью реализации функции выбора сэмпла из блока хранения сэмплов музыкальных инструментов, частота и амплитуда которого соответствует этим же параметрам элементарного речевого фрагмента, и блоком выдачи звуковой версии выбранного сэмпла во внешнюю среду.

Указанные признаки являются существенными и взаимосвязаны с образованием устойчивой совокупности существенных признаков, достаточной для получения требуемого технического результата.

Настоящая полезная модель поясняется конкретным примером исполнения, который, однако, не является единственно возможным, но наглядно демонстрирует возможность достижения требуемого технического результата.

На фиг.1 - блок-схема система преобразования голоса в звучания музыкальных инструментов.

Сущность полезной модели заключается в следующем.

Особенностью настоящей полезной модели является создание комплексной системы преобразования пения исполнителя или исполнителей в звучание музыкальных инструментов с одновременной демонстрацией

цветовой палитры, каждый цвет которой соответствует определенной частоте звучания.

Таким образом, настоящее устройство позволит обеспечить непроизвольное освоение фонемно-слоговой музыкальной речи и формирования памяти на именованную высоту звука - основы становления музыкально-логического мышления, посредством воспроизведения музыки человеческим голосом, поющим слоговые наименования звуков темперированного строя, восприятие и освоение которых в качестве слоговых фонем музыкальной речи может начинаться ребенком параллельно с познанием языка человеческого общения.

Интонирование, возникающее при непроизвольной имитации воспроизводимых наименований звуков в процессе пользования устройством, приводит к адекватному узнаванию имен музыкальных тонов (как слоговых фонем) в звучании других (не слоговых) музыкальных инструментов и формированию способности восприятия мелодии в качестве слоговой речи.

Закрепление в сознании пользователя одного имени и за звуком, и за местом его извлечения в процессе музицирования на музыкальном инструменте ведет к установлению взаимосвязи фонемно-слоговой музыкальной речи, основанной на именованных звуковысотных представлениях с тактильными ощущениями, формируя у исполнителя качественно новое мышление, оперирующее именованными двигательно-моторными звуковысотными представлениями.

Система преобразования голоса в звучания музыкальных инструментов состоит из нескольких каналов обработки звука, в каждом из которых на одного говорящего или поющего исполнителя используется по крайне мере один микрофон 1, или радиомикрофон 2, связанный с усилителем 3, с которого снимается так же сигнал (поз.4) об амплитуде поступающего речевого сигнала. С выхода усилителя 3 в каждом канале сигнал поступает на вход блока 5 аналого-цифрового преобразования речевого сигнала, который в свою очередь связан с блоком 6 преобразования цифровой формы речевого сигнала на элементарные речевые фрагменты с определением частоты ()

каждого фрагмента, с которого частотный сигнал, соответствующий каждому речевому фрагменту, поступает в блок 7 хранения сэмплов музыкальных инструментов, который так же связан с блоком 8 учета амплитуды каждого речевого фрагмента, сигнал о которой поступает с усилителя 3.

При этом система так же включает в себя блок определения вокализованности каждого из элементарных речевых фрагментов, выполненный с возможностью реализации функции выбора сэмпла из блока хранения сэмплов музыкальных инструментов, частота и амплитуда которого соответствует этим же параметрам элементарного речевого фрагмента, и блок 9 выдачи звуковой версии выбранного сэмпла во внешнюю среду (акустическая система), связанный с устройством демонстрации цветовой палитры на экране, каждый цвет которой соответствует определенной частоте звучания. Возможно применение микшера 10.

Когда исполнитель поет в микрофон, осуществляется определение входящей частоты звукового сигнала. Для этого используется анализатор (частотомер) с соответствующим программным обеспечением, задачей которого является определение частоты входящего сигнала от микрофона со скоростью менее, чем 1/16 сек (при большей величине задержки будет проявляться эффект эха). Анализатор определения частоты для одной гаммы реализуется на базе двенадцатиполосного эквалайзера, работающего в режиме ожидания. Когда певец поет ноту, эквалайзер анализирует и подсчитывает в процентном соотношении, какое количество частот регистрируется в каждом из столбцов. Каждый из столбов этого эквалайзера реагирует на одну из 12-ти нот гаммы. Столбцы называются по названиям нот. Поэтому анализатор выдает ту частоту, амплитуда которой наибольшая. Эта частота собственно и присваивается к определенному сэмплу.

После того, как частотомер определит частоты звучания в соответствии с показаниями эквалайзера (столбцы) каждой ноте будет соответствовать свой цвет, который будет отображаться визуально на экране. По данным частотомера выбираются соответствующие ноты из ряда сэмплов, хранящихся в базе данных (сэмплов звучания музыкальных инструментов).

Данная система может использоваться в качестве корректирующей пение системы, обеспечивающей в случае недотягивания ноты ее восстановление на основе сравнения с ранней записью.

Система может быть снабжена эквалайзером для выделения частот в данном диапазоне голосового исполнения, связанным с устройством цветового отображения на экране. Или блок определения вокализованности каждого из элементарных речевых фрагментов связан с устройством цветового отображения на экране.

Система может быть снабжена постоянно запоминающими устройствами 11 (ПЗУ) для запоминания частот речевых фрагментов и соответствующих им сэмплов музыкальных инструментов, при этом данные ПЗУ связаны с компьютером 12.

При использовании цветовой установки система приобретает комплексность за счет синхронизации музыкальных тонов (частот) с соответствующими им цветовыми отображениями на экране. Таким образом, осуществляется связь музыки с цветом. Ниже приводится таблица возможных соответствий ном цвету.

красныйнота до
краснооранжевыйнота до #
оранжевыйнота ре
оранжевожелтыйнота ре #
желтыйнота ми
зеленыйнота фа
зеленоголубой нота фа #
голубой нота соль
голубосиний нота соль #
синий нота ля
синефиолетовый нота ля #
фиолетовый нота си

При исполнении задания возможно искажение исполнителем звучания ноты, что тут же отражается в изменении цветовой палитры на экране. Такое восприятие ошибки становится указанием к исправлению звучания до момента появления правильного цвета.

Настоящая полезная модель промышленно применима, может быть реализована с использованием современного уровня техники и развития компьютеризированных систем.

1. Система преобразования голоса в звучания музыкальных инструментов, содержащая по крайне мере один микрофон для одного говорящего или поющего исполнителя, выход которого связан с блоком аналого-цифрового преобразования речевого сигнала, блок преобразования в цифровую форму речевого сигнала на элементарные речевые фрагменты с определением частоты каждого фрагмента, блок хранения сэмплов музыкальных инструментов, а также блок учета амплитуды каждого речевого фрагмента, отличающаяся тем, что она снабжена блоком определения вокализованности каждого из элементарных речевых фрагментов, выполненным с возможностью реализации функции выбора сэмпла из блока хранения сэмплов музыкальных инструментов, частота и амплитуда которого соответствует этим же параметрам элементарного речевого фрагмента, и блоком выдачи звуковой версии выбранного сэмпла во внешнюю среду.

2. Система по п.1, отличающаяся тем, что она снабжена эквалайзером для выделения частот в данном диапазоне голосового исполнения, связанным с устройством цветового отображения на экране.

3. Система по п.1, отличающаяся тем, что блок определения вокализованности каждого из элементарных речевых фрагментов связан с устройством цветового отображения на экране.

4. Система по п.1, отличающаяся тем, что она снабжена постоянно запоминающими устройствами для запоминания частот речевых фрагментов и соответствующих им сэмплов музыкальных инструментов.



 

Похожие патенты:

Аппарат для коррекции нарушений звуков речи относится к области медицины, а именно, к педиатрии, нейропсихологии, неврологии и может быть использован при коррекции речи у детей с врожденными и приобретенными нарушениями, а также у взрослых, для постановки голоса у вокалистов.

Полезная модель относится к области медицины и медицинской техники, а именно - к устройствам для подвода электрического поля с использованием переменного импульсного тока в электротерапевтических устройствах

Варган // 120504

Изобретение относится к области обучения, педагогики и психологии, в частности средств развивающего обучения
Наверх