Система ввода речевой информации

 

Система ввода речевой информации относится к области компьютерных систем анализа речи и может быть использована, например, в системах идентификации (верификации) диктора или в системах распознавания речи для ввода эталонной речевой информации и сохранения ее в виде файлов звукового сигнала или иных характеристик речи.

Сущность полезной модели состоит в том, что в систему ввода речевой информации, содержащую микрофон, устройство записи в файл аудиоданных произносимых диктором слов (фраз), словарь (фразарь), устройство считывания элементов текста словаря (фразаря), устройство визуализации элементов текста словаря (фразаря), таймер, введены блок вычисления длительности произнесения гласных и пауз, блок темпа диктования, блок умножения, блок вычисления длительности согласных, сумматор, блок функционального преобразования.

Технический результат состоит в повышении на 20% точности ввода информации и снижении на 15% трудоемкости работы диктора.

Система ввода речевой информации относится к области компьютерных систем анализа речи и может быть использована, например, в системах идентификации (верификации) диктора или в системах распознавания речи для ввода эталонной речевой информации и сохранения ее в виде файлов звукового сигнала или иных характеристик речи.

Известна система ввода речевой информации, содержащая микрофон, кнопку записи, устройство записи в ЭВМ произносимых диктором слов (фраз), словарь (фразарь) [см., например, Т.К.Винцюк. Анализ, распознавание и интерпретация речевых сигналов. Киев, Наукова думка, 1987, с.207-208. Раздел - Универсальный моделирующий стенд]. Для регистрации речевой информации диктор - оператор нажимает кнопку записи, затем произносит слово, словосочетание или слитную фразу, после чего отпускает кнопку. Благодаря кнопке записи в ЭВМ вводятся только интересующие человека-оператора сигналы.

Известная система обладает низкой эффективностью ввода речевой информации, так как она не автоматизирована и полностью управляема диктором.

Известна также система ввода речевой информации, содержащая генератор сигнала, микрофон, обнаружитель речи и схему контроля [см., например, Takao Vatanabe, Masao Vatari. Voice Input System. Патент США 4641 342 от 03.02.1987 Класс 381-41.] Генератор сигнала сообщает диктору о готовности системы к речевому вводу. Обнаружитель речи определяет наличие речевого сигнала. Схема контроля проверяет, определил ли обнаружитель речи речевой сигнал до конца импульса

генератора сигнала. Если это так, то он вызывает генерацию повторного сигнала, предотвращая потерю сигнала речевого ввода. При диктовании элементов текста словаря диктор должен сосредоточить внимание на читаемом элементе. При генерации повторного сигнала он должен повторно диктовать уже произнесенный элемент.

Система обладает невысокой эффективностью ввода речевой информации, так как требует значительной трудоемкости работы диктора.

Наиболее близким аналогом-прототипом является система ввода речевой информации, содержащая микрофон, устройство записи в файл произносимых диктором слов (фраз), словарь (фразарь), устройство считывания элементов текста словаря (фразаря), устройство визуализации элементов текста словаря (фразаря), и таймер [см., например, В.Н.Плотников, В.А.Суханов, Ю.Н.Жигулевцев "Речевой диалог в системах управления" Машиностроение, 1988, раздел - Автоматизация проектирования систем речевого диалогового управления, стр.197-198, схема рис.55 стр.201].

В режиме обучения оператор произносит слова из набора (фразаря). Порядок и темп произнесения слов обучающей выборки задаются с помощью таймера включением соответствующих транспарантов на табло, таким образом система осуществляет подсказку.

Эта система пригодна для ввода речевой информации, однако при постоянном шаге срабатывания таймера ее эффективность снижается за счет ухудшения работы при большом диапазоне возможной длины элементов текста словаря (фразаря) и диапазоне возможного темпа речи потенциальных дикторов.

Задачей предлагаемой полезной модели является повышение точности ввода информации и снижение трудоемкости работы диктора.

Сущность полезной модели состоит в том, что в систему ввода речевой информации, содержащую микрофон, устройство записи в файл аудиоданных произносимых диктором слов (фраз), словарь (фразарь), устройство считывания элементов текста словаря (фразаря), устройство визуализации элементов текста словаря (фразаря), таймер, введены блок вычисления длительности произнесения гласных и пауз, блок темпа диктования, блок умножения, блок вычисления длительности согласных, сумматор, блок функционального преобразования. Микрофон соединен с устройством записи в файл произносимых диктором слов (фраз), выход словаря (фразаря) соединен со входом устройства считывания элементов текста словаря (фразаря), первый выход устройства считывания элементов словаря (фразаря) соединен со входом словаря, второй выход устройства считывания элементов словаря (фразаря) соединен со входом устройства визуализации элементов словаря (фразаря) и со входами блока вычисления длительности произнесения гласных и пауз и блока вычисления длительности согласных, выход блока вычисления длительности произнесения гласных и пауз соединен со входом блока умножения, другой вход которого соединен с выходом блока темпа диктования, выходы блока умножения и блока вычисления длительности согласных соединены со входом сумматора, выход которого соединен со входом блока функционального преобразования, выход которого соединен со входом таймера, выход таймера соединен со входом устройства считывания элементов словаря (фразаря).

Использование предлагаемой системы позволяет примерно на 20% повысить точность ввода информации и на 15% снизить трудоемкость работы диктора.

Функциональная блок-схема системы ввода речевой информации представлена на фиг.1.

Система ввода речевой информации содержит микрофон 1, например, выполненный в виде микрофона гарнитуры Labtec LVA-8525 (см., например, http://www.labtec.com), устройство 2 записи в файл аудиоданных произносимых диктором слов (фраз), например, выполненный в виде блока записи стандартного проигрывателя Windows Media (см., например, http://www.microsoft.com), словарь (фразарь) 3, например, выполненный в виде текстового файла или блока памяти текстового формата (см., например, http://sunschool.math.rsu.ru/taskbook/textw.htm), устройство 4 считывания элементов словаря (фразаря), например, выполненное в виде устройства чтения текстового файла или данных блока памяти текстового формата (см., например, http://www.developing.ru.forum), устройство 5 визуализации элементов текста словаря (фразаря), например, выполненное в виде дисплея компьютера (см. например, http://www.samsung.com), блок 6 темпа диктования, например, выполненный в виде блока ввода численных данных с экрана компьютера (см. например, http://www.siniloc.ru), блок 7 вычисления длительности произнесения гласных и пауз, например, выполненный в виде вычислителя числа гласных в фразе, выход которого соединен со входом умножителя, к другому входу которого подключен сигнал среднестатистической длительности гласного звука, выход умножителя соединен со входом сумматора, к другому входу которого подключен сигнал поправки на среднестатистическую длительность одной ударной гласной в слове и длительности пауз в фразе (см. например, Зиндер Л.В. Проблемы и методы экспериментально-фонетического анализа речи. Л. ЛГУ. 1980.), блок 8 умножения, например, выполненный в виде блока умножения калькулятора (см. например, http://www.sharp.com), блок 9 вычисления длительности согласных например, выполненный в виде вычислителя числа согласных в фразе, выход которого соединен со

входом умножителя, к другому входу которого подключен сигнал среднестатистической длительности согласного звука) (см. например, Зиндер Л.В. Проблемы и методы экспериментально-фонетического анализа речи. Л. ЛГУ. 1980.), сумматор 10, например, выполненный в виде блока суммирования калькулятора (см. например, http://www.sharp.com), блок 11 функционального преобразования например, выполненный в виде блока вычисления логарифма или степенной функции калькулятора (см. например, http://www.sharp.com), таймер 12, например, выполненный в виде блока задержки электронного регулятора (см. например, http://www.timer.ru), микрофон 1 соединен с устройством 2 записи в файл произносимых диктором слов (фраз), выход словаря (фразаря) 3 соединен со входом устройства 4 считывания элементов текста словаря (фразаря), первый выход устройства 4 считывания элементов текста словаря (фразаря) соединен со входом словаря (фразаря) 3, второй выход устройства 4 считывания элементов текста словаря (фразаря) соединен со входом устройства визуализации элементов текста словаря (фразаря) 5 и со входами блока 7 вычисления длительности произнесения гласных и пауз и блока 9 вычисления длительности согласных, выход блока 7 вычисления длительности произнесения гласных и пауз соединен со входом блока 8 умножения, другой вход которого соединен с выходом блока 6 темпа диктования, выходы блока умножения 8 и блока 9 вычисления длительности согласных соединены со входом сумматора 10, выход которого соединен со входом функционального преобразователя 11, выход которого соединен со входом таймера 12, выход таймера соединен со входом устройства 4 считывания элементов текста словаря (фразаря).

Система ввода речевой информации работает следующим образом. Устройство 4 считывания элементов текста словаря (фразаря) считывает очередной элемент текста в виде одного слова или фразы. Это слово или

фраза отображаются на экране устройства визуализации элементов текста словаря (фразаря) 5. В результате работы блока вычисления длительности произнесения гласных и пауз 7, блока вычисления длительности произнесения согласных 9 умножителя 8 и сумматора 10 на выходе сумматора 10 вырабатывается величина, равная длительности произнесения отображаемого на экране устройства 5 визуализации элементов текста словаря (фразаря) элемента текста словаря (фразаря). Эта величина корректируется затем блоком 11 функционального преобразования с целью учета закона изохронности речи человека - нелинейного преобразования сжатия. Индивидуальные особенности речи диктора учитываются с помощью величины, задаваемой блоком темпа диктования 6. Вычисленная и скорректированная длительность произнесения поступает на вход таймера 12, который управляет устройством считывания элементов текста словаря (фразаря) 4. Таким образом, устройство 5 визуализации элементов текста словаря (фразаря) отображает каждый элемент словаря (фразаря) столько времени, сколько требуется для его произнесения. Диктор произносит вслух текст очередной элемент словаря (фразаря) 3 в микрофон 1 и устройство 2 записи в файл аудиоданных слов (фраз), произносимых диктором, запоминает аудиоинформацию.

За счет более точного подсчета времени произнесения каждого элемента словаря (фразаря) повышается точность ввода речевой информации, а диктор освобожден от необходимости ожидания появления на экране следующего элемента словаря (фразаря) или боязни не успеть произнести следующий элемент словаря (фразаря) в отведенное время, что существенно уменьшает трудоемкость работы диктора.

Система ввода речевой информации, содержащая микрофон, устройство записи в файл аудиоданных произносимых диктором слов (фраз), словарь (фразарь), устройство считывания элементов текста словаря (фразаря), устройство визуализации элементов текста словаря (фразаря) и таймер, отличающаяся тем, что в нее введены блок вычисления длительности произнесения гласных и пауз, блок темпа диктования, блок умножения, блок вычисления длительности согласных, сумматор, блок функционального преобразования, микрофон соединен с устройством записи в файл произносимых диктором слов (фраз), выход словаря (фразаря) соединен со входом устройства считывания элементов текста словаря (фразаря), первый выход устройства считывания элементов словаря (фразаря) соединен со входом словаря (фразаря), второй выход устройства считывания элементов словаря (фразаря) соединен со входом устройства визуализации элементов словаря (фразаря) и со входами блока вычисления длительности произнесения гласных и пауз и блока вычисления длительности согласных, выход блока вычисления длительности произнесения гласных и пауз соединен со входом блока умножения, другой вход которого соединен с выходом блока темпа диктования, выходы блока умножения и блока вычисления длительности согласных соединены со входом сумматора, выход которого соединен со входом функционального преобразователя, выход которого соединен со входом таймера, выход таймера соединен со входом устройства считывания элементов словаря (фразаря).



 

Похожие патенты:

Беспроводной компьютерный манипулятор типа мышь относится к устройствам управления объектами, в частности, к устройствам управления объектами, отображаемыми на дисплее компьютера, используемыми в мобильных телефонных аппаратах, бытовых и технологических устройствах, компьютерных манипуляторах. Изобретение может быть использовано для ввода, обработки и вывода данных путем управления объектами любых устройств визуального отображения текстовой и графической информации, а также для управления роботизированными объектами, летательными и подводными аппаратами, управления объектами в компьютерных играх-симуляторах и при трехмерном проектировании, построении, моделировании.

Изобретение относится к интерфейсу прикладного программирования для сетевой платформы, на которой разработчики могут создавать веб-приложения и веб-службы
Наверх