Устройство для помощи в обучении правильному произношению

 

Полезная модель касается средств обучения и представляет собой устройство, предназначенное для постановки правильного произношения. Областью его применения является обучение произношению при изучении иностранных языков, обучении диалектам, коррекции различных ошибок произношения.

Устройство для помощи в обучении правильному произношению содержащее микрофон, блок распознавания и поиска границ, дисплей, блок управления, дополнительно содержит видеокамеру, блок предварительной обработки, блок преобразования цветового пространства, блок обнаружения лица, блок обнаружения губ, блок бинаризации, блок памяти цветовых моделей, блок адаптации контура, блок вычисления видео-признаков, микрофон, блок сегментного анализа, блок вычисления аудио-признаков, блок памяти аудиовизуальных моделей, блок буферизации, блок вычисления комплексных признаков, блок визуализации, блок памяти моделей произношения, блок памяти информационных сообщений.

Техническим результатом, достигаемым предлагаемым устройством, является упрощение процесса обучения произношению, повышение точности и эффективности обучения за счет применения аудиовизуального анализа и распознавания речи, а также нового подхода к визуализации речевых сигналов, который позволяет формировать на дисплее области, соответствующие правильному произношению и наиболее типичным ошибкам, поскольку обучающемуся необходимо знать не только то, что он совершает ошибку, но также и ее тип. 1 с.п.ф., 1 илл.

Полезная модель касается средств обучения и представляет собой устройство, предназначенное для постановки правильного произношения. Областью его применения является обучение произношению при изучении иностранных языков, обучении диалектам, коррекции различных ошибок произношения.

Обучение иностранному языку - сложный и длительный процесс. Одним из основных его этапов является постановка произношения. Как правило, для обучения на этом этапе требуется квалифицированный педагог, поскольку обучаемый не может достаточно объективно оценивать качество своего произношения. Поэтому для обеспечения возможности самостоятельных занятий разрабатываются различные специализированные системы и устройства помощи в обучении произношению.

Известно устройство для фонетического анализа и обучения речи патент на полезную модель 90251, G10L 15/00, опубл. 27.12.2009. Устройство содержит последовательно соединенные микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок памяти эталонов, блок оперативной памяти и блок коммутации, последовательно соединенные второй блок принятия решений, второй блок измерения сходства и блок визуализации данных, выход которого является выходом устройства.

Недостатком этого устройства является то, что вычисление сходства произношения с каким-либо эталоном производится на основании анализа всего сигнала. В то же время при обучении произношению, скажем, отдельных слов интерес представляет, прежде всего, коррекция произношения отдельного звука (например, фонемы или слога) внутри выбранного слова. Однако предложенное устройство не позволяет проводить анализ качества произношения отдельных частей слова.

Также имеется способ обучения произношению и устройство его реализующее патент США 20060057545, G09B 16/00, опубл. 16.03.2006. Способ заключается в получении речевого сигнала от пользователя, анализа качества речевых единиц и формировании звукового сигнала на основе речи пользователя. При этом одновременно на дисплее отображается величина качества произношения для каждой речевой единицы.

Недостатком способа и устройства является то, что пользователю не предоставляется информация о том, в чем может заключаться причина недостаточного качества произношения слова или фразы.

Наиболее близким к заявляемому по технической сущности и достигаемому результату, выбранным в качестве прототипа, является система, реализующая метод для интерактивного обучения произношению по патенту США 20090004633, G09B 5/00, G09B 15/00, опубл. 01.01.2009. Предложенный метод направлен на использовании в обучении звуков, которые вызывают у обучаемых наибольшие проблемы. Для этого используются множества слов, отличающиеся только на один слог, который представляет собой сложный для произношения звук. Реализующая метод система включает в себя пользовательский интерфейс и систему автоматического распознавания речи.

Недостатком данного метода является то, что он использует только один вариант неправильного произношения для каждого изучаемого звука. Вместе с тем известно, что при обучении иностранному произношению для некоторых звуков могут существовать несколько классов типичных ошибок.

Кроме того, все системы, описанные в рассмотренных выше патентах, не используют визуальную информацию для уточнения результатов своей работы.

Техническим результатом, достигаемым предлагаемым устройством, является упрощение процесса обучения произношению, повышение точности и эффективности обучения за счет применения аудиовизуального анализа и распознавания речи, а также нового подхода к визуализации речевых сигналов, который позволяет формировать на дисплее области, соответствующие правильному произношению и наиболее типичным ошибкам, поскольку обучающемуся необходимо знать не только то, что он совершает ошибку, но также и ее тип.

Указанный технический результат достигается тем, что устройство для помощи в обучении правильному произношению содержащее микрофон, блок распознавания и поиска границ, дисплей, блок управления, дополнительно содержит видеокамеру, блок предварительной обработки, блок преобразования цветового пространства, блок обнаружения лица, блок обнаружения губ, блок бинаризации, блок памяти цветовых моделей, блок адаптации контура, блок вычисления видео-признаков, микрофон, блок сегментного анализа, блок вычисления аудио-признаков, блок памяти аудиовизуальных моделей, блок буферизации, блок вычисления комплексных признаков, блок визуализации, блок памяти моделей произношения, блок памяти информационных сообщений, причем видеокамера соединена с блоком предварительной обработки, выход которого подключен к входу блока преобразования цветового пространства и к входу блока обнаружения лица, выход которого подключен к входу блока обнаружения губ, выход которого подключен к входу блока преобразования цветового пространства, при этом выход блока памяти цветовых моделей подключен к входу блока бинаризации, выход блока преобразования цветового пространства подключен к входу блока бинаризации, выход которого подключен к входу блока вычисления видео-признаков, выход которого подключен к входу блока распознавания и поиска границ и к входу блока буферизации, при этом микрофон подключен к входу блока сегментного анализа, выход которого подключен к входу блока вычисления аудио-признаков, выход которого подключен к входу блока распознавания и поиска границ, причем выход блока памяти аудио-визуальных моделей подключен к входу блока распознавания и поиска границ, выход блока управления подключен к входу блока распознавания и поиска границ, выход блока сегментного анализа подключен к входу блока буферизации, выход блока распознавания и поиска границ подключен к входу блока буферизации, при этом выход блока вычисления видео-признаков подключен к входу блока буферизации, выход которого подключен к входу блока вычисления комплексных признаков, выход которого подключен к входу блока визуализации, выход которого подключен к входу дисплея, при этом выход блока памяти моделей произношения подключен к входу блока визуализации, а выход блока памяти информационных сообщений подключен к входу блока визуализации.

На фиг.1 представлена блок-схема предлагаемого устройства.

На фиг.2 представлена иллюстрация расположения на дисплее области правильного произношения и областей типичных ошибок.

На фиг.3 изображен пример обучения произношению фонемы английского языка /w/.

Устройство для помощи в обучении правильному произношению содержит видеокамеру 1, блок предварительной обработки 2, блок преобразования цветового пространства 3, блок обнаружения лица 4, блок обнаружения губ 5, блок бинаризации 6, блок памяти цветовых моделей 7, блок адаптации контура 8, блок вычисления видеопризнаков 9, микрофон 10, блок сегментного анализа 11, блок вычисления аудио-признаков 12, блок распознавания и поиска границ 13, блок памяти аудиовизуальных моделей 14, блок управления 15, блок буферизации 16, блок вычисления комплексных признаков 17, блок визуализации 18, блок памяти моделей произношения 19, блок памяти информационных сообщений 20, дисплей 21. Видеокамера 1 соединена с блоком предварительной обработки 2, выход которого подключен к входу блока преобразования цветового пространства 3 и к входу блока обнаружения лица 4. Выход блока обнаружения лица 4 подключен к входу блока обнаружения губ 5, выход которого подключен к входу блока преобразования цветового пространства 3, выход блока памяти цветовых моделей 7 4

подключен к входу блока бинаризации 6. Выход блока преобразования цветового пространства 3 подключен к входу блока бинаризации 6, выход которого подключен к входу блока вычисления видео-признаков 9, выход которого подключен к входу блока распознавания и поиска границ 13 и к входу блока буферизации 16. Микрофон 10 подключен к входу блока сегментного анализа 11, выход которого подключен к входу блока вычисления аудио-признаков 12, выход которого подключен к входу блока распознавания и поиска границ 13. Выход блока памяти аудио-визуальных моделей 14 подключен к входу блока распознавания и поиска границ 13. Выход блока управления 15 подключен к входу блока распознавания и поиска границ 13, выход блока сегментного анализа 11 подключен к входу блока буферизации 16. Выход блока распознавания и поиска границ 13 подключен к входу блока буферизации 16, выход блока вычисления видео-признаков 9 подключен к входу блока буферизации 16, выход блока буферизации 16 подключен к входу блока вычисления комплексных признаков 17, выход которого подключен к входу блока визуализации 18, выход которого подключен к входу дисплея 21. Выход блока памяти моделей произношения 19 подключен к входу блока визуализации 18, выход блока памяти информационных сообщений 20 подключен к входу блока визуализации 18.

В устройстве может использоваться конденсаторный, динамический, электретный или ленточный микрофон.

В устройстве может использоваться цветная видеокамера с цифровым или аналоговым выходом.

В устройстве может использоваться жидкокристаллический дисплей или дисплей на основе электронно-лучевой трубки.

Блок предварительной обработки 2, блок преобразования цветового пространства 3, блок обнаружения лица 4, блок обнаружения губ 5, блок бинаризации 6, блок памяти цветовых моделей 7, блок адаптации контура 8, блок вычисления видео-признаков 9, блок сегментного анализа 11, блок вычисления аудио-признаков 12, блок распознавания и поиска границ 13, блок памяти аудиовизуальных моделей 14, блок управления 15, блок буферизации 16, блок вычисления комплексных признаков 17, блок визуализации 18, блок памяти моделей произношения 19, блок памяти информационных сообщений 20 могут быть реализованы как программным, так и аппаратным способом.

Микрофон 10 и видеокамера 1 могут быть реализованы как в виде отдельных устройств, так и в виде комбинированного устройства захвата данных.

Устройство имеет два режима работы: режим обучения произношению отдельных звуков и режим обучения произношению звуков внутри коротких слов. При этом постановка произношения производится преимущественно по звукам, которые вызывают наибольшие трудности у обучаемых.

Обучаемый, выбрав режим работы и звук для изучения, последовательно произносит выбранный звук или слово. Результат анализа качества произношения выводится на дисплей 21 графически в виде метки. Причем на дисплее 21 одновременно отображаются область правильного произношения и области типичных ошибок произношения. В случае если произношение обучаемого соответствует какой-либо из областей типичных ошибок, то на дисплей в автоматическом режиме выдается рекомендация по исправлению произношения. После каждого произношения на дисплее 21 отображается новая метка, соединенная стрелкой с предыдущей. Путем корректировки своего произношения обучаемый старается приблизить положение метки к центру области правильного произношения.

Кроме результата визуализации произношения дисплее также отображается оценка качества произношения в виде числа в диапазоне от 0 до 100. Минимальное значение соответствует наихудшему произношению, а максимальное - наилучшему.

Устройство работает следующим образом.

Последовательность видеокадров непрерывно поступает с цветной видеокамеры 1 в блок предварительной обработки 2, в котором происходит преобразование цветового пространства кадра из формата видеокамеры в формат RGB.

После предварительной обработки видеокадры поступают одновременно в блок обнаружения лица 4 и блок преобразования цветового пространства 3.

Блок обнаружения лица 4 осуществляет поиск на анализируемом видеокадре лица человека с помощью алгоритма Виолы-Джонса. В случае успешного обнаружения координаты лица и видеокадр передаются для дальнейшей обработки в блок обнаружения губ 5.

Блок обнаружения губ 5 осуществляет поиск на анализируемом видеокадре губ человека с помощью алгоритма Виолы-Джонса в пределах координат, полученных от блока обнаружения лица 4. В случае успешного обнаружения координаты губ передаются для дальнейшей обработки в блок преобразования цветового пространства 3.

Блок преобразования цветового пространства 3 осуществляет преобразование цветового пространства фрагмента видеокадра, значения координат которого поступают от блока обнаружения губ 5, из цветового пространства RGB в цветовое пространство, в котором значимые характеристики изображения устойчивы к изменению яркости. Наиболее предпочтительным является цветовое пространство { R, G, Сb, Сr }, где

, , a Cb и Cr - соответствующие компоненты цветового пространства YCbCr.

Блок бинаризации 6 осуществляет формирование бинарной маски из полученного от блока преобразования цветового пространства 3 преобразованного фрагмента видеокадра. При этом значению 1 соответствует область кожи губ, а цвету 0 все остальные точки изображения. Для формирования указанной маски производится разделение всех точек изображения на два класса (кожа губ и не кожа губ) с помощью классификатора на основе гауссовых смесей. Параметры смесей для каждого класса содержатся в блоке памяти цветовых моделей 7. Предпочтительное количество гауссовых функций плотности распределения вероятностей в смеси для каждого класса составляет 7.

Блок адаптации контура 8 осуществляет адаптацию активной контурной модели к бинарному изображению, полученному от блока бинаризации 6. Активная контурная модель - это деформируемая модель, шаблон которой задан в форме параметрической кривой, инициализированный вручную набором контрольных точек, лежащих на открытой или замкнутой кривой на входном изображении.

Блок вычисления видео-признаков 9 производит преобразование координат точек активной контурной модели, рассчитанной в блоке адаптации контура 8 в вектор признаков с использование метода главных компонент. Это позволяет уменьшить объем данных для дальнейшей обработки без потери важной информации. Полученные данные поступают в блок распознавания и поиска границ 13 и, одновременно, в блок буферизации 16.

Звуковой сигнал с выхода микрофона 10 подвергается в блоке сегментного анализа 11 операции временного сегментирования.

Блок вычисления аудио-признаков 12 осуществляет преобразование поступающих с выхода блока сегментного анализа 11 сегментов в векторы аудио-признаков. В качестве векторов признаков используются мелкепстральные коэффициенты, а также их первые и вторые производные.

Блок распознавания и поиска границ 13 производит поиск оптимальной разметки границ фонем во входной последовательности аудио и видео признаков. Для решения данной задачи используется система распознавания речи на основе сдвоенной скрытой марковской модели. Построение модели слова или отдельного звука происходит динамически в зависимости от полученной с блока управления 15 команды. Результатом работы блока распознавания и поиска границ 13 являются значения временных границ в анализируемом потоке данных, соответствующие выбранному для обучения звуку.

Блок памяти аудио-визуальных моделей 14 хранит параметры сдвоенных скрытых марковских моделей, используемых блоком распознавания и поиска границ 13.

Блок буферизации 16 осуществляет временное хранение данных поступающих от блока вычисления видео-признаков 9 и блока сегментного анализа 11. Выдаваемые данные определяются временными границами, полученными от блока распознавания и поиска границ 13, и содержат фрагмент аудиоданных, а также последовательность векторов видео-признаков.

Блок вычисления комплексных признаков 17 осуществляет вычисление комплексных признаков, представляющих собой совокупность итоговых аудио и видео признаков. При этом итоговые аудио-признаки вычисляются следующим образом.

Сначала находится вектор коэффициентов линейного предсказания с неравномерным частотным разрешением, рассчитанных по фрагменту аудио-данных, полученных от блока буферизации 16. После этого на основе полученных данных рассчитываются кепстральные коэффициенты с неравномерным частотным разрешением. Полученный набор коэффициентов и является вектором итоговых аудио-признаков.

Итоговые видео признаки вычисляются путем усреднения векторов видео-признаков, поступивших от блока буферизации 16.

Вектор комплексных признаков получается путем объединения итоговых векторов аудио и видео признаков с учетом весовых коэффициентов, значения которых находятся в диапазоне от 0 до 1, а сумма весовых коэффициентов должна быть равна 1.

Блок визуализации 18 производит формирование изображения комплексного вектора признаков в виде метки относительно областей правильного произношения и типичных ошибок (фиг.2) заданных соответствующими моделями и обозначенных эллипсами. Для расчета положения комплексного вектора признаков применяется метод нелинейного шкалирования.

Параметры моделей правильного произношения и типичных ошибок содержатся в блоке памяти моделей произношения 19.

Дисплей 21 производит отображение сформированного в блоке визуализации 18 изображения.

Полученные с помощью метода нелинейного шкалирования данные носят, прежде всего, качественный характер. Для точного количественного определения качества произношения используется численная оценка, которая может принимать значения от 0 до 100, причем 100 - максимально возможное качество произношения.

Для каждой области произношения (правильного или неправильного) вычисляется свое значение оценки качества произношения относительно данной области. В случае если максимальное значение оценки соответствует области с неправильным произношением, на дисплей 21 выдается рекомендация об исправлении обнаруженной ошибки. Также на дисплей 21 выдается оценка близости произношения пользователя к области правильного произношения.

Описания всех рекомендаций содержатся в блоке памяти информационных сообщений 20.

На фиг.3 изображен пример процесса обучения произношению фонемы /w/ английского языка. Символами 'о' обозначены эталонные реализации фонем, символом '+' обозначено положение метки, полученное на основе отображения вектора комплексных признаков входного сигнала, а символами 'х' дополнительно показаны реализации, соответствующие неправильному произношению фонемы /w/. Эллипсы ограничивают область правильного произношения и область ошибочного произношения. Стрелками показан процесс пошагового приближения произношения обучаемого к центру области правильного произношения.

С учетом вышесказанного можно сделать вывод, что предлагаемое устройство позволяет упростить процесс обучения произношению, повысить точность и эффективность обучения за счет применения аудиовизуального анализа и распознавания речи, а также нового подхода к визуализации речевых сигналов, который позволяет формировать на дисплее области соответствующие правильному произношению и наиболее типичным ошибкам, поскольку обучающемуся необходимо знать не только то, что он совершает ошибку, но также и ее тип.

Устройство для помощи в обучении правильному произношению, содержащее микрофон, блок распознавания и поиска границ, дисплей, блок управления, отличающееся тем, что содержит видеокамеру, блок предварительной обработки, блок преобразования цветового пространства, блок обнаружения лица, блок обнаружения губ, блок бинаризации, блок памяти цветовых моделей, блок адаптации контура, блок вычисления видеопризнаков, микрофон, блок сегментного анализа, блок вычисления аудиопризнаков, блок памяти аудиовизуальных моделей, блок буферизации, блок вычисления комплексных признаков, блок визуализации, блок памяти моделей произношения, блок памяти информационных сообщений, причем видеокамера соединена с блоком предварительной обработки, выход которого подключен к входу блока преобразования цветового пространства и к входу блока обнаружения лица, выход которого подключен к входу блока обнаружения губ, выход которого подключен к входу блока преобразования цветового пространства, при этом выход блока памяти цветовых моделей подключен к входу блока бинаризации, выход блока преобразования цветового пространства подключен к входу блока бинаризации, выход которого подключен к входу блока вычисления видеопризнаков, выход которого подключен к входу блока распознавания и поиска границ и к входу блока буферизации, при этом микрофон подключен к входу блока сегментного анализа, выход которого подключен к входу блока вычисления аудиопризнаков, выход которого подключен к входу блока распознавания и поиска границ, причем выход блока памяти аудиовизуальных моделей подключен к входу блока распознавания и поиска границ, выход блока управления подключен к входу блока распознавания и поиска границ, выход блока сегментного анализа подключен к входу блока буферизации, выход блока распознавания и поиска границ подключен к входу блока буферизации, при этом выход блока вычисления видеопризнаков подключен к входу блока буферизации, выход которого подключен к входу блока вычисления комплексных признаков, выход которого подключен к входу блока визуализации, выход которого подключен к входу дисплея, при этом выход блока памяти моделей произношения подключен к входу блока визуализации, а выход блока памяти информационных сообщений подключен к входу блока визуализации.



 

Наверх