Устройство автоматического распознавания говорящего по голосу

Авторы патента:

G06F15 - Цифровые компьютеры вообще (конструктивные элементы G06F 1/00-G06F 13/00); оборудование для обработки данных вообще (нейронные сети для обработки данных изображений G06T)

Устройство автоматического распознавания говорящего по голосу, относиться к области электрорадиотехники, и может быть использовано на стационарных и подвижных объектах. Достигаемым технически результатом является повышения надежности работы устройства, а также упрощения его конструкции, за счет непрерывного сравнения поступающих в ЭВМ спектральных срезов контрольного речевого материала с эталонным набором векторов и в определении наиболее вероятных опорных точек парольной фразы. Ил..2

Полезная модель относиться к области электрорадиотехники, а именно, к устройствам распознавания речевых сигналов и может быть использована на стационарных и подвижных объектах.

Необходимость разработки автоматических устройств опознавания говорящего по голосу главным образом диктуется практикой. Так, например, требуется подтвердить (верифицировать) определенную личность в контрольных и пропускных пунктах, чтобы обеспечить допуск лишь ограниченного круга лиц к управлению механизмами специального назначения или к различным информационным системам. Кроме того, проблема автоматического опознавания индивидуального голоса имеет большое значение в решении ряда криминалистических задач, в военном деле, в частности в области радиоразведки и др.

Известен Патент США. Система распознавания речи. Кл. 338-18 3292116. В этой системе предлагается корректор, имеющий набор частотных характеристик с крутизной подъема в сторону высоких частот, равной 6, 12, и 24 дБ/окт. В зависимости от соотношения уровней входного сигнала в полосах 100-500 Гц и 500-5000 Гц включается управляющая цепь с соответствующей корректирующей характеристикой.

Наиболее близкой к заявляемому устройству является «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ 75074 от 20.07.08 г. Автор Катанович А.А. и др.

Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.

Однако, как аналог, так и прототип недостаточно способны учитывать индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализации, осуществляемо всеми тремя программами вместе, а также высокую стоимость.

Целью полезной модели является повышения надежности работы устройства, а также упрощения его конструкции.

Поставленная цель достигается тем, что устройство автоматического распознавания говорящего по голосу состоящее из блока обработки речевого сигнала, в который входит микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, причем нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон, типа ДЭМШ.

На Фиг.1 приведена структурная схема устройства.

На Фиг.2 - зависимость ошибки анализа от номера сеанса при адаптации эталонов.

Структурная схема, показанная на Фиг.1 содержит:

1 - шумостойкий микрофон;

2 - предварительный усилитель;

3 - высокочастотный усилитель;

4 - усилитель с автоматической регулировкой усиления (АРУ) диапазон 40 дБ

5 - полосовой фильтр;

6 - детектор огибающей;

7 - фильтр нижних частот.

В микрофоне, помимо сужения полосы пропускания и, значит, потери полезной голосовой информации, речевой сигнал подвергается воздействию внутриканальных искажающих факторов, таких как специфические трески и шумы. Поэтому с целью отстраивания от внешних шумов в устройстве применен шумостойкий микрофон типа ДЭМШ.

Работа системы осуществляется следующим образом.

Речевой сигнал через микрофон 1 и усилители 2 и 3 попадает на нормализатор уровня сигнала. Роль нормализатора выполняет схема автоматического регулирования усилителя 4, позволяющая работать в динамическом диапазоне 40 дБ. Нормализованный сигнал далее поступает на 16 - канальную гребенку полосовых фильтров 5, равномерно накрывающих диапазон 300-3000 Гц. Полоса пропускания фильтров составляет 220 Гц. После детектирования выходные сигналы попадают на фильтры нижних частот 7 и сглаживаются. Полученные таким образом огибающие 6 квантуются во времени через каждые 10 мс и представляются по амплитуде 7 битами. 17 - канал используется для получения общей интенсивности сигнала, что обеспечивает машинное определение энергетически мощных звуков речи - гласных. 17-м каналом служит фильтр с полосой пропускания 300-4000 Гц. На этих участках далее выбираются 6 спектральных срезов, отстоящих друг от друга на 20 мс и охватывающих таким образом отрезок 100 мс. В результате такой обработки каждая фраза представлена 16×6×7=672 битами информации, что и считается эталонным описанием данного голоса.

В процессе эксплуатации системы при успешных попытках верификации эталонные спектральные срезы-векторы подвергались периодической корректировке или адаптации. Роль адаптации эталонов в снижении ошибок верификации показана на Фиг.2. Виден многотонный спад числа ошибок с ростом сеансов экспериментов.

Процесс верификации заключался в непрерывном сравнении поступающих в ЭВМ спектральных срезов контрольного речевого материала с эталонным набором векторов и в определении наиболее вероятных опорных точек парольной фразы.

Решающее правило было основано на изменении минимума квадрата отклонения спектральных срезов опорных точек испытуемой фразы к эталонным векторам. Время верификации составляло 5,8 с.

Необходимость осуществления процесса верификации в реальном масштабе времени поставила перед устройством ряд требований. В первую очередь устройство должно было состоять из аналогового процессора, обеспечивающего мгновенный анализ сигнала. Процедура машинной обработки данных также упрощалась максимально путем введения простых операций выделения признаков и, в особенности, принятием решений.

Речевым материалом, как и почти во всех системах верификации, служили парольные фразы. В данном случае они состояли из четырехсложного предложения, причем каждое слово было односложным. Выбор таких слов обеспечил легкую сегментацию сигнала на фонемы и выделение энергетически сильных гласных звуков. Четыре гласных в дальнейшем принимались за так называемые опорные точки, служащие ориентиром для удовлетворительного сопоставления контрольных и эталонных данных.

Проверка работоспособности устройства происходила в лабораторных условиях с использованием звукоизолирующих камер. Было произведено более 30 сеансов, в каждом из которых как «своими», так и «чужими» дикторами произносились пять парольных фраз. Каждая последующая фраза произносилась при неудачной сегментации предыдущей фразы, или же когда хотели определить повышение надежности верификации в условиях предъявления системе нескольких парольных фраз.

Обобщенное число ошибок не превысило 1,5% при верификации, осуществляемой по одной фразе, 0,40% по двум фразам и 0,21% по трем фразам.

Среднее число фраз, при котором надежность верификации «своих» дикторов достигала 99%, а надежность непринятия «чужих» 99,9%, было меньше 1,3%.

Предложенное устройство существенно упростило конструкцию системы распознавания речевых сигналов, а также сократило расходы на его изготовления, при этом повысилась надежность эксплуатационной работы.

Устройство автоматического распознавания говорящего по голосу, состоящее из блока обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, отличающееся тем, что нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления, который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон типа ДЭМШ.

Комплексная система управления базой электронного документооборота и процессами печати // 101227

Автоматизированная система электронного документооборота закрытого контура ведомственного сегмента министерства обороны // 92213

Система мультикритериальных онлайновых запросов предложений и единого электронного документооборота // 107612

Автоматизированная информационная система удостоверяющего центра при оформлении и изготовлении паспортно-визовых документов нового поколения // 99625

Автоматизированная система квалифицированной цифровой электронной подписи документов // 142709

Автоматизированная система квалифицированной цифровой электронной подписи документов относится к устройствам обработки данных для специального применения и может быть использована в структуре электронного документооборота заказчик-исполнитель, в частности, при реализации документооборота в области рекламы

Автоматизированное рабочее место мониторинга электронного документооборота паспортно-визового делопроизводства // 76738

Устройство для подписи документов электронной аналого-цифровой подписью // 125421

Система проверки на присутствие вредоносного программного обеспечения с изменяемыми настройками проверки // 101235

Устройство электронной платежной системы (варианты) // 46896

Устройство сигнализации о движении транспорта специального назначения // 69814

Изобретение относится к области обеспечения безопасности движения транспортных средств