Способ постфильтрации основного тона синтезированной речи и постфильтр основного тона
В соответствии с настоящим изобретением синтезированную речь пропускают через постфильтр, который производит вычисления на основании будущих и предшествующих данных. Кадры данных разделены на субкадры для назначения точек вычисления. Технический результат заключается в улучшении соответствия синтезированной и исходной речи. 2 с. и 8 з.п. ф-лы. 3 ил.
Изобретение главным образом имеет отношение к созданию систем обработки речевого сигнала и, в частности, касается создания систем с использованием постфильтрации.
Обработка речевого сигнала широко известна и часто применяется для сжатия поступающего речевого сигнала как для хранения, так и для последующей передачи. Обработка речевого сигнала обычно связана с делением входного речевого сигнала на блоки данных (кадры), с последующим анализом каждого блока данных для нахождения его компонентов. Затем полученные компоненты используются как для хранения, так и для последующей передачи. Если есть желание восстановить исходный речевой сигнал, то каждый кадр декодируют и осуществляют операции синтеза, которые обычно в основном являются инверсией анализа. Полученная при этом синтезированная речь обычно не в полной мере аналогична исходной речи. Поэтому для "улучшения" звукового сигнала обычно осуществляют операции постфильтрации. Одним из видов постфильтрации является постфильтрация основного тона, при которой информация основного тона, полученная на выходе кодирующего устройства, используется для фильтрации синтезированного сигнала. В известных ранее постфильтрах основного тона производится просмотр ранее полученных выборок участка синтезированного речевого сигнала p0, где p0 представляет собой значение основного тона. Субкадр ранее полученной речи, который наилучшим образом совпадает с текущим субкадром, комбинируется с текущим субкадром, обычно в соотношении 1 : 0,25 (то есть предшествующий сигнал ослабляется на три четверти). К сожалению, речевые сигналы не всегда содержат основной тон. Это относится к случаю промежутка между словами; кроме того, в конце или в начале слова основной тон может изменяться. Так как в известных ранее постфильтрах основного тона производится комбинирование ранее полученной речи с текущим субкадром и так как основной тон ранее полученный речи не совпадает с основным тоном текущего субкадра, то на выходе такого постфильтра основного тона можно получить слабый выходной сигнал в начале слов. Аналогичное справедливо и для субкадра с окончаниями произнесенных слов. Если же большинство субкадров относится к молчанию или к шумам (например, если речь уже закончилась), то основной тон ранее полученного сигнала вообще не может быть использован. Авторы данного изобретения обратили внимание на то, что декодеры речи обычно создают речевые кадры между их оперативными элементами, в то время как постфильтры основного тона оперируют только с субкадрами речевым сигналов. Так, например для некоторых из субкадров имеется информация, касающаяся будущих речевых образов. В связи с изложенным, задачей настоящего изобретения является создание постфильтра основного тона и способа, в которых используется будущая и предыдущая информация по меньшей мере для некоторых из субкадров. В соответствии с предпочтительным вариантом осуществления настоящего изобретения, постфильтр основного тона получает кадр синтезированной речи, и для каждого субкадра, входящего в кадр синтезированной речи, вырабатывает сигнал, который является функцией субкадра и окон более ранней и более поздней синтезированной речи. Каждое окно используется только при его приемлемом совпадении с субкадром. В частности, в соответствии с предпочтительным вариантом осуществления настоящего изобретения, постфильтр основного тона осуществляет проверку совпадения окна более ранней синтезированной речи с субкадром и затем принимает (допускает) это окно более ранней синтезированной речи только в том случае, если ошибка между субкадром и взвешенной версией окна мала. Если имеется достаточный промежуток более поздней синтезированной речи, то постфильтр основного тона осуществляет также проверку совпадения окна более поздней синтезированной речи с субкадром и затем принимает (допускает) это окно, если ошибка мала. В этом случае выходной сигнал является функцией субкадра и окон более ранней и более поздней синтезированной речи, если они были приняты. Далее, в соответствии с предпочтительным вариантом осуществления настоящего изобретения, оценка совпадения предусматривает определение более раннего и более позднего усиления соответственно для окон более ранней и более поздней синтезированной речи. Кроме того, в соответствии с предпочтительным вариантом осуществления настоящего изобретения, функция для выходного сигнала является суммой субкадра, более раннего окна синтезированной речи, взвешенного более ранним усилением и первым разрешающим весом, и более позднего окна синтезированной речи, взвешенного более поздним усилением и вторым разрешающим весом. Наконец, также в соответствии с предпочтительным вариантом осуществления настоящего изобретения, первый и второй разрешающие веса зависят от результатов шагов приятия решения (о совпадении). Настоящее изобретение может быть более полно понятно и оценено из последующего подробного его описания, приведенного со ссылкой на чертежи. На фиг. 1 показана структурная схема системы, которая включает в себя постфильтр в соответствии с настоящим изобретением; на фиг. 2 - схема, позволяющая лучше понять работу постфильтра в соответствии с фиг. 1; на фиг. 3 - блок-схема операций постфильтра в соответствии с фиг.1. Обратимся теперь к рассмотрению фиг. 1, 2 и 3, которые позволяют понять работу постфильтра в соответствии с настоящим изобретением. Как показано на фиг. 1, постфильтр основного тона, обозначенный позицией 10, в соответствии с настоящим изобретением получает кадры синтезированной речи от синтезирующего фильтра 12, такого как синтезирующий фильтр с коэффициентом линейного прогнозирования (LPC). Постфильтр основного тона 10 получает также значение основного тона, которое было получено ранее в декодере речи. Постфильтр основного тона 10 не должен быть обязательно первым постфильтром; он может также получать постфильтрованные кадры синтезированной речи. Постфильтр основного тона 10 включает в себя буферное устройство (буфер) текущего кадра 25, буфер предшествующего кадра 26, детерминатор (устройство определения) опережения/запаздывания 27 и постфильтр 28. Буфер текущего кадра 25 запоминает текущий кадр синтезированной речи и его разбивание на субкадры. Буфер предшествующего кадра 26 запоминает предшествующие кадры синтезированной речи. Детерминатор опережения/запаздывания 27 определяет указанные ранее показатели опережения и запаздывания относительно значения основного тона p0. Постфильтр 28 получает субкадр s [n] и будущее окно s [n + LEAD] от буфера текущего кадра 25 и вырабатывает из них постфильтрованный сигнал. Следует иметь в виду, что синтезирующий фильтр 12 синтезирует кадры синтезированной речи и подает их на постфильтр основного тона 10. Аналогично известным ранее постфильтрам основного тона, постфильтр в соответствии с настоящим изобретением оперирует с субкадрами синтезированной речи. Однако, так как заявители настоящего изобретения поняли, что при обработке субкадров на буфере текущего кадра 25 имеется полный кадр синтезированной речи, то постфильтр основного тона 10 в соответствии с настоящим изобретением также использует будущую информацию по меньшей мере для некоторых из субкадров. Это показано на фиг.2, где изображены восемь субкадров 20a - 20h двух кадров 22a и 22b, которые запоминаются соответственно в буфере текущего кадра 25 и в буфере предыдущего кадра 26. Показаны также местоположения, из которых могут быть взяты аналогичные субкадры данных для более поздних субкадров 20e - 20h. Как показывает стрелка 24e, для первого субкадра 20e данные могут быть взяты из предыдущих субкадров 20d, 20e и 20b, а также из будущих субкадров 20e, 20f и 20g. Как показывает стрелка 24f, для второго субкадра 20f данные могут быть взяты из предыдущих субкадров 20e, 20d и 20c, а также из будущих субкадров 20f, 20g и 20h. Следует иметь в виду, что для более поздних субкадров 20g и 20h имеется меньше будущих данных, которые могли бы быть использованы (так как при этом субкадр 20h отсутствует), однако при этом имеется некоторое количество прошлых данных, которое может быть использовано. Детерминатор опережения/запаздывания 27 в соответствии с настоящим изобретением производит поиск в прошлом и будущем сигналов синтезированной речи, раздельно определяет для них положение выборок запаздывания и опережения или соответственно показатель, в соответствии с которым окна длины субкадра прошедшего и будущего сигналов, начинающиеся соответственно при выборах запаздывания и опережения, наиболее полно совпадают с текущим субкадром. Если совпадение плохое, то окно не используется. Обычно поиск проводят в пределах 20 - 146 выборок раньше и позже текущего субкадра, как это показано стрелками 24. Диапазон поиска сокращен для будущих данных (то есть для субкадров 20g и 20h). После этого постфильтр 28 производит постфильтрацию сигнала синтезированной речи с использованием любого или обоих совпавших окон. Один из вариантов построения постфильтра в соответствии с настоящим изобретением иллюстрируется фиг. 3, на которой приведена блок-схема его операций для одного субкадра. Операции 30 - 74 осуществляются при помощи детерминатора опережения/запаздывания 27, а операции 76 и 78 осуществляются при помощи постфильтра 28. Операции способа в соответствии с настоящим изобретением начинаются с инициализации (шаг 30), при которой устанавливают в качестве величины минимального критерия минимальные и максимальные значения опережения/запаздывания. В соответствии с этим вариантом, минимальным опережением/запаздыванием является минимальный (основной тон - дельта, 20), а максимальным опережением/запаздыванием является (максимальный (основной тон + дельта, 146). В соответствии с этим вариантом дельта равняется трем. При проведении операций 34 - 44 определяют значение опережения, а при проведении операций 60 - 70 определяют значение запаздывания, если они имеются. Обе секции осуществляют одинаковые операции, при этом предыдущие данные запоминают в буфере предшествующего кадра 26, а будущие данные запоминают в буфере текущего кадра 25. Поэтому операции будут описаны ниже только для одной из секций. Однако полученные уравнения являются разными, как это указано далее. При проведении операции 32 устанавливают минимальную величину показателя запаздывания M_g, а при проведении операций 34 и 36 с показателем запаздывания M_g объединяют усиление g_g и определяют критерий E_g для этого показателя запаздывания. Усиление g_g является отношением кросс-корреляция субкадра s [n] и предыдущего окна s[n-M_g] с автокорреляцией предыдущего окна s[n-M_ g] в соответствии с выражением g_g =


















Операции 30 - 78 повторяют для каждого субкадра. Следует иметь в виду, что настоящее изобретение включает в себя все постфильтры основного тона, в которых используется как будущая, так и предшествующая информация. Несмотря на то, что был описан предпочтительный вариант осуществления изобретения, совершено ясно, что в него специалистами в данный области могут быть внесены изменения и дополнения, которые не выходят однако из рамки приведенной далее формулы изобретения.
Формула изобретения
РИСУНКИ
Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5
Похожие патенты:
Изобретение относится к области обработки речевых сигналов, точнее к созданию новых усовершенствованных способов и устройств для сжатия речевых сигналов, в которых степень сжатия динамически меняется с целью минимизации влияния сжатия на качество воспроизводимой речи