Генерирование бинаурального звукового сигнала в ответ на многоканальный звуковой сигнал с использованием по меньшей мере одной схемы задержки с обратной связью
Изобретение относится к акустике. Способ генерирования бинаурального сигнала в ответ на ряд каналов многоканального входного звукового сигнала заключается в применении бинауральной импульсной характеристики BRIR помещения к каждому каналу указанного ряда, генерировании в результате фильтрованных сигналов; и комбинировании фильтрованных сигналов для генерирования бинаурального сигнала. Применение BRIR к каждому каналу указанного ряда включает использование генератора поздней реверберации с применением, в ответ на контрольные значения, внесенные в генератор поздней реверберации, общей поздней реверберации к сведенному сигналу каналов указанного ряда, при этом общая поздняя реверберация эмулирует коллективные макроскопические определяющие признаки частей поздней реверберации одноканальных BRIR, совместно используемых на по меньшей мере некоторых каналах ряда, и при этом сведенный сигнал является сведенным стерео сигналом каналов указанного ряда. Технический результат - обеспечение эффективной экстернализации. 2 н. и 12 з.п. ф-лы, 17 ил.
Перекрестная ссылка на родственные заявки
Настоящее изобретение заявляет приоритет по заявке на патент Китая №201410178258.0, поданной 29 апреля 2014 г.; предварительной заявке на патент США №61/923579, поданной 3 января 2014 г.; и предварительной заявке на патент США №61/988617, поданной 5 мая 2014 г., каждая из которых посредством ссылки полностью включается в настоящее описание.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
1. Область технического применения
Изобретение относится к способам (иногда именуемым способами виртуализации наушников) и системам для генерирования бинаурального сигнала в ответ на многоканальный входной звуковой сигнал путем применения бинауральной импульсной характеристики помещения (BRIR) к каждому каналу из ряда каналов (например, ко всем каналам) этого входного сигнала. В некоторых вариантах осуществления изобретения по меньшей мере одна схема задержки с обратной связью (FDN) применяет часть поздней реверберации BRIR сведенного сигнала к этому сведенному сигналу каналов.
2. Предпосылки изобретения
Виртуализация наушников (или бинауральное представление) представляет собой технологию, преследующую цель создания впечатления окружающего звука, или звукового поля с эффектом присутствия, при использовании стандартных стереофонических наушников.
Ранние виртуализаторы наушников применяли для передачи пространственной информации при бинауральном представлении передаточную функцию слухового аппарата человека (HRTF). HRTF представляет собой ряд зависящих от направления и расстояния пар фильтров, характеризующих то, как звук передается из конкретной точки в пространстве (из местоположения источника звука) в оба уха слушателя в безэховых условиях. В представляемом бинауральном содержимом, фильтрованном посредством HRTF, могут восприниматься такие существенные пространственные метки, как интерауральная разность времени прихода (ITD), интерауральная разность уровней (ILD), теневой эффект головы, спектральные пики и провалы, вызванные отражениями от плеч и ушных раковин. По причине ограничения размера головы человека, функции HRTF не обеспечивают достаточные или устойчивые к ошибкам метки в отношении расстояния до источника за пределами, приблизительно, одного метра. Как результат виртуализаторы, основывающиеся единственно на HRTF, обычно не достигают хорошей экстернализации или воспринимаемого расстояния.
Большинство акустических явлений в нашей повседневной жизни случается в реверберирующих условиях, в которых, в дополнение к моделируемому посредством HRTF прямому пути (от источника к уху), звуковые сигналы также достигают ушей слушателя по путям различных отражений. Отражения оказывают сильное воздействие на слуховое восприятие, например, расстояния, размера помещения и других определяющих признаков пространства. Для передачи этой информации, виртуализатору при бинауральном представлении, в дополнение к меткам в HRTF прямого пути, необходимо применять реверберацию в помещении. Бинауральная импульсная характеристика помещения (BRIR) характеризует трансформацию звуковых сигналов на пути от конкретной точки в пространстве к ушам слушателя в конкретных акустических условиях. Теоретически, характеристики BRIR включают все акустические метки, относящиеся к пространственному восприятию.
На фиг. 1 изображена блок-схема одного из типов традиционного виртуализатора наушников, выполненного с возможностью применения бинауральной импульсной характеристики помещения (BRIR) к каждому широкополосному каналу (X1, ..XN) многоканального входного звукового сигнала. Каждый из каналов X1, ..XN, представляет собой канал динамика, соответствующий отличающемуся направлению источника относительно предполагаемого слушателя (т.е. направлению прямого пути из предполагаемого положения соответствующего динамика в предполагаемое положение слушателя), и каждый такой канал подвергается свертке посредством BRIR для соответствующего направления источника. Необходимо осуществить имитацию акустической траектории из каждого канала. Поэтому в оставшейся части данного документа термин «BRIR» будет относиться либо к одной импульсной характеристике, либо к паре импульсных характеристик, связанных с левым и правым ушами. Таким образом, подсистема 2 выполнена с возможностью свертки канала X1 посредством BRIR1 (BRIR для соответствующего направления звука), подсистема 4 выполнена с возможностью свертки канала XN посредством BRIRN (BRIR для соответствующего направления звука), и т.д. Выходной сигнал каждой подсистемы BRIR (каждой из подсистем 2, …, 4) представляет собой сигнал во временной области, содержащий левый канал и правый канал. Левоканальные выходные сигналы подсистем BRIR подвергаются микшированию в элементе 6 сложения, а правоканальные выходные сигналы подсистем BRIR подвергаются микшированию в элементе 8 сложения. Выходной сигнал элемента 6 представляет собой левый канал, L, бинаурального звукового сигнала, выходного из виртуализатора, а выходной сигнал элемента 8 представляет собой правый канал, R, бинаурального звукового сигнала, выходного из виртуализатора.
Многоканальный входной звуковой сигнал также может содержать канал низкочастотных эффектов (LFE), или сверхнизкочастотного громкоговорителя, идентифицируемый на фиг. 1 как канал «LFE». Традиционным образом, канал LFE не подвергается свертке посредством BRIR, но вместо этого подвергается ослаблению на ступени 5 усиления по фиг. 1 (например, на -3 дБ или более), а выходной сигнал ступени 5 усиления подвергается микшированию (элементами 6 и 8) поровну в каждый из каналов бинаурального выходного сигнала виртуализатора. Для выравнивания по времени выходного сигнала ступени 5 с выходными сигналами подсистем (2, ..., 4), в канале LFE может потребоваться дополнительная ступень задержки. В качестве альтернативы, канал LFE может быть просто проигнорирован (т.е. не внесен в виртуализатор или не обработан виртуализатором). Например, вариант осуществления изобретения по фиг. 2 (который будет описан ниже) просто игнорирует любой канал LFE обрабатываемого им многоканального входного звукового сигнала. Многие потребительские наушники не способны точно воспроизводить канал LFE.
В некоторых традиционных виртуализаторах входной сигнал претерпевает преобразование из временной области в частотную область в области QMF (квадратурного зеркального фильтра), генерирующее каналы частотных составляющих в области QMF. Эти частотные составляющие претерпевают фильтрацию (например, в реализациях в области QMF подсистем 2, ..., 4 по фиг. 1) в области QMF, а результирующие частотные составляющие, как правило, подвергаются обратному преобразованию во временную область (например, на завершающей ступени каждой из подсистем 2, ..., 4 по фиг. 1), и, таким образом, выходной звуковой сигнал виртуализатора представляет собой сигнал во временной области (например, бинауральный сигнал во временной области).
Вообще каждый широкополосный канал многоканального звукового сигнала, входного в виртуализатор наушников, как предполагается, указывает на звуковое содержимое, излучаемое из источника звука в известном местоположении относительно ушей слушателя. Виртуализатор наушников выполнен с возможностью применения бинауральной импульсной характеристики помещения (BRIR) к каждому такому каналу входного сигнала. Каждая BRIR может быть разложена на две части: прямую характеристику и отражения. Прямая характеристика представляет собой HRTF, соответствующую направлению прихода сигнала (DOA) от источника звука, скорректированную посредством надлежащего коэффициента усиления и задержки, обусловленной расстоянием (между источником звука и слушателем), и, необязательно, дополненную параллактическими эффектами для малых расстояний.
Остающаяся часть BRIR моделирует отражения. Ранние отражения обычно представляют собой первичные и вторичные отражения и имеют относительно разреженное временное распределение. Важной является микроскопическая структура (например, ITD и ILD) каждого первичного или вторичного отражения. Для более поздних отражений (звука, отраженного более чем от двух поверхностей перед падением на слушателя) при увеличении количества отражений увеличивается эхоплотность, а наблюдение микроскопических определяющих признаков отдельных отражений становится затруднительным. Для еще более поздних отражений более важной становится макроскопическая структура (например, скорость затухания реверберации, интерауральная когерентность и спектральное распределение реверберации в целом). По этой причине отражения могут быть в дальнейшем сегментированы на две части: ранние отражения и поздние отражения.
Задержка прямой характеристики представляет собой расстояние от источника до слушателя, деленное на скорость звука, а ее уровень (в отсутствие стен или больших поверхностей вблизи местоположения источника) обратно пропорционален расстоянию до источника. С другой стороны, задержка и уровень поздних ревербераций в целом нечувствителен к местоположению источника. В связи с практическими соображениями, виртуализаторы могут выбирать выравнивание по времени прямых характеристик от источников на разных расстояниях и/или сжатие их динамического диапазона. Однако в BRIR следует поддерживать временное и уровневое соотношение между прямой характеристикой, ранними отражениями и поздней реверберацией.
В большинстве акустических условий эффективная длина типичной BRIR распространяется до сотен миллисекунд или дольше. Непосредственное применение характеристик BRIR требует свертки посредством фильтра c тысячами ответвлений, что дорого в вычислительном смысле. В дополнение, без параметризации хранение в памяти характеристик BRIR для положения различных источников с целью достижения достаточной пространственной разрешающей способности потребовало бы большого объема памяти. И последнее, но не менее важное, местоположения источников звука могут со временем изменяться, и/или могут со временем изменяться положение и ориентация слушателя. Точная имитация такого перемещения требует изменяющихся во времени импульсных характеристик BRIR. Надлежащая интерполяция и применение таких изменяющихся во времени фильтров может быть сложным, когда импульсные характеристики этих фильтров имеют множество ответвлений.
Для реализации пространственного ревербератора, выполненного с возможностью применения имитирующей реверберации к одному или нескольким каналам многоканального входного звукового сигнала, может быть использован фильтр, имеющий хорошо известную конструкцию фильтра, известную как схема задержки с обратной связью (FDN). Конструкция FDN проста. Она содержит несколько контуров реверберации (например, в FDN по фиг. 4 - контур реверберации, содержащий элемент g1 усиления и линию z-n1 задержки), при этом каждый контур реверберации имеет задержку и коэффициент усиления. В типичной реализации FDN выходные сигналы из всех контуров реверберации подвергаются микшированию посредством унитарной матрицы обратной связи, и выходные сигналы этой матрицы возвращаются обратно и подвергаются суммированию с входными сигналами в контуры реверберации. В выходные сигналы контуров реверберации могут быть внесены корректировки усиления, и эти выходные сигналы контуров реверберации (или их версии с коррекцией усиления) могут быть соответствующим образом подвергнуты повторному микшированию для многоканального или бинаурального проигрывания. Естественно звучащая реверберация может быть сгенерирована и применена FDN с компактными объемами вычислений и занимаемой памяти. Поэтому схемы FDN были использованы в виртуализаторах для дополнения прямой характеристики, создаваемой HRTF.
Например, доступный для приобретения виртуализатор наушников Dolby Mobile содержит ревербератор, имеющий конструкцию на основе FDN и приводимый в действие с целью применения реверберации к каждому каналу пятиканального звукового сигнала (содержащего левый передний, правый передний, центральный, левый окружающий и правый окружающий каналы) и для фильтрации каждого реверберированного канала с использованием отличающейся пары фильтров из ряда пар фильтров пяти передаточных функций слухового аппарата человека («HRTF»). Виртуализатор наушников Dolby Mobile также приводится в действие в ответ на двухканальный входной звуковой сигнал с целью генерирования двухканального «реверберированного» бинаурального выходного звукового сигнала (двухканального виртуального окружающего выходного звукового сигнала, к которому была применена реверберация). Когда этот реверберированный бинауральный выходной сигнал подвергается представлению и воспроизведению парой наушников, он воспринимается на барабанных перепонках слушателя как фильтрованный посредством HRTF, реверберированный звук от пяти громкоговорителей в левом переднем, правом переднем, центральном, левом заднем (окружающем) и правом заднем (окружающем) положениях. Виртуализатор выполняет повышающее микширование сведенного двухканального входного звукового сигнала (без использования каких-либо параметров пространственных меток, принимаемых вместе с входным звуковым сигналом), генерируя пять звуковых каналов, подвергнутых повышающему микшированию, применяет реверберацию к подвергнутым повышающему микшированию каналам и выполняет понижающее микширование сигналов пяти реверберированных каналов, генерируя двухканальный реверберированный выходной сигнал виртуализатора. Реверберация для каждого канала, подвергнутого повышающему микшированию, фильтруется в отличающейся от других каналов паре фильтров HRTF.
FDN в виртуализаторе может быть выполнена с возможностью достижения определенного времени затухания реверберации и эхоплотности. Однако FDN испытывает недостаток гибкости при имитации микроскопической структуры ранних отражений. Кроме того, в традиционных виртуализаторах настройка и конфигурирование схем FDN были по большей части эвристическими.
Виртуализаторы наушников, не имитирующие все пути отражений (ранних и поздних), неспособны достигнуть эффективной экстернализации. Авторы изобретения осознали, что виртуализаторы, использующие схемы FDN и пытающиеся имитировать все пути отражений (ранних и поздних), обычно достигают не более чем ограниченного успеха в имитации как ранних отражений, так и поздней реверберации, и в применении их обоих к звуковому сигналу. Авторы изобретения также осознали, что виртуализаторы, использующие схемы FDN, но не обладающие способностью надлежащего управления такими пространственными акустическими определяющими признаками, как время затухания реверберации, интерауральная когерентность и отношение «прямая/поздняя», могут достигать некоторой степени экстернализации, но ценой внесения чрезмерного тембрального искажения и реверберации.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
В первом классе вариантов осуществления изобретение представляет собой способ генерирования бинаурального сигнала в ответ на ряд каналов (например, каждый из каналов или каждый из широкополосных каналов) многоканального входного звукового сигнала, включающий этапы: (a) применения бинауральной импульсной характеристики помещения (BRIR) к каждому каналу этого ряда (например, путем свертки каждого канала ряда посредством BRIR, соответствующей указанному каналу), посредством чего генерируются фильтрованные сигналы, что включает использование по меньшей мере одной схемы задержки с обратной связью (FDN) для применения общей поздней реверберации к сведенному сигналу (например, к монофоническому сведенному сигналу) каналов этого ряда; и (b) комбинирования этих фильтрованных сигналов для генерирования бинаурального сигнала. Как правило, для применения общей поздней реверберации к сведенному сигналу используется блок схем FDN (например, в котором каждая FDN применяет общую позднюю реверберацию к отличающейся полосе частот). Как правило, этап (а) включает этап применения к каждому каналу ряда части «прямой характеристики и ранних отражений» одноканальной BRIR для этого канала, а общая поздняя реверберация генерируется для эмуляции коллективных макроскопических определяющих признаков частей поздней реверберации по меньшей мере некоторых (например, всех) одноканальных характеристик BRIR.
Способ генерирования бинаурального сигнала в ответ на многоканальный входной звуковой сигнал (или в ответ на ряд каналов такого сигнала) в настоящем описании иногда именуют способом «виртуализации наушников», а систему, выполненную с возможностью выполнения этого способа, в настоящем описании иногда именуют «виртуализатором наушников» (или «системой виртуализации наушников», или «бинауральным виртуализатором»).
В типичных вариантах осуществления в первом классе каждая из схем FDN реализована в области блока фильтров (например, в области гибридного комплексного квадратурного зеркального фильтра (HCQMF) или в области квадратурного зеркального фильтра (QMF), или в области другого преобразования или подполос, что может включать прореживание), и в некоторых таких вариантах осуществления управление зависящими от частоты пространственными акустическими определяющими признаками бинаурального сигнала выполняется путем управления конфигурацией каждой FDN, используемой для применения поздней реверберации. Как правило, для эффективного бинаурального представления звукового содержимого многоканального сигнала, в качестве входного сигнала в схемы FDN используется монофонический сведенный сигнал каналов. Типичные варианты осуществления в первом классе включают этап коррекции коэффициентов FDN, соответствующих зависящим от частоты определяющим признакам (например, времени затухания реверберации, интерауральной когерентности, модальная плотность и отношение «прямая/поздняя»), например, путем внесения контрольных значений в схему задержки c обратной связью для задания по меньшей мере одного из следующих параметров: входного коэффициента усиления, коэффициентов усиления контуров реверберации, задержек контуров реверберации или параметров выходной матрицы для каждой FDN. Это делает возможным улучшенное согласование с акустическими условиями и более естественно звучащие выходные сигналы.
Во втором классе вариантов осуществления изобретение представляет собой способ генерирования бинаурального сигнала в ответ на многоканальный входной звуковой сигнал, содержащий каналы, путем применения бинауральной импульсной характеристики помещения (BRIR) к каждому каналу из ряда каналов входного сигнала (например, к каждому из каналов входного сигнала или к каждому широкополосному каналу входного сигнала), что включает: обработку каждого канала этого ряда в первом канале обработки данных, выполненном с возможностью моделирования и применения к каждому указанному каналу части прямой характеристики и ранних отражений одноканальной BRIR для этого канала; и обработку сведенного сигнала (например, монофонического сведенного сигнала) каналов этого ряда во втором канале обработки данных (параллельном первому каналу обработки данных), выполненном с возможностью моделирования и применения общей поздней реверберации к сведенному сигналу. Как правило, общая поздняя реверберация генерируется для эмуляции коллективных макроскопических определяющих признаков частей поздней реверберации по меньшей мере некоторых (например, всех) одноканальных характеристик BRIR. Как правило, второй канал обработки данных содержит по меньшей мере одну FDN (например, одну FDN для каждой из множества полос частот). Как правило, монофонический сведенный сигнал используется в качестве входного сигнала во все контуры реверберации каждой FDN, реализуемой вторым каналом обработки данных. Как правило, для улучшенной имитации акустических условий и создания более естественно звучащей бинауральной виртуализации, предусмотрены механизмы систематического контроля макроскопических определяющих признаков каждой FDN. Так как большинство макроскопических определяющих признаков являются зависящими от частоты, каждая FDN, как правило, реализована в области гибридного комплексного квадратурного зеркального фильтра (HCQMF), частотной области, области или в области другого блока фильтров, и для каждой полосы частот используется отличающаяся, или независимая, FDN. Главным преимуществом реализации схем FDN в области блока фильтров является то, что это позволяет применять реверберацию со свойствами реверберации, зависящими от частоты. В различных вариантах осуществления схемы FDN реализованы в любой из широкого разнообразия областей блоков фильтров с использованием любого из множества блоков фильтров, в том числе, без ограничения, действительно- или комплекснозначные квадратурные зеркальные фильтры (QMF), фильтры с импульсной характеристикой конечной длительности (фильтры FIR), фильтры с импульсной характеристикой бесконечной длительности (фильтры IIR), дискретные преобразования Фурье (преобразования DFT), (модифицированные) косинусные или синусные преобразования, вейвлетные преобразования или разделительные фильтры. В одной из предпочтительных реализаций используемый блок фильтров или преобразование включает прореживание (например, уменьшение частоты дискретизации представления сигнала в частотной области) с целью уменьшения вычислительной сложности процесса FDN.
Некоторые варианты осуществления в первом классе (и во втором классе) реализуют один или несколько из следующих признаков:
1. Реализация FDN в области блока фильтров (например, в области гибридного комплексного квадратурного зеркального фильтра) или реализация FDN в области гибридного блока фильтров и реализация фильтра поздней реверберации во временной области, что, как правило, допускает независимую коррекцию параметров и/или установок FDN для каждой полосы частот (что делает возможным быстрое и гибкое управление зависящими от частоты акустическими определяющими признаками), например, путем обеспечения возможности изменения задержек контуров реверберации в разных полосах, для того чтобы изменять модальную плотность в зависимости от частоты;
2. Конкретный способ понижающего микширования, используемый для генерирования (из многоканального входного звукового сигнала) сведенного (например, монофонического сведенного) сигнала, обрабатываемого во втором канале обработки данных, зависит от расстояния до источника каждого канала и от управления прямой характеристикой с целью поддержания надлежащего соотношения уровней и согласования по времени между прямой и поздней характеристиками;
3. Для введения фазового разнесения и увеличения эхоплотности без изменения спектра и/или тембра результирующей реверберации, во втором канале обработки данных используется фазовый фильтр (APF);
4. Для преодоления проблем, связанных с задержками, квантуемыми по узлам сетки коэффициентов понижающей дискретизации, в канале обратной связи каждой FDN в комплекснозначной многоскоростной конструкции реализованы дробные задержки;
5. В схемах FDN выходные сигналы контуров реверберации подвергаются линейному микшированию непосредственно в бинауральные каналы с использованием выходных коэффициентов микширования, заданных на основании необходимой интерауральной когерентности в каждой полосе частот. Необязательно, для достижения сбалансированной задержки между бинауральными каналами, отображение контуров реверберации в бинауральные выходные каналы является чередующимся по полосам частот. Также необязательно, к выходным сигналам контуров реверберации применяются нормирующие коэффициенты, для того чтобы выровнять их уровни и, в то же время, сохранить дробную задержку и полную энергию;
6. Управление зависящим от частоты временем затухания реверберации и/или модальной плотностью осуществляется путем задания надлежащих сочетаний задержек контуров реверберации и коэффициентов усиления в каждой полосе частот с целью имитации реальных помещений;
7. Для каждой полосы частот применяется один масштабный коэффициент (например, либо на входе, либо на выходе соответствующего канала обработки данных) для:
управления зависящим от частоты отношением «прямая-поздняя» (DLR), согласующимся с таковым для реального помещения (для вычисления необходимого масштабного коэффициента на основании целевого DLR и времени затухания реверберации, например, T60, может быть использована простая модель);
создания низкочастотного ослабления для подавления чрезмерных артефактов «расческа» и/или низкочастотного рокота; и/или
придания характеристикам FDN формы сигнала в диффузном поле;
8. Для управления существенными определяющими признаками поздней реверберации, зависящими от частоты, такими, как время затухания реверберации, интерауральная когерентность и/или отношение «прямая/поздняя», реализованы простые параметрические модели.
Особенности изобретения включают способы и системы, выполняющие бинауральную виртуализацию (или выполненные с возможностью выполнения, или поддерживающие выполнение бинауральной виртуализации) звуковых сигналов (например, звуковых сигналов, звуковое содержимое которых состоит из каналов динамиков и/или звуковых сигналов на объектной основе).
В другом классе вариантов осуществления изобретение представляет собой способ и систему для генерирования бинаурального сигнала в ответ на ряд каналов многоканального входного звукового сигнала, что включает применение бинауральной импульсной характеристики помещения (BRIR) к каждому каналу из этого ряда, посредством чего генерируются фильтрованные сигналы, что включает использование единственной схемы задержки с обратной связью (FDN) для применения общей поздней реверберации к сведенному сигналу указанных каналов этого ряда; и в комбинировании фильтрованных сигналов для генерирования бинаурального сигнала. FDN реализована во временной области. В некоторых таких вариантах осуществления FDN во временной области содержит:
входной фильтр, содержащий вход, подключенный для приема сведенного сигнала, при этом входной фильтр выполнен с возможностью генерирования первого фильтрованного сведенного сигнала в ответ на сведенный сигнал;
фазовый фильтр, подключенный и выполненный с возможностью генерирования второго фильтрованного сведенного сигнала в ответ на первый фильтрованный сведенный сигнал;
подсистему применения реверберации, содержащую первый выход и второй выход, при этом подсистема применения реверберации содержит ряд контуров реверберации, и каждый из этих контуров реверберации имеет отличающуюся задержку, и при этом подсистема применения реверберации подключена и выполнена с возможностью генерирования первого немикшированного бинаурального канала и второго немикшированного бинаурального канала в ответ на второй фильтрованный сведенный сигнал, для внесения первого немикшированного бинаурального канала в первый выход и для внесения второго немикшированного бинаурального канала во второй выход; и
ступень фильтрации с коэффициентом интерауральной взаимной корреляции (IACC) и микширования, соединенную с подсистемой применения реверберации и выполненную с возможностью генерирования первого микшированного бинаурального канала и второго микшированного бинаурального канала в ответ на первый немикшированный бинауральный канал и второй немикшированный бинауральный канал.
Входной фильтр может быть реализован для генерирования (предпочтительно, как каскад из двух фильтров, выполненный с возможностью генерирования) первого фильтрованного сведенного сигнала так, чтобы каждая BRIR имела отношение «прямая-поздняя» (DLR), по меньшей мере, по существу, согласующееся с целевым DLR.
Каждый контур реверберации может быть выполнен с возможностью генерирования задержанного сигнала, и он может содержать фильтр реверберации (например, реализованный как полочный фильтр или как каскад полочных фильтров), подключенный и выполненный с возможностью применения коэффициента усиления к сигналу, распространяющемуся в указанном каждом из контуров реверберации, так, чтобы вызывать наличие у задержанного сигнала коэффициента усиления, по меньшей мере, по существу, согласующегося с целевым коэффициентом усиления с затуханием для указанного задержанного сигнала, в расчете на достижение целевой характеристики времени затухания реверберации (например, характеристики T60) каждой BRIR.
В некоторых вариантах осуществления первый немикшированный бинауральный канал опережает второй немикшированный бинауральный канал, контуры реверберации содержат первый контур реверберации, выполненный с возможностью генерирования первого задержанного сигнала, имеющего кратчайшую задержку, и второй контур реверберации, выполненный с возможностью генерирования второго задержанного сигнала, имеющего вторую по краткости задержку, при этом первый контур реверберации выполнен с возможностью применения первого коэффициента усиления к первому задержанному сигналу, второй контур реверберации выполнен с возможностью применения второго коэффициента усиления ко второму задержанному сигналу, второй коэффициент усиления отличается от первого коэффициента усиления, и применение первого коэффициента усиления и второго коэффициента усиления в результате приводит к ослаблению первого немикшированного бинаурального канала относительно второго немикшированного бинаурального канала. Как правило, первый микшированный бинауральный канал и второй микшированный бинауральный канал указывают на заново центрированный стереофонический образ. В некоторых вариантах осуществления ступень фильтрации IACC и микширования выполнена с возможностью генерирования первого микшированного бинаурального канала и второго микшированного бинаурального канала так, чтобы указанный первый микшированный бинауральный канал и указанный второй микшированный бинауральный канал имели характеристику IACC, по меньшей мере, по существу, согласующуюся с целевой характеристикой IACC.
Типичные варианты осуществления изобретения обеспечивают простую и унифицированную инфраструктуру для поддержки как входных звуковых сигналов, состоящих из каналов динамиков, так и входных звуковых сигналов на объектной основе. В вариантах осуществления, в которых характеристики BRIR применяются к каналам входного сигнала, являющимся объектными каналами, обработка данных «прямой характеристики и ранних отражений», выполняемая в отношении каждого объектного канала, предполагает направление источника, указываемое метаданными, доставляемыми со звуковым содержимым этого объектного канала. В вариантах осуществления, в которых характеристики BRIR применяются к каналам входного сигнала, являющимся каналами динамиков, обработка данных «прямой характеристики и ранних отражений», выполняемая в отношении каждого канала динамика, предполагает направление источника, соответствующее этому каналу динамика (т.е. направлению прямого пути от предполагаемого положения соответствующего динамика к предполагаемому положению слушателя). Независимо от того, являются входные каналы объектными каналами или каналами динамиков, обработка данных «поздней реверберации» выполняется в отношении сведенного сигнала (например, в отношении монофонического сведенного сигнала) входных каналов и не предполагает какого-либо конкретного направления источника для звукового содержимого сведенного сигнала.
Другими особенностями изобретения являются виртуализатор наушников, выполненный (например, запрограммированный) с возможностью выполнения любого из вариантов осуществления изобретательского способа, система (например, стереофонический, многоканальный или другой декодер), содержащая такой виртуализатор, и машиночитаемый носитель данных (например, диск), на котором хранятся коды для реализации любого из вариантов осуществления изобретательского способа.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
На фиг. 1 изображена блок-схема традиционной системы виртуализации наушников.
На фиг. 2 изображена блок-схема системы, содержащей один из вариантов осуществления изобретательской системы виртуализации наушников.
На фиг. 3 изображена блок-схема другого варианта осуществления изобретательской системы виртуализации наушников.
На фиг. 4 изображена блок-схема FDN, относящейся к типу, заключенному в типичной реализации системы по фиг. 3.
На фиг. 5 изображен график времени затухания реверберации (T60) в миллисекундах в зависимости от частоты в Гц, который может быть достигнут посредством одного из вариантов осуществления изобретательского виртуализатора, для которого значение T60 на каждой из двух конкретных частот (fA и fB) задано следующим образом: T60,A=320 мс при fA=10 Гц, и T60,B=150 мс при fB=2,4 кГц.
На фиг. 6 изображен график интерауральной когерентности (Coh) в зависимости от частоты в Гц, который может быть достигнут посредством одного из вариантов осуществления изобретательского виртуализатора, для которого параметрам управления Cohmax, Cohmin и fC присвоены следующие значения: Cohmax=0,95, Cohmin=0,05 и fC=700 Гц.
На фиг. 7 изображен график отношения «прямая-поздняя» (DLR) для расстояния до источника один метр в дБ в зависимости от частоты в Гц, который может быть достигнут посредством одного из вариантов осуществления изобретательского виртуализатора, для которого параметрам управления DLR1K, DLRslope, DLRmin, HPFslope и fT присвоены следующие значения: DLR1K=18 дБ, DLRslope=6 дБ/10×частота, DLRmin=18 дБ, HPFslope=6 дБ/10×частота, и fT=200 Гц.
На фиг. 8 изображена блок-схема другого варианта осуществления подсистемы обработки данных поздней реверберации изобретательской системы виртуализации наушников.
На фиг. 9 изображена блок-схема реализации FDN во временной области, относящейся к типу, заключенному в некоторых вариантах осуществления изобретательской системы.
На фиг. 9A изображена блок-схема одного из примеров реализации фильтра 400 по фиг. 9.
На фиг. 9B изображена блок-схема одного из примеров реализации фильтра 406 по фиг. 9.
На фиг. 10 изображена блок-схема одного из вариантов осуществления изобретательской системы виртуализации наушников, в которой подсистема 221 обработки данных поздней реверберации реализована во временной области.
На фиг. 11 изображена блок-схема одного из вариантов осуществления элементов 422, 423 и 424 FDN по фиг. 9.
На фиг. 11A изображен график частотной характеристики (R1) одной из типичных реализаций фильтра 500 по фиг. 11, частотной характеристики (R2) одной из типичных реализаций фильтра 501 по фиг. 11 и частотной характеристики фильтров 500 и 501, соединенных параллельно.
На фиг. 12 изображен график характеристики IACC (кривая «I»), который может быть достигнут посредством одной из реализаций FDN по фиг. 9, и целевой характеристики IACC (кривая «It»).
На фиг. 13 изображен график характеристики T60, который может быть достигнут посредством одной из реализаций FDN по фиг. 9 путем должной реализации каждого из фильтров 406, 407, 408 и 409, реализуемого как полочный фильтр.
На фиг. 14 изображен график характеристики T60, который может быть достигнут посредством одной из реализаций FDN по фиг. 9 путем надлежащей реализации каждого из фильтров 406, 407, 408 и 409, реализуемого как каскад из двух полочных фильтров IIR.
Условные обозначения и терминология
Повсюду в данном раскрытии, включая формулу изобретения, выражение выполнения операции «в отношении» сигнала или данных (например, фильтрация, масштабирование, преобразование или применение коэффициента усиления к сигналам или данным) используется в широком смысле для обозначения выполнения операции непосредственно в отношении сигнала или данных или в отношении обработанной версии сигнала или данных (например, в отношении версии сигнала, который был подвергнут предварительной фильтрации или предварительной обработке перед выполнением операции в его отношении).
Повсюду в данном раскрытии, включая формулу изобретения, выражение «система» используется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, реализующая виртуализатор, может именоваться системой виртуализатора, а система, содержащая такую подсистему (например, система, генерирующая Х выходных сигналов в ответ на множество входных сигналов, в которой эта подсистема генерирует М из входных сигналов, а остальные X–M входных сигналов принимаются из внешнего источника), также может именоваться системой виртуализатора (или виртуализатором).
Повсюду в данном раскрытии, включая формулу изобретения, термин «процессор» используется в широком смысле для обозначения системы или устройства, запрограммированного или иным образом выполненного (например, с использованием программного обеспечения или программно-аппаратного обеспечения) с возможностью выполнения операций в отношении данных (например, аудио или видео или других данных изображений). Примеры процессоров включают программируемую пользователем вентильную матрицу (или другую настраиваемую интегральную схему или набор микросхем), процессор цифровой обработки сигналов, запрограммированный и/или иным образом выполненный с возможностью выполнения конвейерной обработки в отношении аудио или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем.
Повсюду в данном раскрытии, включая формулу изобретения, выражение «блок анализирующих фильтров» используется в широком смысле для обозначения системы (например, подсистемы), выполненной с возможностью применения преобразования (например, преобразования из временной области в частотную область) в отношении сигнала во временной области с целью генерирования значений (например, частотных составляющих), указывающих на содержимое сигнала во временной области, в каждой полосе из ряда полос частот. Повсюду в данном раскрытии, включая формулу изобретения, выражение «область блока фильтров» используется в широком смысле для обозначения области частотных составляющих, генерируемых посредством преобразования или блока анализирующих фильтров (например, области, в которой подвергнуты обработке эти частотные составляющие). Примеры областей блока фильтров включают (без ограничения) частотную область, область квадратурного зеркального фильтра (QMF) и область гибридного комплексного квадратурного зеркального фильтра (HCQMF). Примеры преобразования, которое может быть применено блоком анализирующих фильтров, включают (без ограничения) дискретное косинусное преобразование (DCT), модифицированное дискретное косинусное преобразование (MDCT), дискретное преобразование Фурье (DFT) и вейвлетное преобразование. Примеры блоков анализирующих фильтров включают (без ограничения) квадратурные зеркальные фильтры (QMF), фильтры с импульсной характеристикой конечной длительности (фильтры FIR), фильтры с импульсной характеристикой бесконечной длительности (фильтры IIR), разделительные фильтры и фильтры, имеющие другие пригодные многоскоростные конструкции.
Повсюду в данном раскрытии, включая формулу изобретения, термин «метаданные» относится к данным, отдельным и отличающимся от соответствующих аудиоданных (звукового содержимого битового потока, также содержащего и метаданные). Метаданные связаны с аудиоданными и указывают по меньшей мере на один признак или характеристику аудиоданных (например, какой тип (типы) обработки уже был выполнен или должен быть выполнен в отношении аудиоданных, или траекторию объекта, указанного аудиоданными). Связь метаданных с аудиоданными является синхронной по времени. Таким образом, настоящие (принятые или обновленные совсем недавно) метаданные могут указывать, что соответствующие аудиоданные в данный момент имеют указанный признак и/или содержат результаты указанного типа обработки аудиоданных.
Повсюду в данном раскрытии, включая формулу изобретения, термин «соединяет» или «соединенный» используется для обозначения либо непосредственного, либо косвенного соединения. Таким образом, если первое устройство соединено со вторым устройством, данное соединение может быть осуществлено посредством непосредственного соединения или посредством косвенного соединения через другие устройства или соединения.
Повсюду в данном раскрытии, включая формулу изобретения, следующие выражения имеют следующие определения:
динамик и громкоговоритель используются в качестве синонимов для обозначения любого звукоизлучающего преобразователя. Данное определение включает громкоговорители, реализованные в качестве множества преобразователей (например, низкочастотного громкоговорителя и высокочастотного громкоговорителя);
сигнал, подаваемый на динамик: звуковой сигнал, подлежащий подаче непосредственно на громкоговоритель, или звуковой сигнал, подлежащий последовательной подаче на усилитель и громкоговоритель;
канал (или «звуковой канал»): монофонический звуковой сигнал. Такой сигнал может быть, как правило, представлен таким образом, он был эквивалентен подаче сигнала непосредственно на громкоговоритель в необходимом или номинальном положении. Необходимое положение может являться статическим, как обычно бывает в случае с физическими громкоговорителями, или динамическим;
звуковая программа: набор из одного или более звуковых каналов (по меньшей мере одного канала динамика и/или по меньшей мере одного объектного канала), а также, необязательно, связанные метаданные (например, метаданные, которые описывают необходимое представление звука в пространстве);
канал динамика (или «канал сигнала, подаваемого на динамик»): звуковой канал, который связан с указанным громкоговорителем (в необходимом или номинальном положении) или с указанной зоной динамика в пределах определенной конфигурации динамика. Канал динамика представлен таким образом, чтобы он был эквивалентен подаче звукового сигнала непосредственно на указанный громкоговоритель (в необходимом или номинальном положении) или на динамик в указанной зоне динамика;
объектный канал: звуковой канал, указывающий на звук, излучаемый источником звука (иногда называемый звуковым «объектом»). Как правило, объектный канал определяет параметрическое описание источника звука (например, метаданные, указывающие на параметрическое описание источника звука, включены в объектный канал или предоставлены объектным каналом); Описание источника может определить звук, излучаемый источником (в зависимости от времени), кажущееся положение (например, трехмерные пространственные координаты) источника в зависимости от времени и факультативно по меньшей мере один дополнительный параметр (например, размер или ширину кажущегося источника), характеризующий источник;
звуковая программа на объектной основе: звуковая программа, содержащая набор из одного или нескольких объектных каналов (и, необязательно, также содержащая по меньшей мере один канал динамика), а также, необязательно, связанные метаданные (например, метаданные, указывающие траекторию звукового объекта, излучающего звук, указываемый объектным каналом, или метаданные, иначе указывающие на необходимое пространственное представление аудиоданных звука, указываемого объектным каналом, или метаданные, указывающие на идентификатор по меньшей мере одного звукового объекта, являющегося источником звука, указываемого объектным каналом); и
представление: процесс преобразования звуковой программы в один или несколько сигналов, подаваемых на динамики, или процесс преобразования звуковой программы в один или несколько сигналов, подаваемых на динамики, и преобразование этого сигнала (сигналов), подаваемого на динамик (динамики), в звук с использованием одного или нескольких громкоговорителей (в последнем случае представление в настоящем описании иногда именуется представлением «посредством» громкоговорителя (громкоговорителей)). Звуковой канал может быть тривиально представлен («в» необходимом положении) посредством подачи сигнала непосредственно на физический громкоговоритель в необходимом положении, или один или более звуковых сигналов могут быть представлены с использованием одного из множества методов виртуализации, предназначенных для того, чтобы быть по существу эквивалентными (для слушателя) данному тривиальному представлению. В данном последнем случае каждый звуковой сигнал может быть преобразован в один или более сигналов, подаваемых на динамики, подлежащие подаче на громкоговоритель (громкоговорители) в известных местоположениях, которые в целом отличаются от необходимого положения, так что звук, излучаемый громкоговорителем (громкоговорителями) в ответ на подаваемый сигнал (подаваемые сигналы), будет восприниматься как излучаемый из необходимого положения. Примеры данных методов виртуализации включают бинауральное представление через наушники (например, с использованием обработки Dolby Headphone, которая имитирует для носителя наушников количество каналов объемного звука до 7.1) и синтез волнового поля.
Обозначение многоканального звукового сигнала как являющегося «x.y»- или «x.y.z»-канальным сигналом в настоящем описании обозначает, что сигнал содержит «x» широкополосных каналов динамиков (соответствующих динамикам, номинально расположенным в горизонтальной плоскости предполагаемых ушей слушателя), «y» каналов LFE (или сверхнизкочастотных динамиков) и, необязательно, «z» широкополосных каналов верхних динамиков (соответствующих динамикам, расположенным над предполагаемой головой слушателя, например, на потолке или около потолка помещения).
Выражение «IACC» в настоящем описании обозначает коэффициент интерауральной взаимной корреляции в его обычном смысле, то есть как являющийся мерой разности между временами прихода звукового сигнала к ушам слушателя, как правило, указываемый числом в интервале от первого значения, указывающего, что приходящие сигналы равны по амплитуде и находятся точно не в фазе, через промежуточное значение, указывающее, что приходящие сигналы не обладают подобием, до максимального значения, указывающего идентичные приходящие сигналы, обладающие одинаковой амплитудой и фазой.
ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Многие варианты осуществления настоящего изобретения являются технологически возможными. Из настоящего раскрытия специалистам в данной области станет ясно, как их реализовать. Варианты осуществления изобретательской системы будут описаны со ссылкой на фиг. 2-14.
На фиг. 2 изображена блок-схема системы (20), содержащей один из вариантов осуществления изобретательской системы виртуализации наушников. Эта система виртуализации наушников (иногда именуемая виртуализатором) выполнена с возможностью применения бинауральной импульсной характеристики помещения (BRIR) к N широкополосных каналов (X1, ..., XN) многоканального входного звукового сигнала. Каждый из каналов X1, ..., XN, (которые могут представлять собой каналы динамиков или объектные каналы) соответствует конкретному направлению источника и расстоянию относительно предполагаемого слушателя, и система по фиг. 2 выполнена с возможностью свертки каждого такого канала посредством BRIR для соответствующего направления источника и расстояния до источника.
Система 20 может представлять собой декодер, подключенный для приема кодированной звуковой программы и содержащий подсистему (не показанную на фиг. 2), подключенную и выполненную с возможностью декодирования этой программы, что включает восстановление из нее N широкополосных каналов (X1, ..., XN) и их доставку в элементы 12, ..., 14 и 15 системы виртуализации (содержащей элементы 12, ..., 14, 15, 16 и 18, соединенные так, как показано). Декодер может содержать дополнительные подсистемы, некоторые из которых выполняют функции, не относящиеся к функции виртуализации, выполняемой системой виртуализации, и некоторые из которых могут выполнять функции, относящиеся к функции виртуализации. Например, последние функции могут включать извлечение метаданных из кодированной программы и доставку этих метаданных в подсистему управления виртуализацией, использующую эти метаданные для управления элементами системы виртуализатора.
Подсистема 12 (с подсистемой 15) выполнена с возможностью свертки канала X1 с использованием BRIR1 (BRIR для соответствующего направления источника и расстояния до источника), подсистема 14 (с подсистемой 15) выполнена с возможностью свертки канала XN с использованием BRIRN (BRIR для соответствующего направления источника и расстояния до источника), и т.д. для каждой из остальных N–2 подсистем BRIR. Выходной сигнал каждой из подсистем 12, ..., 14 и 15 представляет собой сигнал во временной области, содержащий левый канал и правый канал. С выходами элементов 12, ..., 14 и 15 соединены элементы 16 и 18 сложения. Элемент 16 сложения выполнен с возможностью комбинирования (микширования) выходных сигналов левого канала подсистем BRIR, а элемент 18 сложения выполнен с возможностью комбинирования (микширования) выходных сигналов правого канала подсистем BRIR. Выходной сигнал элемента 16 представляет собой левый канал, L, бинаурального звукового сигнала, выходного из виртуализатора по фиг. 2, а выходной сигнал элемента 18 представляет собой правый канал, R, бинаурального звукового сигнала, выходного из виртуализатора по фиг. 2.
Важные признаки типичных вариантов осуществления изобретения очевидны из сравнения варианта осуществления по фиг. 2 изобретательского виртуализатора наушников с традиционным виртуализатором наушников по фиг. 1. В целях сравнения мы предполагаем, что системы по фиг. 1 и фиг. 2 выполнены таким образом, что, когда один и тот же многоканальный входной звуковой сигнал вносится в каждую из них, эти системы применяют BRIRi, содержащую часть прямой характеристики и ранних отражений (т.е. соответствующую EBRIRi по фиг. 2) к каждому широкополосному каналу, Xi, входного сигнала (хотя это с той же степенью успешности и не является обязательным). Каждая BRIRi, применяемая системой по фиг. 1 или фиг. 2, может быть разложена на две части: часть прямой характеристики и ранних отражений (например, одну из частей EBIR1,…, EBRIRN, применяемых подсистемами 12-14 по фиг. 2), и часть поздней реверберации. Вариант осуществления по фиг. 2 (и другие типичные варианты осуществления изобретения) предполагают, что части поздней реверберации одноканальных характеристик BRIR, BRIRi, могут быть совместно использованы по направлениям источников и, таким образом, всеми каналами, и, таким образом, применение одной и той же поздней реверберации (т.е. общей поздней реверберации) к сведенному сигналу всех широкополосных каналов входного сигнала. Этот сведенный сигнал может представлять собой монофонический сведенный сигнал всех входных каналов, но в альтернативном варианте он может представлять собой стереофонический или многоканальный сведенный сигнал, полученный из входных каналов (например, из подмножества входных каналов).
Конкретнее, подсистема 12 по фиг. 2 выполнена с возможностью свертки канала X1 входного сигнала с использованием EBRIR1 (часть прямой характеристики и ранних отражений BRIR для соответствующего направления источника), а подсистема 14 выполнена с возможностью свертки канала XN входного сигнала с использованием EBRIRN (часть прямой характеристики и ранних отражений BRIR для соответствующего направления источника), и т.д. Подсистема 15 поздней реверберации по фиг. 2 выполнена с возможностью генерирования монофонического сведенного сигнала из всех широкополосных каналов входного сигнала и свертки этого сведенного сигнала с использованием LBRIR (общей поздней реверберации для всех каналов, подвергнутых понижающему микшированию). Выходной сигнал каждой подсистемы BRIR виртуализатора по фиг. 2 (каждой из подсистем 12, ..., 14 и 15) содержит левый канал и правый канал (бинаурального сигнала, сгенерированного из соответствующего канала динамика или сведенного сигнала). Выходные сигналы левого канала подсистем BRIR подвергаются комбинированию (микшированию) в элементе 16 сложения, а выходные сигналы правого канала подсистем BRIR подвергаются комбинированию (микшированию) в элементе 18 сложения.
Элемент 16 сложения может быть реализован для простого суммирования соответствующих дискретных значений левого бинаурального канала (выходных сигналов левого канала подсистем 12, ..., 14 и 15) с целью генерирования левого канала бинаурального выходного сигнала в предположении, что в подсистемах 12,..., 14 и 15 реализованы должные корректировки уровней и выравнивания по времени. Аналогично, элемент 18 сложения может быть реализован для простого суммирования соответствующих дискретных значений правого бинаурального канала (например, выходных сигналов правого канала подсистем 12, ..., 14 и 15) с целью генерирования правого канала бинаурального выходного сигнала, и снова в предположении, что в подсистемах 12,..., 14 и 15 реализованы должные корректировки уровней и выравнивания по времени.
Подсистема 15 по фиг. 2 может быть реализована любым из множества разнообразных способов, но, как правило, она содержит по меньшей мере одну схему задержки с обратной связью, выполненную с возможностью применения общей поздней реверберации к монофоническому сведенному сигналу внесенных в нее каналов входного сигнала. Как правило, если каждая из подсистем 12, …,14 применяет часть прямой характеристики и ранних отражений (EBRIRi) одноканальной BRIR для канала (Xi), который она обрабатывает, то общая поздняя реверберация генерируется для эмуляции коллективных макроскопических определяющих признаков частей поздней реверберации по меньшей мере некоторых (например, всех) из одноканальных характеристик BRIR (части «прямой характеристики и ранних отражений» которых применяются подсистемами 12, ..., 14). Например, одна из реализаций подсистемы 15 имеет такую же конструкцию, как подсистема 200 по фиг. 3, которая содержит блок схем (203, 204, ..., 205) задержки с обратной связью, выполненный с возможностью применения общей поздней реверберации к монофоническому сведенному сигналу внесенных в нее каналов входного сигнала.
Подсистемы 12, …, 14 по фиг. 2 могут быть реализованы множеством различных способов (либо во временной области, либо в области блока фильтров), с использованием реализации, предпочтительной для любого конкретного применения в зависимости от различных соображений, таких, как (например) производительность, объем вычислении и объем памяти. В одной из примерных реализаций каждая из подсистем 12,..., 14 выполнена с возможностью свертки внесенного в нее канала с использованием фильтра FIR, соответствующего прямой и ранней характеристикам, связанным с этим каналом, при этом коэффициент усиления и задержка заданы так, чтобы выходные сигналы подсистем 12, …, 14 можно было просто и эффективно скомбинировать с выходными сигналами подсистемы 15.
На фиг. 3 изображена блок-схема другого варианта осуществления изобретательской системы виртуализации наушников. Вариант осуществления по фиг. 3 аналогичен варианту по фиг. 2, при этом два сигнала (левого и правого каналов) во временной области являются выходными из подсистемы 100 обработки данных прямой характеристики и ранних отражений, и два сигнала (левого и правого каналов) во временной области являются выходными из подсистемы 200 обработки данных поздней реверберации. С выходами подсистем 100 и 200 соединен элемент 210 сложения. Элемент 210 выполнен с возможностью комбинирования (микширования) выходных сигналов левого канала подсистем 100 и 200 для генерирования левого канала, L, выходного бинаурального звукового сигнала виртуализатора по фиг. 3 и комбинирования (микширования) выходных сигналов правого канала подсистем 100 и 200 для генерирования правого канала, R, выходного бинаурального звукового сигнала виртуализатора по фиг. 3. Элемент 210 может быть реализован для простого суммирования соответствующих дискретных значений левого канала, выходных из подсистем 100 и 200, с целью генерирования левого канала бинаурального выходного сигнала, и для простого суммирования соответствующих дискретных значений правого канала, выходных из подсистем 100 и 200, с целью генерирования правого канала бинаурального выходного сигнала в предположении, что должные корректировки уровней и выравнивания по времени реализованы в подсистемах 100 и 200.
В системе по фиг. 3 каналы, Xi, многоканального входного звукового сигнала направляются и претерпевают обработку в двух параллельных каналах обработки данных: один - через подсистему 100 обработки данных прямой характеристики и ранних отражений; другой - через подсистему 200 обработки данных поздней реверберации. Система по фиг. 3 выполнена с возможностью применения BRIRi к каждому каналу, X i. Каждая BRIRi может быть разложена на две части: часть прямой характеристики и ранних отражений (применяемую подсистемой 100) и часть поздней реверберации (применяемую подсистемой 200). В действии подсистема 100 обработки данных прямой характеристики и ранних отражений, таким образом, генерирует части прямой характеристики и ранних отражений бинаурального звукового сигнала, являющегося выходным из виртуализатора, а система обработки данных поздней реверберации («генератор поздней реверберации») 200, таким образом, генерирует часть поздней реверберации бинаурального выходного сигнала, являющегося выходным из виртуализатора. Выходные сигналы подсистем 100 и 200 подвергаются (подсистемой 210 сложения) микшированию с целью генерирования бинаурального звукового сигнала, как правило, вносимого из подсистемы 210 в систему представления (не показана), где он претерпевает бинауральное представление для проигрывания наушниками.
Как правило, при представлении и воспроизведении парой наушников типичный бинауральный звуковой сигнал, выходной из элемента 210, воспринимается на барабанных перепонках слушателя как звук из «N» громкоговорителей (где N≥2, и N, как правило, равно 2, 5 или 7) в любом из широкого разнообразия положений, в том числе положений перед, за и над слушателем. Воспроизведение выходных сигналов, генерируемых в ходе работы системы по фиг. 3, может создать у слушателя впечатление звука, приходящего из более чем двух (например, из пяти или семи) «окружающих» источников. По меньшей мере, некоторые из этих источников являются виртуальными.
Подсистема 100 обработки данных прямой характеристики и ранних отражений может быть реализована любым из множества разнообразных способов (либо во временной области, либо в области блока фильтров), с использованием реализации, предпочтительной для любого конкретного применения в зависимости от различных соображений, таких, как (например) производительность, объем вычислений и объем памяти. В одной из иллюстративных реализаций подсистема 100 выполнена с возможностью свертки каждого внесенного в нее канала с использованием фильтра FIR, соответствующего прямой и ранней характеристикам, связанным с этим каналом, при этом коэффициент и задержка должным образом заданы так, чтобы выходные сигналы подсистем 100 можно было просто и эффективно комбинировать (в элементе 210) с выходными сигналами подсистемы 200.
Как показано на фиг. 3, генератор 200 поздней реверберации содержит подсистему 201 понижающего микширования, блок 202 анализирующих фильтров, блок схем FDN (схемы FDN 203, 204, …, и 205) и блок 207 синтезирующих фильтров, соединенные так, как показано. Подсистема 201 выполнена с возможностью понижающего микширования каналов многоканального входного звукового сигнала в монофонический сведенный сигнал, а блок 202 анализирующих фильтров выполнен с возможностью применения преобразования к этому монофоническому сведенному сигналу с целью разбиения монофонического сведенного сигнала на «K» полос частот, где K - целое число. Значения в области блока фильтров (выходной сигнал из блока 202 фильтров) в каждой отличающейся полосе частот вносятся в отличающуюся одну из схем FDN 203, 204,..., 205 (имеется «K» таких схем FDN, каждая из которых подключена и выполнена с возможностью применения части поздней реверберации BRIR к вносимым в нее значениям в области блока фильтров). Для уменьшения вычислительной сложности схем FDN эти значения в области блока фильтров предпочтительно подвергаются прореживанию по времени.
В принципе, каждый входной канал (в подсистему 100 и подсистему 201 по фиг. 3) может быть обработан в его собственной FDN (или блоке схем FDN) для имитации части поздней реверберации его BRIR. Несмотря на то, что части поздней реверберации характеристик BRIR, связанных с местоположениями разных источников звука, как правило, сильно отличаются в отношении среднеквадратичных отклонений в импульсных характеристиках, их статистические определяющие признаки, такие, как их усредненный спектр мощности, структура затухания их энергии, модальная плотность, пиковая плотность и т.п. часто очень похожи. Поэтому части поздней реверберации из ряда характеристик BRIR, как правило, довольно похожи с точки зрения восприятия по всем каналам и, следовательно, для имитации части поздней реверберации двух или более характеристик BRIR может быть использована одна общая FDN или блок схем FDN (например, схем FDN 203, 204, ..., 205). В типичных вариантах осуществления используется одна такая FDN (или блок схем FDN), и входной сигнал в нее состоит из одного или нескольких сведенных сигналов, сконструированных из входных каналов. В примерной реализации по фиг. 2 этот сведенный сигнал представляет собой монофонический сведенный сигнал (внесенный на выход подсистемы 201) всех входных каналов.
Со ссылкой на вариант осуществления по фиг. 2, каждая из схем FDN 203, 204, ..., и 205 реализована в области блока фильтров и подключена и выполнена с возможностью обработки отличающейся полосы частот выходных значений из блока 202 анализирующих фильтров с целью генерирования левого и правого реверберированных сигналов для каждой полосы. Для каждой полосы левый реверберированный сигнал представляет собой последовательность значений в области блока фильтров, а правый реверберированный сигнал представляет собой другую последовательность значений в области блока фильтров. Блок 207 синтезирующих фильтров подключен и выполнен с возможностью применения преобразования из частотной области во временную область к 2K последовательностей значений в области блока фильтров (например, частотных составляющих в области QMF), выходных из схем FDN, и для сборки преобразованных значений в сигнал левого канала во временной области (указывающий на звуковое содержимое монофонического сведенного сигнала, к которому была применена поздняя реверберация) и в сигнал правого канала во временной области (также указывающий на звуковое содержимое монофонического сведенного сигнала, к которому была применена поздняя реверберация). Эти сигналы левого канала и правого канала являются выходными в элемент 210.
В одной из типичных реализаций каждая из схем FDN 203, 204, ... и 205 реализована в области QMF, и блок 202 фильтров преобразовывает монофонический сведенный сигнал из подсистемы 201 в область QMF (например, область гибридного комплексного квадратурного зеркального фильтра (HCQMF)) так, чтобы сигнал, внесенный из блока 202 фильтров на вход каждой из схем FDN 203, 204, ... и 205 представлял собой последовательность частотных составляющих в области QMF. В такой реализации сигнал, вносимый из блока 202 фильтров в FDN 203, представляет собой последовательность частотных составляющих в области QMF в первой полосе частот, сигнал, вносимый из блока 202 фильтров в FDN 204, представляет собой последовательность частотных составляющих в области QMF во второй полосе частот, и сигнал, вносимый из блока 202 фильтров в FDN 205, представляет собой последовательность частотных составляющих в области QMF в «K»-й полосе частот. Если блок 202 анализирующих фильтров реализован таким образом, то блок 207 синтезирующих фильтров выполнен с возможностью применения преобразования из области QMF во временную область к 2K последовательностей выходных частотных составляющих в области QMF из схем FDN с целью генерирования сигналов с поздней реверберацией левого канала и правого канала во временной области, являющихся выходными сигналами в элемент 210.
Например, если в системе по фиг. 3 K=3, то имеется шесть входных сигналов в блок 207 синтезирующих фильтров (левый и правый каналы, содержащие дискретные значения в частотной области в области QMF, выходные сигналы из каждой из схем FDN 203, 204 и 205) и два выходных сигнала из 207 (левый и правый каналы, каждый из которых состоит из дискретных значений во временной области). В данном примере блок 207 фильтров, как правило, может быть реализован как два блока синтезирующих фильтров: один (в который можно было бы внести три левых канала из схем FDN 203, 204 и 205), выполненный с возможностью генерирования сигнала левого канала во временной области, выходного из блока 207 фильтров; и второй (в который можно было бы внести три правых канала из схем FDN 203, 204 и 205), выполненный с возможностью генерирования сигнала правого канала во временной области, выходного из блока 207 фильтров.
Необязательно, с каждой из схем FDN 203, 204, ..., 205 связана подсистема 209 управления, выполненная с возможностью внесения параметров управления в каждую из схем FDN с целью определения части поздней реверберации (LBRIR), применяемой подсистемой 200. Ниже описываются примеры таких параметров управления. Предусматривается, что в некоторых реализациях подсистема 209 управления способна действовать в реальном времени (например, в ответ на команды пользователя, вносимые в нее посредством устройства ввода) с целью реализации изменения части поздней реверберации (LBRIR), применяемой подсистемой 200 к монофоническому сведенному сигналу входных каналов.
Например, если входной сигнал в систему по фиг. 2 представляет собой 5.1-канальный сигнал (широкополосные каналы которого находятся в следующем порядке каналов: L, R, C, Ls, Rs), то все широкополосные каналы имеют одинаковое расстояние до источника, и подсистема 201 понижающего микширования может быть реализована как следующая матрица понижающего микширования, которая для формирования монофонического сведенного сигнала просто суммирует широкополосные каналы:
После фазовой фильтрации (в элементе 301 в каждой из схем FDN 203, 204, ... и 205) монофонический сведенный сигнал подвергается повышающему микшированию в четыре контура реверберации способом, обеспечивающим сохранение энергии:
В альтернативном варианте (в качестве примера) может быть выбрано панорамирование левосторонних каналов в первые два контура реверберации, правосторонних каналов - во вторые два контура реверберации, и центрального канала - во все контуры реверберации. В этом случае подсистема 201 понижающего микширования могла бы быть реализована для формирования двух сведенных сигналов:
В этом примере повышающее микширование в контуры реверберации (в каждой из схем FDN 203, 204, ... и 205) представляет собой:
Поскольку имеется два сведенных сигнала, фазовую фильтрацию (в элементе 301 в каждой из схем FDN 203, 204, ..., и 205) необходимо применять дважды. Для поздних характеристик (L, Ls), (R, Rs) и C можно было бы ввести разнесение вместо того, чтобы все они имели одинаковые макроскопические определяющие признаки. Если каналы входного сигнала имеют разные расстояния до источника, в процессе понижающего микширования по-прежнему могло бы требоваться применение надлежащих задержек и коэффициентов усиления.
Далее будут описаны соображения по конкретным реализациям подсистемы 201 понижающего микширования и подсистем 100 и 200 виртуализатора по фиг. 3.
Способ понижающего микширования, реализуемый подсистемой 201, зависит от расстояния до источника (расстояния между источником звука и предполагаемым положением слушателя) для каждого канала, подлежащего понижающему микшированию, и от управления прямой характеристикой. Задержка прямой характеристики td представляет собой:
td = d / vs
где d - расстояние между источником звука и слушателем, и vs - скорость звука. Кроме того, коэффициент усиления прямой характеристики пропорционален 1/d. Если эти правила сохраняются при управлении прямыми характеристиками каналов с разными расстояниями до источника, то подсистема 201 может реализовывать прямое понижающее микширование всех каналов, так как задержка и уровень поздней реверберации обычно нечувствительны к местоположению источника.
По практическим соображениям, виртуализаторы (например, подсистема 100 виртуализатора по фиг. 3) могут быть реализованы для выравнивания по времени прямых характеристик для входных каналов, имеющих разные расстояния до источника. С целью сохранения относительной задержки между прямой характеристикой и поздней реверберацией для каждого канала канал с расстоянием до источника d следует задержать на (dmax – d)/vs перед понижающим микшированием с другими каналами. Здесь dmax обозначает максимально возможное расстояние до источника.
Виртуализаторы (например, подсистема 100 по фиг. 3) также могут быть реализованы для сжатия динамического диапазона прямых характеристик. Например, прямая характеристика для канала с расстоянием до источника d может быть масштабирована с коэффициентом d-α, где 0≤α≤1, вместо d–1. С целью сохранения разности уровней между прямой характеристикой и поздней реверберацией, подсистему 201 понижающего микширования может потребоваться реализовать для масштабирования канала с расстоянием до источника d с коэффициентом d1–α перед его понижающим микшированием с другими масштабированными каналами.
Схема задержки с обратной связью по фиг. 4 представляет собой одну из примерных реализаций FDN 203 (или 204, или 205) по фиг. 3. И хотя система по фиг. 4 содержит четыре контура реверберации (каждый из которых содержит ступень усиления, gi, и линию задержки, z–ni, соединенную с выходом ступени усиления), их изменения в этой системе (и в других схемах FDN, используемых в вариантах осуществления изобретательского виртуализатора) реализуют больше или меньше четырех контуров реверберации.
FDN по фиг. 4 содержит входной элемент 300 усиления, фазовый фильтр (APF) 301, соединенный с выходом элемента 300, элементы 302, 303, 304 и 305 сложения, соединенные с выходом APF 301, и четыре контура реверберации (каждый из которых содержит элемент усиления, gk (один из элементов 306), соединенную с ним линию задержки,
Элемент 302 выполнен с возможностью сложения выходного сигнала матрицы 308, соответствующего линии задержки z-n1 (т.е. применения обратной связи из выходного сигнала линии задержки z-n1 посредством матрицы 308), к входному сигналу первого контура реверберации. Элемент 303 выполнен с возможностью сложения выходного сигнала матрицы 308, соответствующего линии задержки z-n2 (т.е. применения обратной связи из выходного сигнала линии задержки z-n2 посредством матрицы 308), к входному сигналу второго контура реверберации. Элемент 304 выполнен с возможностью сложения выходного сигнала матрицы 308, соответствующего линии задержки z-n3 (т.е. применения обратной связи из выходного сигнала линии задержки z-n3посредством матрицы 308), к входному сигналу третьего контура реверберации. Элемент 305 выполнен с возможностью сложения выходного сигнала матрицы 308, соответствующего линии задержки z-n4 (т.е. применения обратной связи из выходного сигнала линии задержки z-n4 посредством матрицы 308), к входному сигналу четвертого контура реверберации.
Входной элемент 300 усиления FDN по фиг. 4 подключен для приема одной полосы частот преобразованного монофонического сведенного сигнала (сигнала в области блока фильтров), являющегося выходным из блока 202 анализирующих фильтров по фиг. 3. Входной элемент 300 усиления применяет коэффициент усиления (масштабный коэффициент), Gin, к внесенному в него сигналу в области блока фильтров. Сообща масштабные коэффициенты Gin (реализуемые всеми схемами FDN 203, 204, ..., 205 по фиг. 3) для всех полос частот управляют формированием спектра и уровнем поздней реверберации. При задании входных коэффициентов усиления, Gin, во всех схемах FDN виртуализатора по фиг. 3 часто принимают во внимание следующие цели:
отношение «прямая-поздняя» (DLR) BRIR, применяемой к каждому каналу, согласующееся с реальными помещениями;
необходимое ослабление низких частот, для подавления чрезмерных артефактов «расческа» и/или низкочастотного рокота; и
согласование с огибающей спектра сигнала в диффузном поле.
Если предположить, что прямая характеристика (применяемая подсистемой 100 по фиг. 3) предусматривает единичный коэффициент усиления во всех полосах частот, конкретное DLR (отношение энергий) может быть достигнуто путем задания Gin как:
Gin=sqrt(ln(106)/(T60 * DLR)),
где T60 - время затухания реверберации, определяемое как время, занимаемое затуханием реверберации на 60 дБ (оно определяется обсуждаемыми ниже задержками реверберации и коэффициентами усиления реверберации), и «ln» обозначает натуральную логарифмическую функцию.
Входной коэффициент усиления, Gin, может зависеть от содержимого, подвергаемого обработке. Одним из применений такой зависимости от содержимого является обеспечение того, чтобы энергия сведенного сигнала в каждом сегменте времени/частоты была равна сумме энергий сигналов отдельных каналов, подвергнутых понижающему микшированию, независимо от любой корреляции, которая может существовать между входными сигналами каналов. В этом случае, входной коэффициент усиления может представлять собой (или может быть умножен на) член, аналогичный или равный следующему:
в котором i - индекс по всем дискретным значениям сведенного сигнала для данного мозаичного элемента времени/частоты, или подполосы, y(i) - дискретные значения для этого мозаичного элемента, и xi(j) - входной сигнал (для канала Xi), внесенный во вход подсистемы 201 понижающего микширования.
В типичной реализации в области QMF по фиг. 4 сигнал, вносимый из выхода фазового фильтра (APF) 301 во входы контуров реверберации, представляет собой последовательность частотных составляющих в области QMF. APF 301 применяется к выходному сигналу элемента 300 усиления для генерирования более естественно звучащего выходного сигнала FDN с целью введения фазового разнесения и повышения эхоплотности. В альтернативном варианте или в качестве дополнения, один или несколько фазовых фильтров с задержкой могут быть применены к: отдельным входным сигналам в подсистему 201 понижающего микширования (по фиг. 3) перед их понижающим микшированием в подсистеме 201 и обработкой посредством FDN; или в каналах подачи сигнала вперед и назад контура реверберации, изображенных на фиг. 4 (например, в дополнение или вместо линий задержки
При реализации задержек контуров реверберации, z-ni, во избежание выравнивания мод реверберации с одинаковой частотой, задержки контуров реверберации, ni, должны представлять собой взаимно простые числа. Сумма этих задержек должна быть достаточно большой, для обеспечения модальной плотности, достаточной для того, чтобы избежать искусственно звучащего выходного сигнала. Но кратчайшие задержки должны быть достаточно краткими для того чтобы, избегать чрезмерного временного интервала между поздней реверберацией и другими составляющими BRIR.
Как правило, выходные сигналы контуров реверберации являются первоначально панорамированными в левый или правый бинауральный канал. Обычно наборы выходных сигналов контуров реверберации, являющиеся панорамированными в два бинауральных канала, являются равными по количеству и взаимоисключающими. Также необходимо сбалансировать согласование по времени этих двух бинауральных каналов. Поэтому если выходной сигнал контура реверберации с кратчайшей задержкой отправляется в один бинауральный канал, то в другой канал должен быть отправлен выходной сигнал со второй по краткости задержкой.
Задержки контуров реверберации могут отличаться по полосам частот, для того чтобы изменять модальную плотность в зависимости от частоты. Обычно полосы менее высоких частот требуют большей модальной плотности и, таким образом, более длительных задержек контуров реверберации.
Амплитуды коэффициентов усиления контуров реверберации, gi, и задержки контуров реверберации совместно определяют время затухания реверберации FDN по фиг. 4:
T60 = -3ni / log10(|gi|) / FFRM
где FFRM - частота кадров блока 202 фильтров (по фиг. 3). Фазы коэффициентов усиления контуров реверберации вводят дробные задержки для преодоления проблем, связанных с задержками контуров реверберации, квантованными по узлам сетки коэффициентов понижающей дискретизации блока фильтров.
Унитарная матрица 308 обратной связи обеспечивает равномерное микширование между контурами реверберации в канале обратной связи.
Для выравнивания уровней выходных сигналов контуров реверберации, элементы 309 усиления применяют к выходному сигналу каждого контура реверберации нормирующий коэффициент усиления, 1/|gi |, с целью устранения влияния уровней на коэффициенты усиления контуров реверберации и, в то же время, сохранения дробных задержек, вносимых их фазами.
Выходная матрица 312 микширования (также идентифицируемая как матрица Mout) представляет собой матрицу размера 2×2, выполненную с возможностью микширования немикшированных бинауральных каналов (выходных сигналов элементов 310 и 311, соответственно), исходя из первоначального панорамирования, с целью достижения выходных левого и правого бинауральных каналов (сигналов L и R, вносимых на выход матрицы 312), обладающих необходимой интерауральной когерентностью. Немикшированные бинауральные каналы близки к тому, чтобы являться некоррелированными после первоначального панорамирования, поскольку они не состоят из какого-либо общего выходного сигнала контура реверберации. Если необходимая интерауральная когерентность - Coh, где |Coh|≤1, то выходная матрица 312 микширования может быть определена как:
Так как задержки контуров реверберации отличаются, один из немикшированных бинауральных каналов должен постоянно опережать другой. Если комбинация задержек контуров реверберации и схема панорамирования одинаковы по всем полосам частот, в результате будет получено смещение звукового образа. Это смещение может быть подавлено, если схема панорамирования является чередующейся по полосам частот так, чтобы микшированные бинауральные каналы опережали друг друга и отставали друг от друга в чередующихся полосах частот. Это может быть достигнуто путем реализации выходной матрицы 312 микширования так, чтобы она имела форму, описанную в предыдущем абзаце, в нечетно пронумерованных полосах частот (т.е. в первой полосе частот (обрабатываемой FDN 203 по фиг. 3), третьей полосе частот и т.д.), а в четно пронумерованных полосах частот (т.е. во второй полосе частот (обрабатываемой FDN 204 по фиг. 3), четвертой полосе частот и т.д.) она имела следующую форму:
где определение β остается таким же. Следует отметить, что матрица 312 может быть реализована так, чтобы она была одинакова в схемах FDN для всех полос частот, но порядок каналов ее входных сигналов можно было бы коммутировать для чередующихся входных сигналов полос частот (например, для нечетных полос частот выходной сигнал элемента 310 может вноситься в первый вход матрицы 312, и выходной сигнал элемента 311 может вноситься во второй вход матрицы 312, а в четных полосах частот и выходной сигнал элемента 311 может вноситься в первый вход матрицы 312, и выходной сигнал элемента 310 может вноситься во второй вход матрицы 312).
В случае, когда полосы частот являются (частично) перекрывающимися, ширина диапазона частот, в котором форма матрицы 312 чередуется, может быть увеличена (например, она может чередоваться один раз каждые две или три последовательные полосы), или значение β в приведенных выше выражениях (для формы матрицы 312) может быть скорректировано так, чтобы оно обеспечивало равенство средней когерентности значению, необходимому для компенсации спектрального перекрытия последовательных полос частот.
Если определенные выше целевые акустические определяющие признаки T60, Coh и DLR известны для FDN для каждой конкретной полосы частот в изобретательском виртуализаторе, то каждая из схем FDN (каждая из которых может иметь конструкцию, показанную на фиг. 4) может быть выполнена с возможностью достижения этих целевых определяющих признаков. Конкретнее, в некоторых вариантах осуществления входной коэффициент усиления (Gin), коэффициенты усиления и задержки контуров реверберации (gi и ni) и параметры выходной матрицы Mout для каждой FDN могут быть заданы (например, посредством контрольных значений, вносимых в них подсистемой 209 управления по фиг. 3) так, чтобы они достигали целевых определяющих признаков в соответствии с соотношениями, описываемыми в настоящем описании. На практике задания зависящих от частоты определяющих признаков посредством моделей с простыми параметрами управления часто достаточно для генерирования естественно звучащей поздней реверберации, согласующейся с конкретными акустическими условиями.
Далее описывается один из примеров того, как целевое время затухания реверберации (T60) для FDN для каждой конкретной полосы частот одного из вариантов осуществления изобретательского виртуализатора может быть определено путем определения целевого времени затухания реверберации (T60) для каждой полосы из малого количества полос частот. Уровень характеристики FDN затухает во времени экспоненциально. T60 обратно пропорционально коэффициенту затухания, df (определяемому как затухание в дБ за единицу времени):
T60 = 60 /df.
Коэффициент затухания, df, зависит от частоты и обычно возрастает линейно в логарифмической частотной шкале, поэтому время затухания реверберации также зависит от частоты и обычно уменьшается при увеличении частоты. Поэтому, если определить (например, задать) значения T60 для двух значений частоты, то кривая T60 для всех частот будет определена. Например, если времена затухания реверберации для значений частот fA и fB составляют, соответственно, T60,A и T60,B, то кривая T60 определяется как:
На фиг. 5 показан один из примеров кривой T60, которая может быть достигнута посредством одного из вариантов осуществления изобретательского виртуализатора, для которого значение T60 для каждой из двух конкретных частот (fA и fB) задано как: T60,A=320 мс при fA=10 Гц, и T60,B=150 мс при fB=2,4 кГц.
Далее будет описан один из примеров того, как целевая интерауральная когерентность (Coh) FDN для каждой конкретной полосы частот одного из вариантов осуществления изобретательского виртуализатора может быть достигнута путем задания небольшого количества параметров управления. Интерауральная когерентность (Coh) поздней реверберации в значительно степени следует схеме диффузного звукового поля. Она может быть смоделирована посредством синусной функции вплоть до частоты разделения fC, и она является постоянной выше этой частоты разделения. Простая модель кривой Coh представляет собой:
где параметры Cohmin и Cohmax удовлетворяют условию –1≤Cohmin<Cohmax≤1 и управляют интервалом Coh. Оптимальная частота разделения fc зависит от размера головы слушателя. Слишком высокая fC ведет к интернализированному образу источника звука, тогда как слишком низкое значение ведет к рассредоточенному, или расщепленному, образу источника звука. На фиг. 6 изображен один из примеров кривой Coh, которая может быть достигнута посредством одного из вариантов осуществления изобретательского виртуализатора, для которого параметры управления Cohmax, Cohmin и fC заданы как имеющие следующие значения: Cohmax=0,95, Cohmin=0,05 и fC=700 Гц.
Далее описывается один из примеров того, как целевое отношение «прямая-поздняя» (DLR) для FDN для каждой конкретной полосы частот одного из вариантов осуществления изобретательского виртуализатора может быть достигнуто путем задания небольшого количества параметров управления. Отношение «прямая-поздняя» (DLR), в дБ, обычно возрастает линейно относительно логарифмической частотной шкалы. Управление им может осуществляться путем задания DLR1K (DLR в дБ при 1 кГц) и DLRslope (в дБ на 10×частота). Однако низкое DLR в диапазоне менее высоких частот в результате приводит к чрезмерному артефакту «расческа». Для подавления этого артефакта в управление DLR добавлено два модифицирующих механизма:
минимальный нижний предел DLR, DLRmin (в дБ); и
фильтр прохождения верхних частот, определяемый частотой перехода, fT, и наклоном кривой ослабления ниже нее, HPFslope (в дБ на 10×частота).
Результирующая кривая DLR в дБ определена как:
Следует отметить, что DLR изменяется с расстоянием до источника даже в одних и тех же акустических условиях. Поэтому как DLR1K, так и DLRmin здесь представляют собой значения для номинального расстояния до источника, такого, как 1 метр. На фиг. 7 изображен один из примеров кривой DLR для 1-метрового расстояния до источника, достигаемой посредством одного из вариантов осуществления изобретательского виртуализатора с параметрами управления DLR1K, DLRslope, DLRmin, HPFslope и fT, заданными так, чтобы они имели следующие значения: DLR1K=18 дБ, DLRslope=6 дБ/10×частота, DLRmin=18 дБ, HPFslope=6 дБ/10×частота, и fT=200 Гц.
Изменения раскрываемых в настоящем описании вариантов осуществления имеют один или несколько из следующих признаков:
схемы FDN изобретательского виртуализатора реализованы во временной области, или они имеют гибридную реализацию с перехватом импульсной характеристики на основе FDN и фильтрацией сигнала на основе FIR;
изобретательский виртуализатор реализован так, чтобы он допускал применение компенсации энергии в зависимости от частоты в ходе выполнения этапа понижающего микширования, генерирующего сведенный входной сигнал для подсистемы обработки данных поздней реверберации; и
изобретательский виртуализатор реализован так, чтобы он допускал ручное или автоматическое управление применяемыми определяющими признаками поздней реверберации в ответ на внешние факторы (т.е. в ответ на задание параметров управления).
Для применений, в которых критичным является время задержки системы, и задержка, вызываемая блоками анализирующих и синтезирующих фильтров, является недопустимой, конструкция FDN в области блока фильтров типичных вариантов осуществления может быть переведена во временную область, и, в одном из классов вариантов осуществления виртуализатора, конструкция каждой FDN может быть реализована во временной области. Для того чтобы сделать возможными зависящие от частоты элементы управления в реализациях во временной области, подсистемы, применяющие входной коэффициент усиления, (Gin), коэффициенты усиления контуров реверберации (gi), и нормирующие коэффициенты усиления (1/|gi|), заменены фильтрами с аналогичными амплитудными характеристиками. Выходная матрица (Mout) микширования также заменена матрицей фильтров. В отличие от других фильтров, фазовая характеристика этой матрицы фильтров является критичной для сохранения энергии, и эта фазовая характеристика может затрагивать интерауральную когерентность. Задержки контуров реверберации при реализации во временной области могут потребовать некоторого изменения (относительно их значений при реализации в области блока фильтров) во избежание совместного использования шага по индексу блока фильтров в качестве общего множителя. По причине различных ограничений, производительность реализаций схем FDN изобретательского виртуализатора во временной области может не точно согласовываться с их реализациями в области блока фильтров.
Далее со ссылкой на фиг. 8 описывается гибридная реализация (в области блока фильтров и во временной области) изобретательской подсистемы обработки данных поздней реверберации изобретательского виртуализатора. Эта гибридная реализация изобретательской подсистемы обработки данных поздней реверберации представляет собой изменение подсистемы 200 обработки данных поздней реверберации по фиг. 4, реализующее перехват импульсной характеристики на основе FDN и фильтрацию сигнала на основе FIR.
Вариант осуществления по фиг. 8 содержит элементы 201, 202, 203, 204, 205 и 207, идентичные идентично пронумерованным элементам подсистемы 200 по фиг. 3. Приведенное выше описание этих элементов не будет повторяться со ссылкой на фиг. 8. В варианте осуществления по фиг. 8 для внесения входного сигнала (импульса) с блоком 202 анализирующих фильтров соединен генератор 211 единичных импульсов. Фильтр 208 LBRIR (монофонический вход, стереофонический выход), реализованный как фильтр FIR, применяет должную часть поздней реверберации BRIR (LBRIR) к монофоническому сведенному выходному сигналу из подсистемы 201. Таким образом, элементы 211, 202, 203, 204, 205 и 207 представляют собой боковой тракт обработки данных фильтра 208 LBRIR.
Всякий раз, когда установка части поздней реверберации LBRIR подлежит модификации, генератор 211 импульсов приводится в действие для внесения единичного импульса в элемент 202, а результирующий выходной сигнал из блока 207 фильтров перехватывается и вносится в фильтр 208 (для установки фильтра 208 на применение новой LBRIR, определенной выходным сигналом блока 207 фильтров). Для сокращения промежутка времени от изменения установки LBRIR до времени, когда эта новая LBRIR вступит в силу, дискретные значения этой новой LBRIR могут начать замещать старую LBRIR, как только они становятся доступными. Для сокращения времени задержки, присущего схемам FDN, начальные нули LBRIR могут быть отброшены. Эти возможности обеспечивают гибкость и позволяют гибридной реализации предусматривать потенциальное повышение производительности (относительно производительности, обеспечиваемой реализацией в области блока фильтров) за счет дополнительного вычисления при фильтрации FIR.
Для применений, в который время задержки системы является критичным, а вычислительная мощность представляет меньшую проблему, для перехвата эффективной импульсной характеристики FIR, подлежащей применению фильтром 208, может быть использован процессор бокового тракта поздней реверберации в области блока фильтров (например, реализованный элементами 211, 202, 203, 204, ..., 205 и 207 по фиг. 8). Фильтр 208 FIR может реализовывать эту перехваченную характеристику FIR и применять ее непосредственно к монофоническому сведенному сигналу входных каналов (в ходе виртуализации входных каналов).
Различные параметры FDN и, таким образом, результирующие определяющие признаки поздней реверберации могут быть настроены вручную и затем переданы по проводам в один из вариантов осуществления изобретательской подсистемы обработки данных поздней реверберации, например, посредством одной или нескольких предварительных установок, которые могут быть скорректированы пользователем системы (например, путем приведения в действие подсистемы 209 управления по фиг. 3). Однако при данном высокоуровневом описании поздней реверберации, его соотношения с параметрами FDN и возможности модификации его свойств, можно предположить множество способов управления различными вариантами осуществления процессора поздней реверберации на основе FDN, в том числе (без ограничения) следующие:
1. Конечный пользователь может вручную управлять параметрами FDN, например, посредством пользовательского интерфейса на дисплее (например, посредством одного из вариантов осуществления подсистемы 209 управления по фиг. 3) или предварительных установок коммутации с использованием физических элементов управления (например, реализованных посредством одного из вариантов осуществления подсистемы 209 управления по фиг. 3). Таким образом, конечный пользователь может приспосабливать имитацию помещения в соответствие со вкусом, окружающими условиями или содержимым.
2. Автор звукового содержимого, подлежащего виртуализации, может предоставлять установки или необходимые параметры, которые передаются с самим содержимым, например, посредством метаданных, доставляемых с входным звуковым сигналом. Такие метаданные могут быть подвергнуты синтаксическому анализу и использованы (например, посредством варианта осуществления подсистемы 209 управления по фиг. 3) для управления значимыми параметрами FDN. Поэтому метаданные могут указывать на такие свойства, как время реверберации, уровень реверберации, отношение «прямая-реверберация» и т.д., и эти свойства могут являться переменными во времени и сигнализируемыми посредством переменных во времени метаданных.
3. Устройство проигрывания может быть осведомлено о его местоположении или об окружающих условиях посредством одного или нескольких датчиков. Например, мобильное устройство может использовать сети GSM, глобальную систему местоопределения (GPS), известные узлы доступа WiFi или любую другую службу местоопределения для определения того, где находится это устройство. Данные, указывающие на местоположение и/или окружающие условия, могут быть впоследствии использованы (например, одним из вариантов осуществления подсистемы 209 управления по фиг. 3) для управления значимыми параметрами FDN. Таким образом, параметры FDN могут быть модифицированы в ответ на местоположение устройства, например, для имитации окружающих его физических условий.
4. Для доставки наиболее распространенных установок, используемых потребителями в определенных окружающих условиях, в отношении местоположения проигрывающего устройства может быть использована служба облачных вычислений или социальные сети. В дополнение, пользователи могут загружать свои текущие установки в службу облачных вычислений или социальной сети в связи с (известным) местоположением, для того чтобы сделать их доступными для других пользователей или их самих.
5. Проигрывающее устройство может содержать и другие датчики, такие, как камера, светочувствительный датчик, микрофон, акселерометр, гироскоп, для определения рода деятельности пользователя и окружающих условий, в которых находится пользователь, с целью оптимизации параметров FDN для данного конкретного рода деятельности и/или окружающих условий.
6. Управление параметрами FDN может осуществляться посредством звукового содержимого. На то, содержат ли сегменты звукового сигнала речь, музыку, звуковые эффекты, тишину и т.п., могут указывать алгоритмы классификации звуковых сигналов или содержимое, снабженное комментариями вручную. Параметры FDN могут быть скорректированы в соответствии с такими отметками. Например, отношение «прямая-реверберация» может быть уменьшено для диалога с целью повышения разборчивости диалога. В дополнение, для определения местоположения текущего сегмента видеоизображения может быть использован анализ видеоизображений, и параметры FDN могут быть соответственно скорректированы для более близкой имитации окружающих условий, изображаемых в этом видеоизображении; и/или
7. Твердотельная система проигрывания может использовать иные установки FDN, чем мобильное устройство, например, установки могут быть зависящими от устройства. Твердотельная система, присутствующая в жилой комнате может имитировать типичный сценарий (должным образом реверберирующей) жилой комнаты с отдаленными источниками, тогда как мобильное устройство может представлять содержимое ближе к слушателю.
Некоторые реализации изобретательского виртуализатора содержат схемы FDN (например, реализацию FDN по фиг. 4), выполненные с возможностью применения дробной задержки, а также целочисленной задержки дискретных значений. Например, в одной такой реализации элемент дробной задержки соединен с каждым контуром реверберации последовательно с линией задержки, применяющей целочисленную задержку, равную целому числу периодов дискретизации (например, каждый элемент дробной задержки расположен после, или, иначе, последовательно с, одной из линий задержки). Дробная задержка может быть аппроксимирована сдвигом по фазе (комплексным умножением на единицу) в каждой полосе частот, соответствующей доле периода дискретизации: f = τ/T, где f - доля задержки, z - необходимая задержка для этой полосы, и Т - период дискретизации для этой полосы. То, каким образом применять дробную задержку в контексте применения реверберации в области QMF, является хорошо известным.
В первом классе вариантов осуществления изобретение представляет собой способ виртуализации наушников для генерирования бинаурального сигнала в ответ на ряд каналов (например, каждый из каналов или каждый из широкополосных каналов) многоканального входного звукового сигнала, включающий этапы: (a) применения бинауральной импульсной характеристики помещения (BRIR) к каждому каналу из этого ряда (например, путем свертки каждого канала из этого ряда с использованием BRIR, соответствующей указанному каналу, в подсистемах 100 и 200 по фиг. 3 или в подсистемах 12, ..., 14 и 15 по фиг. 2), посредством чего генерируются фильтрованные сигналы (например, выходные сигналы подсистем 100 и 200 по фиг. 3 или подсистем 12, ..., 14 и 15 по фиг. 2), что включает использование по меньшей мере одной схемы задержки с обратной связью (например, схем 203, 204, ..., 205 по фиг. 3) для применения общей поздней реверберации к сведенному сигналу (например, к монофоническому сведенному сигналу) каналов из этого ряда; и (b) комбинирования фильтрованных сигналов (например, в подсистеме 210 по фиг. 3 или в подсистеме, содержащей элементы 16 и 18 по фиг. 2) для генерирования бинаурального сигнала. Как правило, для применения общей поздней реверберации к сведенному сигналу используется блок схем FDN (например, в котором каждая FDN применяет позднюю реверберацию к отличающейся полосе частот). Как правило, этап (а) включает этап применения к каждому каналу ряда части «прямой характеристики и ранних отражений» одноканальной BRIR для этого канала (например, в подсистеме 100 по фиг. 3 или в подсистемах 12, ..., 14 по фиг. 2), а общая поздняя реверберация генерируется для имитации коллективных макроскопических определяющих признаков частей поздней реверберации по меньшей мере некоторых (например, всех) одноканальных характеристик BRIR.
В типичных вариантах осуществления в первом классе каждая из схем FDN реализована в области гибридного комплексного квадратурного зеркального фильтра (HCQMF) или в области квадратурного зеркального фильтра (QMF), и в некоторых таких вариантах осуществления управление зависящими от частоты пространственными акустическими определяющими признаками осуществляется (например, с использованием подсистемы 209 управления по фиг. 3) путем управления конфигурацией каждой FDN, используемой для применения поздней реверберации. Как правило, для эффективного бинаурального представления звукового содержимого многоканального сигнала в качестве входного сигнала в схемы FDN используется монофонический сведенный сигнал каналов (например, сведенный сигнал, генерируемый подсистемой 201 по фиг. 3). Как правило, управление процессом понижающего микширования осуществляется на основании расстояния до источника для каждого канала (т.е. от расстояния между предполагаемым источником звукового содержимого каналов и предполагаемым положением пользователя) и зависит от управления прямыми характеристиками, соответствующими этим расстояниям до источника, с целью сохранения временной и уровневой структуры каждой BRIR (т.е. каждой BRIR, определяемой частями прямой характеристики и ранних отражений одноканальной BRIR для одного канала совместно с общей поздней реверберацией для сведенного сигнала, содержащего этот канал). И хотя каналы, подлежащие понижающему микшированию, могут быть выровнены по времени и масштабированы разными способами в ходе понижающего микширования, следует поддерживать надлежащее временное и уровневое соотношение между частями прямой характеристики, ранних отражений и общей поздней реверберации BRIR для каждого канала. В вариантах осуществления, использующих единственный блок FDN для генерирования части общей поздней реверберации для всех каналов, подвергнутых понижающему микшированию (с целью генерирования сведенного сигнала), в ходе генерирования сведенного сигнала необходимо применять (к каждому каналу, подвергаемому понижающему микшированию) надлежащий коэффициент усиления и задержку.
Типичные варианты осуществления в данном классе включают этап коррекции (например, с использованием подсистемы 209 управления по фиг. 3) коэффициентов FDN, соответствующих зависящим от частоты определяющим признакам (например, времени затухания реверберации, интерауральной когерентности, модальной плотности и отношению «прямая-поздняя»). Это делает возможным улучшенное согласование с акустическими условиями и более естественно звучащие выходные сигналы.
Во втором классе вариантов осуществления изобретение представляет собой способ генерирования бинаурального сигнала в ответ на многоканальный входной звуковой сигнал путем применения бинауральной импульсной характеристики помещения (BRIR) к каждому каналу (например, путем свертки каждого канала с использованием соответствующей BRIR) из ряда каналов входного сигнала (например, к каждому из каналов входного сигнала или к каждому широкополосному каналу входного сигнала), что включает: обработку каждого канала ряда в первом канале обработки данных (например, реализованном подсистемой 100 по фиг. 3 или подсистемами 12, ..., 14 по фиг. 2), выполненном с возможностью моделирования и применения к каждому указанному каналу части прямой характеристики и ранних отражений (например, EBRIR, применяемой подсистемой 12, 14 или 15 по фиг. 2) одноканальной BRIR для этого канала; и обработку сведенного сигнала (например, монофонического сведенного сигнала) каналов ряда во втором канале обработки данных (например, реализованном подсистемой 200 по фиг. 3 или подсистемой 15 по фиг. 2), параллельном первому каналу обработки данных. Второй канал обработки данных выполнен с возможностью моделирования и применения к сведенному сигналу общей поздней реверберации (например, LBRIR, применяемой подсистемой 15 по фиг. 2). Как правило, эта общая поздняя реверберация эмулирует коллективные макроскопические определяющие признаки частей поздней реверберации по меньшей мере некоторых (например, всех) одноканальных характеристик BRIR. Как правило, второй канал обработки данных содержит по меньшей мере одну FDN (например, одну FDN для каждой из множества полос частот). Как правило, монофонический сведенный сигнал используется в качестве входного сигнала во все контуры реверберации каждой FDN, реализованной посредством второго канала обработки данных. Как правило, с целью улучшенной имитации акустических условий и выработки более естественно звучащей бинауральной виртуализации, предусматриваются механизмы (например, подсистема 209 управления по фиг. 3) для систематического управления макроскопическими определяющими признаками каждой FDN. Так как большинство этих макроскопических определяющих признаков являются зависящими от частоты, каждая FDN, как правило, реализована в области гибридного комплексного квадратурного зеркального фильтра (HCQMF), частотной области, области или другой области блока фильтров, и для каждой полосы частот используется отличающаяся FDN. Главным преимуществом реализации схем FDN в области блока фильтров является возможность применения реверберации со свойствами реверберации, зависящими от частоты. В различных вариантах осуществления схемы FDN реализованы в любой из широкого разнообразия областей блока фильтров, с использованием любого из различных блоков фильтров, в том числе, без ограничения, квадратурных зеркальных фильтров (QMF), фильтров с импульсной характеристикой конечной длительности (фильтры FIR), фильтров с импульсной характеристикой бесконечной длительности (фильтры IIR) или разделительных фильтров.
Некоторые варианты осуществления в первом классе (и во втором классе) реализуют один или несколько признаков:
1. Реализация FDN (например, реализация FDN по фиг. 4) в области блока фильтров (например, в области гибридного комплексного квадратурного зеркального фильтра) или гибридная реализация FDN в области блока фильтров и реализация фильтра поздней реверберации во временной области (например, конструкция, описанная со ссылкой на фиг. 8), которая, как правило, допускает независимую коррекцию параметров и/или установок FDN для каждой полосы частот (что делает возможным простое и гибкое управление зависящими от частоты акустическими определяющими признаками), например, путем обеспечения возможности изменения задержек контуров дискретизации в разных полосах частот с целью изменения модальной плотности в зависимости от частоты;
2. Конкретный способ понижающего микширования, используемый для генерирования (из многоканального входного звукового сигнала) сведенного (например, монофонического сведенного) сигнала, обрабатываемого во втором канале обработки данных, зависит от расстояния до источника каждого канала и от управления прямой характеристикой с целью поддержания надлежащего соотношения уровней и согласования по времени между прямой и поздней характеристиками;
3. Для введения фазового разнесения и увеличения эхоплотности без изменения спектра или тембра результирующей реверберации, во втором канале обработки данных используется фазовый фильтр (например, APF 301 по фиг. 4);
4. Для преодоления проблем, связанных с задержками, квантуемыми по узлам сетки коэффициентов понижающей дискретизации, в канале обратной связи каждой FDN в комплекснозначной многоскоростной конструкции реализованы дробные задержки;
5. Выходные сигналы контуров реверберации в схемах FDN являются линейно микшированными непосредственно в бинауральные каналы (например, посредством матрицы 312 по фиг. 4) с использованием коэффициентов микширования выходных сигналов, заданных на основании необходимой интерауральной когерентности в каждой полосе частот. Необязательно, для достижения сбалансированной задержки между бинауральными каналами, отображение контуров реверберации в бинауральные выходные каналы является чередующимся по полосам частот. Также необязательно, к выходным сигналам контуров реверберации применяются нормирующие коэффициенты для выравнивания их уровней и, в то же время, сохранения дробной задержки и общей энергии;
6. Для имитации реальных помещений, управление зависящим от частоты временем затухания реверберации осуществляется (например, с использованием подсистемы 209 управления по фиг. 3) путем задания надлежащих комбинаций задержек и коэффициентов усиления контуров реверберации в каждой полосе частот;
7. к каждой полосе частот (например, либо на входе, либо на выходе соответствующего канала обработки данных) применяется (например, элементами 306 и 309 по фиг. 4) один масштабный коэффициент для:
управления зависящим от частоты отношением «прямая-поздняя» (DLR), согласующимся с таковым для реального помещения (для вычисления необходимого масштабного коэффициента на основании целевого DLR и времени затухания реверберации, например, T60, может быть использована простая модель);
обеспечения ослабления низких частот для подавления чрезмерных артефактов «расческа»; и/или
придания характеристикам FDN формы сигнала в диффузном поле;
8. Для управления существенными зависящими от частоты определяющими признаками поздней реверберации, такими, как время затухания реверберации, интерауральная когерентность и/или отношение «прямая-поздняя», реализованы (например, посредством подсистемы 209 управления по фиг. 3) простые параметрические модели.
В некоторых вариантах осуществления (например, для применений, в которых время задержки системы является критичным, и задержка, вызываемая блоками анализирующих и синтезирующих фильтров, является недопустимой), конструкции FDN в области блока фильтров из типичных вариантов осуществления изобретательской системы (например, FDN по фиг. 4 в каждой полосе частот) заменены конструкциями FDN, реализованными во временной области (например, FDN 220 по фиг. 10, которая может быть реализована так, как показано на фиг. 9). В вариантах осуществления изобретательской системы во временной области подсистемы вариантов осуществления в области блока фильтров, применяющие входной коэффициент усиления (Gin), коэффициенты усиления контуров реверберации (gi), и нормирующие коэффициенты усиления (1/|gi|), заменены фильтрами во временной области (и/или элементами усиления), для того чтобы сделать возможными элементы управления, зависящие от частоты. Выходная матрица микширования из типичной реализации в области блока фильтров (например, выходная матрица 312 микширования по фиг. 4) заменена (в типичных вариантах осуществления во временной области) выходным набором фильтров во временной области (например, элементами 500-503 реализации по фиг. 11 элемента 424 по фиг. 9). В отличие от других фильтров из типичных вариантов осуществления во временной области, фазовая характеристика данного выходного набора фильтров, как правило, является критичной (по той причине, что эта фазовая характеристика может оказывать влияние на сохранение энергии и интерауральную когерентность). В некоторых реализациях во временной области задержки контуров реверберации изменяются (например, немного изменяются) относительно их значений в соответствующей реализации в области блока фильтров (например, во избежание совместного использования шага по индексу блока фильтров в качестве общего множителя).
На фиг. 10 изображена блок-схема одного из вариантов осуществления изобретательской системы виртуализации наушников, аналогичной системе по фиг. 3 за исключением того, что элементы 202-207 системы по фиг. 3 в системе по фиг. 10 заменены единственной FDN 220, реализованной во временной области (например, FDN 220 по фиг. 10 может быть реализована так же, как FDN по фиг. 9) На фиг. 10 два сигнала (левого и правого каналов) во временной области являются выходными сигналами из подсистемы 100 обработки данных прямой характеристики и ранних отражений, два сигнала (левого и правого каналов) во временной области являются выходными сигналами из подсистемы 221 обработки данных поздней реверберации. С выходами подсистем 100 и 200 соединен элемент 210 сложения. Элемент 210 сложения выполнен с возможностью комбинирования (микширования) выходных сигналов левого канала подсистем 100 и 221 с целью генерирования левого канала, L, бинаурального звукового сигнала, выходного из виртуализатора по фиг. 10, и для комбинирования (микширования) выходных сигналов правого канала подсистем 100 и 221 с целью генерирования правого канала, R, бинаурального звукового сигнала, выходного из виртуализатора по фиг. 10. Элемент 210 может быть реализован для простого суммирования соответствующих дискретных значений левого канала, выходных из подсистем 100 и 221, с целью генерирования левого канала бинаурального выходного сигнала, и для простого суммирования соответствующих дискретных значений правого канала, выходных из подсистем 100 и 221, с целью генерирования правого канала бинаурального выходного сигнала в предположении, что должные корректировки уровней и выравнивания по времени реализованы в подсистемах 100 и 221.
В системе по фиг. 10 многоканальный входной звуковой сигнал (содержащий каналы Xi) направляется и претерпевает обработку в двух параллельных каналах обработки данных: один - через подсистему 100 обработки данных прямой характеристики и ранних отражений; другой - через подсистему 221 обработки данных поздней реверберации. Система по фиг. 10 выполнена с возможностью применения BRIRi к каждому каналу Xi. Каждая BRIRi может быть разложена на две части: часть прямой характеристики и ранних отражений (применяемую подсистемой 100) и часть поздней реверберации (применяемую подсистемой 221). В действии подсистема 100 обработки данных прямой характеристики и ранних отражений, таким образом, генерирует части прямой характеристики и ранних отражений бинаурального звукового сигнала, являющегося выходным из виртуализатора, а система обработки данных поздней реверберации («генератор поздней реверберации») 221, таким образом, генерирует часть поздней реверберации бинаурального выходного сигнала, являющегося выходным из виртуализатора. Выходные сигналы подсистем 100 и 221 подвергаются микшированию (подсистемой 210) с целью генерирования бинаурального звукового сигнала, как правило, вносимого из подсистемы 210 в подсистему представления (не показана), в которой он претерпевает бинауральное представление для проигрывания наушниками.
Подсистема 201 понижающего микширования (подсистемы 221 обработки данных поздней реверберации) выполнена с возможностью понижающего микширования каналов многоканального входного сигнала в монофонический сведенный сигнал (представляющий собой сигнал во временной области), а FDN 220 выполнена с возможностью применения части поздней реверберации к этому монофоническому сведенному сигналу.
Далее со ссылкой на фиг. 9 описывается один из примеров FDN во временной области, которая может быть использована в качестве FDN 220 виртуализатора по фиг. 10. FDN по фиг. 9 содержит входной фильтр 400, подключенный для приема монофонического сведенного сигнала (например, генерируемого подсистемой 201 системы по фиг. 10) всех каналов многоканального входного звукового сигнала. FDN по фиг. 9 также содержит фазовый фильтр (APF) 401 (соответствующий APF 301 по фиг. 4), соединенный с выходом фильтра 400, входной элемент 401А усиления, соединенный с выходом фильтра 401, элементы 402, 403, 404 и 405 сложения (соответствующие элементам 302, 303, 304 и 305 сложения по фиг. 4), соединенные с выходом элемента 401А, и четыре контура реверберации. Каждый контур реверберации соединен с выходом отличающегося одного из элементов 402, 403, 404 и 405 и содержит один из фильтров 406 и 406A, 407 и 407A, 408 и 408A, и 409 и 409A реверберации, одну из соединенных с ним линий 410, 411, 412 и 413 задержки (соответствующих линиям задержки 307 по фиг. 4) и один из элементов 417, 418, 419 и 420 усиления, соединенных с выходом одной из линий задержки.
С выходами линий 410, 411, 412 и 413 задержки соединена унитарная матрица 415 (соответствующая унитарной матрице 308 по фиг. 4 и, как правило, реализованная так, чтобы она была идентична матрице 308). Матрица 415 выполнена с возможностью внесения выходного сигнала обратной связи во второй вход каждого из элементов 402, 403, 404 и 405.
Если задержка (n1), применяемая линией 410, короче задержки (n2), применяемой линией 411, задержка, применяемая линией 411, короче задержки (n3), применяемой линией 412, и задержка, применяемая линией 412, короче задержки (n4), применяемой линией 413, то выходные сигналы элементов 417 и 419 усиления (первого и третьего контуров реверберации) вносятся во входы элемента 422 сложения, а выходные сигналы элементов 418 и 420 усиления (второго и четвертого контуров реверберации) вносятся во входы элемента 423 сложения. Выходной сигнал элемента 422 вносится в один вход фильтра 424 IACC и микширования, а выходной сигнал элемента 423 вносится в другой вход ступени 424 фильтрации IACC и микширования.
Примеры реализаций элементов 417-420 усиления и элементов 422, 423 и 424 по фиг. 9 будут описаны со ссылкой на типичную реализацию элементов 310 и 311 и выходной матрицы 312 микширования по фиг. 4. Выходная матрица 312 микширования по фиг. 4 (также идентифицируемая как матрица Mout) представляет собой матрицу 2×2, выполненную с возможностью микширования немикшированных бинауральных каналов (выходных сигналов элементов 310 и 311 соответственно), исходя из первоначального панорамирования, с целью генерирования левого и правого бинауральных выходных каналов (сигналов левого уха, «L», и правого уха, «R», вносимых на выход матрицы 312), обладающих необходимой интерауральной когерентностью. Данное первоначальное панорамирование реализуется элементами 310 и 311, каждый из которых комбинирует два выходных сигнала контуров реверберации, генерируя один из немикшированных бинауральных каналов, при этом выходной сигнал контура реверберации, имеющий кратчайшую задержку, вносится во вход элемента 310, а выходной сигнал контура реверберации, имеющий вторую по краткости задержку, вносится во вход элемента 311. Элементы 422 и 423 варианта осуществления по фиг. 9 выполняют первоначальное панорамирование такого же типа (в отношении сигналов во временной области, вносимых на их входы), тогда как элементы 310 и 311 (в каждой полосе частот) варианта осуществления по фиг. 4 действуют на поток составляющих в области блока фильтров (в соответствующей полосе частот), вносимых в их входы.
Немикшированные бинауральные каналы (выходные из элементов 310 и 311 по фиг. 4 или из элементов 422 и 423 по фиг. 9), близкие к тому чтобы быть некоррелирующими, так как они не состоят из какого-либо общего выходного сигнала контура реверберации, могут быть подвергнуты микшированию (посредством матрицы 312 по фиг. 4 или ступени 424 по фиг. 9) для реализации схемы панорамирования, достигающей необходимой интерауральной когерентности для левого и правого выходных каналов. Однако, поскольку задержки контуров реверберации в каждой FDN (т.е. в FDN по фиг. 9 или в FDN по фиг. 4, реализованной для каждой отличающейся полосы частот) отличаются, один немикшированный бинауральный канал (выходной сигнал одного из элементов 310 и 311 или 422 и 423) постоянно опережает другой немикшированный бинауральный канал (выходной сигнал второго из элементов 310 и 311 или 422 и 423).
Таким образом, в варианте осуществления по фиг. 4, если комбинация задержек контуров реверберации и схемы панорамирования являются одинаковыми по всем полосам частот, это будет в результате приводить к смещению звукового образа. Это смещение может быть подавлено, если схема панорамирования является чередующейся по полосам частот так, чтобы микшированные бинауральные выходные каналы опережали друг друга и отставали друг от друга в чередующихся полосах частот. Например, если необходимая интерауральная когерентность - Coh, где |Coh|≤1, то выходная матрица 312 микширования в нечетно пронумерованных полосах частот может быть реализована для умножения двух внесенных в нее входных сигналов посредством матрицы, имеющей следующую форму:
а выходная матрица 312 микширования в четно пронумерованных полосах частот может быть реализована для умножения двух внесенных в нее входных сигналов посредством матрицы, имеющей следующую форму:
В альтернативном варианте, отмеченное выше смещение звукового образа в бинауральных выходных каналах может быть подавлено путем реализации матрицы 312 так, чтобы она была идентична для всех полос частот в схемах FDN, если осуществляется коммутация порядка каналов ее входных сигналов для чередующихся каналов полос частот (например, выходной сигнал элемента 310 может быть внесен в первый вход матрицы 312, и выходной сигнал элемента 311 может быть внесен во второй вход матрицы 312 в нечетных полосах частот, а выходной сигнал элемента 311 может быть внесен в первый вход матрицы 312, и выходной сигнал элемента 310 может быть внесен во второй вход матрицы 312 в четных полосах частот).
В варианте осуществления по фиг. 9 (и в других вариантах осуществления FDN изобретательской системы во временной области) нетривиальным является чередование панорамирования на основании частот с целью обращения к смещению звукового образа, которое иначе приводило бы к тому результату, что выходной немикшированный бинауральный канал из элемента 422 постоянно опережал выходной немикшированный бинауральный канал из элемента 423 (или отставал от этого канала). C этим смещением звукового образа типичный вариант осуществления FDN изобретательской системы во временной области обращается иным образом, чем c ним обычно обращается вариант осуществления FDN изобретательской системы в области блока фильтров. Конкретнее, в варианте осуществления по фиг. 9 (и в некоторых других вариантах осуществления FDN изобретательской системы во временной области) относительные коэффициенты усиления немикшированных бинауральных каналов (например, выходных каналов из элементов 422 и 423 по фиг. 9) определяются элементами усиления (например, элементами 417, 418, 419 и 420 по фиг. 9) так, чтобы компенсировать смещение звукового образа, которое иначе в результате возникало бы из-за отмеченного несбалансированного согласования по времени. Стереофонический образ заново центрируется путем реализации элемента усиления (например, элемента 417) так, чтобы он ослаблял приходящий раньше всех сигнал (который был подвергнут панорамированию на одну сторону, например, элементом 422), и путем реализации элемента усиления (например, элемента 418) так, чтобы он усиливал следующий приходящий раньше других сигнал (который был подвергнут панорамированию на другую сторону, например, элементом 423). Таким образом, контур реверберации, содержащий элемент 417 усиления, применяет первый коэффициент усиления к выходному сигналу элемента 417, а контур реверберации, содержащий элемент 418 усиления, применяет второй коэффициент усиления (отличающийся от первого коэффициента усиления) к выходному сигналу элемента 418, и, таким образом, первый коэффициент усиления и второй коэффициент усиления ослабляют первый немикшированный бинауральный канал (выходной сигнал из элемента 422) относительно второго немикшированного бинаурального канала (выходного сигнала из элемента 423).
Более конкретно, в типичной реализации FDN по фиг. 9 четыре линии 410, 411, 412 и 413 задержки имеют увеличивающуюся длину с увеличивающимися значениями задержки, соответственно, n1, n2, n3 и n4. В данной реализации фильтр 417 применяет коэффициент усиления g1. Таким образом, выходной сигнал фильтра 417 представляет собой задержанную версию входного сигнала в линию 410 задержки, к которому был применен коэффициент усиления g1. Аналогично, фильтр 418 применяет коэффициент усиления g2, фильтр 419 применяет коэффициент усиления g3, и фильтр 420 применяет коэффициент усиления g4. Таким образом, выходной сигнал фильтра 418 представляет собой задержанную версию входного сигнала в линию 411 задержки, к которому был применен коэффициент усиления g2, выходной сигнал фильтра 419 представляет собой задержанную версию входного сигнала в линию 412 задержки, к которому был применен коэффициент усиления g3, и выходной сигнал фильтра 420 представляет собой задержанную версию входного сигнала в линию 413 задержки, к которому был применен коэффициент усиления g4.
В данной реализации выбор нижеследующих значений коэффициента усиления может в результате приводить к нежелательному смещению выходного звукового образа (указываемого выходными бинауральными каналами из элемента 424) на одну сторону (т.е. в левый или правый канал): g1 = 0,5, g2 = 0,5, g3 = 0,5, и g4 = 0,5. В соответствии с одним из вариантов осуществления изобретения, для центрирования звукового образа: g1 = 0,38, g2 = 0,6, g3 = 0,5, и g4 = 0,5 выбраны следующие значения коэффициентов усиления g1, g2, g3 и g4 (применяемых, соответственно, элементами 417, 418, 419 и 420): Таким образом, в соответствии с одним из вариантов осуществления изобретения, выходной стереофонический образ заново подвергается центрированию путем ослабления приходящего раньше всех сигнала (который был подвергнут панорамированию на одну сторону, в данном примере, элементом 422) относительно второго приходящего раньше других сигнала (т.е. путем выбора g1 < g3) и путем усиления второго приходящего раньше других сигнала (который был подвергнут панорамированию на другую сторону, в данном примере, элементом 423) относительно сигнала, приходящего позже всех (т.е. путем выбора g4 < g2).
Типичные реализации FDN во временной области по фиг. 9 имеют следующие различия и сходства с FDN в области блока фильтров (области CQMF) по фиг. 4:
одинаковая унитарная матрица обратной связи, A (матрица 308 по фиг. 4 и матрица 415 по фиг. 9);
похожие задержки контуров реверберации ni (т.е. задержки реализации в области CQMF по фиг. 4 могут составлять n1 = 17*64Ts = 1088*Ts, n2 = 21*64Ts = 1344*Ts, n3 = 26*64Ts = 1664*Ts, и n4 = 29*64Ts = 1856*Ts, где 1/Ts - частота дискретизации (1/Ts, как правило, равна 48 кГц), тогда как задержки реализации во временной области могут составлять: n1 = 1089*Ts, n2 = 1345*Ts, n3 = 1663*Ts , и n4 = 185*Ts. Следует отметить, что в типичных реализациях в области CQMF существует практическое ограничение, связанное с тем, что каждая задержка представляет собой некоторое целое кратное длительности блока из 64 дискретных значений (частота дискретизации, как правило, составляет 48 кГц), а во временной области имеется бóльшая гибкость в выборе каждой задержки и, таким образом, бóльшая гибкость в выборе задержки каждого контура реверберации;
похожие реализации фазового фильтра (т.е. аналогичные реализации фильтра 301 по фиг. 4 и фильтра 401 по фиг. 9). Например, фазовый фильтр может быть реализован путем каскадного расположения нескольких (например, трех) фазовых фильтров. Например, каждый фазовый фильтр в каскаде может иметь форму , где g=0,6. Фазовый фильтр 301 по фиг. 4 может быть реализован посредством каскада из трех фазовых фильтров с подходящими задержками блоков дискретных значений (например, n1 = 64*Ts, n2= 128*Ts, и n3= 196*Ts), тогда как фазовый фильтр 401 по фиг. 9 (фазовый фильтр во временной области) может быть реализован посредством каскада из трех фазовых фильтров с похожими задержками (например, n1 = 61*Ts, n2= 127*Ts, и n3= 191*Ts).
В некоторых реализациях FDN во временной области по фиг. 9 входной фильтр 400 реализован так, чтобы он вызывал согласование (по меньшей мере, по существу) отношения «прямая-поздняя» (DLR) BRIR, подлежащей применению системой по фиг. 9, с целевым DLR, и так, чтобы DLR BRIR, подлежащей применению виртуализатором, содержащим систему по фиг. 9 (например, виртуализатором по фиг. 10), можно было изменять путем замены фильтра 400 (или управления конфигурацией фильтра 400). Например, в некоторых вариантах осуществления, для реализации целевого DLR, а также, необязательно, реализации необходимого управления DLR, фильтр 400 реализован как каскад фильтров (например, как первый фильтр 400А и второй фильтр 400В, соединенные так, как показано на фиг. 9А). Например, фильтры из этого каскада представляют собой фильтры IIR (например, фильтр 400А представляет собой фазовый фильтр Баттерворта первого порядка (фильтр IIR), выполненный с возможностью согласования с целевыми низкочастотными характеристиками, а фильтр 400В представляет собой фильтр IIR второго порядка с низкой полкой, выполненный с возможностью согласования с целевыми высокочастотными характеристиками). В качестве другого примера, фильтры из каскада представляют собой фильтры IIR и FIR (например, фильтр 400А фазовый фильтр Баттерворта второго порядка (фильтр IIR), выполненный с возможностью согласования с целевыми низкочастотными характеристиками, а фильтр 400В представляет собой фильтр FIR 14 порядка, выполненный с возможностью согласования с целевыми высокочастотными характеристиками). Как правило, прямой сигнал является фиксированным, и фильтр 400 для достижения целевого DLR модифицирует поздний сигнал. Фазовый фильтр (APF) 401 предпочтительно реализован для выполнения такой же функции, как у APF 301 по фиг. 4, а именно: для введения фазового разнесения и увеличения эхоплотности с целью генерирования более естественно звучащего выходного сигнала FDN. APF 401, как правило, управляет фазовой характеристикой, тогда как входной фильтр 400 управляет амплитудной характеристикой.
На фиг. 9 фильтр 406 и элемент 406А усиления совместно реализуют фильтр реверберации, фильтр 407 и элемент 407А усиления совместно реализуют другой фильтр реверберации, фильтр 408 и элемент 408А усиления совместно реализуют еще один фильтр реверберации, и фильтр 409 и элемент 409А усиления совместно реализуют еще один фильтр реверберации. Каждый из фильтров 406, 407, 408 и 409 по фиг. 9 предпочтительно реализован как фильтр с максимальным значением коэффициента усиления, близким к единице (единичному коэффициенту усиления), а каждый из элементов 406A, 407A, 408A и 409A усиления выполнен с возможностью применения коэффициента затухания к выходному сигналу соответствующего одного из фильтров 406, 407, 408 и 409, согласующегося с необходимым затуханием (после соответствующей задержки контура реверберации, ni). Конкретнее, элемент 406А усиления выполнен с возможностью применения коэффициента затухания (decaygain1) к выходному сигналу фильтра 406, что вызывает наличие у выходного сигнала элемента 406А такого коэффициента усиления, что выходной сигнал линии 410 задержки (после задержки контура реверберации, n1) имеет первый целевой коэффициент усиления с затуханием, элемент 407А усиления выполнен с возможностью применения коэффициента затухания (decaygain2) к выходному сигналу фильтра 407, что вызывает наличие у выходного сигнала элемента 407А такого коэффициента усиления, что выходной сигнал линии 411 задержки (после задержки контура реверберации, n2) имеет второй целевой коэффициент усиления с затуханием, элемент 408А усиления выполнен с возможностью применения коэффициента затухания (decaygain3) к выходному сигналу фильтра 408, что вызывает наличие у выходного сигнала элемента 408А такого коэффициента усиления, что выходной сигнал линии 412 задержки (после задержки контура реверберации, n3) имеет третий целевой коэффициент усиления с затуханием, и элемент 409А усиления выполнен с возможностью применения коэффициента затухания (decaygain4) к выходному сигналу фильтра 409, что вызывает наличие у выходного сигнала элемента 409А такого коэффициента усиления, что выходной сигнал линии 413 задержки (после задержки контура реверберации, n4) имеет четвертый целевой коэффициент усиления с затуханием.
Каждый из фильтров 406, 407, 408 и 409, и каждый из элементов 406A, 407A, 408A и 409A системы по фиг. 9 предпочтительно реализован (с использованием каждого из фильтров 406, 407, 408 и 409, предпочтительно реализованного как фильтр IIR, например, как полочный фильтр или каскад полочных фильтров) для достижения целевой характеристики Т60 BRIR, подлежащей применению виртуализатором, содержащим систему по фиг. 9 (например, виртуализатором по фиг. 10), где «T60» обозначает время затухания реверберации (T60). Например, в некоторых вариантах осуществления каждый из фильтров 406, 407, 408 и 409 реализован как полочный фильтр (например, полочный фильтр, имеющий Q=0,3 и частоту полки 500 Гц и достигающий характеристики T60, показанной на фиг. 13, в которой T60 выражена в единицах секунд) или как каскад из двух полочных фильтров IIR (например, имеющих частоты полки 100 Гц и 1000 Гц и достигающих характеристики T60, показанной на фиг. 14, в которой T60 выражена в единицах секунд). Форма каждого полочного фильтра определяется так, чтобы она согласовывалась с необходимой кривой изменения от низкой частоты до высокой частоты. Если фильтр 406 реализован как полочный фильтр (или каскад полочных фильтров), то фильтр реверберации, содержащий фильтр 406 и элемент 406А усиления, также представляет собой полочный фильтр (или каскад полочных фильтров). Аналогичным образом, если каждый из фильтров 407, 408 и 409 реализован как полочный фильтр (или каскад полочных фильтров), то любой фильтр реверберации, содержащий фильтр 407 (или 408, или 409) и соответствующий элемент (407А, 408А или 409А) усиления, также представляет собой полочный фильтр (или каскад полочных фильтров).
На фиг. 9В изображен один из примеров фильтра 406, реализованного как каскад из первого полочного фильтра 406В и второго полочного фильтра 406С, соединенных так, как показано на фиг. 9В. Каждый из фильтров 407, 408 и 409 может быть реализован так же, как в реализации фильтра 406 по фиг. 9В.
В некоторых вариантах осуществления коэффициенты затухания (decaygaini), применяемые элементами 406A, 407A, 408A и 409A, определяются следующим образом:
decaygaini = 10((-60*(ni /Fs)/ T)/20),
где i - индекс контура реверберации (т.е. элемент 406А применяет decaygain1, элемент 407А применяет decaygain2, и т.д.), ni - задержка i-го контура реверберации (например, n1 - задержка, применяемая линией 410 задержки), Fs - частота дискретизации, Т - необходимое время затухания реверберации (T60) на предварительно определенной низкой частоте.
На фиг. 11 изображена блок-схема одного из вариантов осуществления следующих элементов по фиг. 9: элементов 422 и 423, и ступени 424 фильтрации IACC (с коэффициентом интерауральной взаимной корреляции) и микширования. Элемент 422 подключен и выполнен с возможностью суммирования выходных сигналов фильтров 417 и 419 (по фиг. 9) и внесения суммарного сигнала во вход фильтра 500 с низкой полкой, а элемент 422 подключен и выполнен с возможностью суммирования выходных сигналов фильтров 418 и 420 (по фиг. 9) и внесения суммарного сигнала во вход фильтра 501 прохождения верхних частот. Выходные сигналы фильтров 500 и 501 подвергаются суммированию (микшированию) в элементе 502 с целью генерирования бинаурального выходного сигнала левого уха, и выходные сигналы фильтров 500 и 501 подвергаются микшированию в элементе 502 (выходной сигнал фильтра 500 вычитается из выходного сигнала фильтра 501) с целью генерирования бинаурального выходного сигнала правого уха. Элементы 502 и 503 микшируют (суммируют и вычитают) фильтрованные выходные сигналы фильтров 500 и 501, генерируя бинауральные выходные сигналы, достигающие (в пределах допустимой точности) целевой характеристики IACC. В варианте осуществления по фиг. 11 каждый из фильтров, фильтр 500 с низкой полкой и фильтр 501 прохождения верхних частот, как правило, реализован как фильтр IIR первого порядка. В одном из примеров, где фильтры 500 и 501 имеют такую реализацию, вариант осуществления по фиг. 11 достигает примерной характеристики IACC, нанесенной на график на фиг. 12 как кривая «I», которая хорошо согласуется с целевой характеристикой IACC, нанесенной на график на фиг. 12 как «IT».
На фиг. 11A изображены графики частотной характеристики (R1) одной из типичных реализаций фильтра 500 по фиг. 11, частотной характеристики (R2) одной из типичных реализаций фильтра 501 по фиг. 11, и характеристики фильтров 500 и 501, соединенных параллельно. Из фиг. 11A очевидно, что комбинированная характеристика, как это и необходимо, является горизонтальной в диапазоне 100-10000 Гц.
Таким образом, в одном из классов вариантов осуществления изобретение представляет собой систему (например, систему по фиг. 10) и способ генерирования бинаурального сигнала (например, выходного сигнала элемента 210 по фиг. 10) в ответ на ряд каналов многоканального входного звукового сигнала, что включает применение бинауральной импульсной характеристики помещения (BRIR) к каждому каналу из этого ряда, посредством чего генерируются фильтрованные сигналы, что включает использование единственной схемы задержки с обратной связью (FDN) для применения общей поздней реверберации к сведенному сигналу каналов из этого ряда; и комбинирование указанных фильтрованных сигналов для генерирования бинаурального сигнала. FDN реализована во временной области. В некоторых таких вариантах осуществления FDN во временной области (например, FDN 220 по фиг. 10, выполненная так же, как на фиг. 9) содержит:
входной фильтр (например, фильтр 400 по фиг. 9), содержащий вход, подключенный для приема сведенного сигнала, при этом входной фильтр выполнен с возможностью генерирования первого фильтрованного сведенного сигнала в ответ на сведенный сигнал;
фазовый фильтр (например, фазовый фильтр 401 по фиг. 9), подключенный и выполненный с возможностью генерирования второго фильтрованного сведенного сигнала в ответ на первый фильтрованный сведенный сигнал;
подсистему применения реверберации (например, все элементы по фиг. 9 кроме элементов 400, 401 и 424), содержащую первый выход (например, выход элемента 422) и второй выход (например, выход элемента 423), при этом подсистема применения реверберации содержит ряд контуров реверберации, и каждый из этих контуров реверберации имеет отличающуюся задержку, и при этом подсистема применения реверберации подключена и выполнена с возможностью генерирования первого немикшированного бинаурального канала и второго немикшированного бинаурального канала в ответ на второй фильтрованный сведенный сигнал с целью внесения первого немикшированного бинаурального канала в первый выход и внесения второго немикшированного бинаурального канала во второй выход; и
ступень (например, ступень 424 по фиг. 9, которая может быть реализована как элементы 500, 501, 502 и 503 по фиг. 11) фильтрации с коэффициентом интерауральной взаимной корреляции (IACC) и микширования, соединенную с подсистемой применения реверберации и выполненную с возможностью генерирования первого микшированного бинаурального канала и второго микшированного бинаурального канала в ответ на первый немикшированный бинауральный канал и второй немикшированный бинауральный канал.
Входной фильтр может быть реализован для генерирования (предпочтительно, как каскад из двух фильтров, выполненный с возможностью генерирования) первого фильтрованного сведенного сигнала так, чтобы каждая BRIR имела отношение «прямая-поздняя» (DLR), по меньшей мере, по существу, согласующееся с целевым DLR.
Каждый контур реверберации может быть выполнен с возможностью генерирования задержанного сигнала, и он может содержать фильтр реверберации (например, реализованный как полочный фильтр или как каскад полочных фильтров), подключенный и выполненный с возможностью применения коэффициента усиления к сигналу, распространяющемуся в указанном каждом из контуров реверберации, так, чтобы вызывать наличие у задержанного сигнала коэффициента усиления, по меньшей мере, по существу, согласующегося с целевым коэффициентом усиления с затуханием для указанного задержанного сигнала, в расчете на достижение целевой характеристики времени затухания реверберации (например, характеристики T60) каждой BRIR.
В некоторых вариантах осуществления первый немикшированный бинауральный канал опережает второй немикшированный бинауральный канал, контуры реверберации содержат первый контур реверберации (например, контур реверберации по фиг. 9, содержащий линию 410 задержки), выполненный с возможностью генерирования первого задержанного сигнала, имеющего кратчайшую задержку, и второй контур реверберации (например, контур реверберации по фиг. 9, содержащий линию 411 задержки), выполненный с возможностью генерирования второго задержанного сигнала, имеющего вторую по краткости задержку, при этом первый контур реверберации выполнен с возможностью применения первого коэффициента усиления к первому задержанному сигналу, второй контур реверберации выполнен с возможностью применения второго коэффициента усиления ко второму задержанному сигналу, второй коэффициент усиления отличается от первого коэффициента усиления, и применение первого коэффициента усиления и второго коэффициента усиления в результате приводит к ослаблению первого немикшированного бинаурального канала относительно второго немикшированного бинаурального канала. Как правило, первый микшированный бинауральный канал и второй микшированный бинауральный канал указывают на заново центрированный стереофонический образ. В некоторых вариантах осуществления ступень фильтрации IACC и микширования выполнена с возможностью генерирования первого микшированного бинаурального канала и второго микшированного бинаурального канала так, чтобы указанные первый микшированный бинауральный канал и второй микшированный бинауральный канал имели характеристику IACC, по меньшей мере, по существу, согласующуюся с целевой характеристикой IACC.
Особенности изобретения включают способы и системы (например, систему 20 по фиг. 2 или систему по фиг. 3, или по фиг. 10), выполняющие бинауральную виртуализацию (или выполненные с возможностью выполнения, или поддерживающие выполнение бинауральной виртуализации) звуковых сигналов (например, звуковых сигналов, звуковое содержимое которых состоит из каналов динамиков и/или из звуковых сигналов на объектной основе).
В некоторых вариантах осуществления изобретательский виртуализатор представляет собой или содержит универсальный процессор, подключенный для приема или генерирования входных данных, указывающих на многоканальный входной звуковой сигнал, и запрограммированный посредством программного обеспечения (или программно-аппаратного обеспечения) и/или иначе выполненный с возможностью выполнения (например, в ответ на управляющие данные) любой из множества операций в отношении входных данных, в том числе варианта осуществления изобретательского способа. Указанный универсальный процессор, как правило, может подключаться к устройству ввода (например, к мыши и/или клавиатуре), памяти или устройству отображения. Например, система по фиг. 3 (или система 20 по фиг. 2, или система виртуализатора, содержащая элементы 12,..., 14, 15, 16 и 18 системы 20) может быть реализована в универсальном процессоре, при этом входные сигналы представляют собой аудиоданные, указывающие на N каналов входного звукового сигнала, а выходные сигналы представляют собой аудиоданные, указывающие на два канала бинаурального звукового сигнала. Для генерирования аналоговых версий каналов бинаурального сигнала с целью воспроизведения динамиками (например, парой наушников), в отношении выходных данных может быть задействован традиционный цифро-аналоговый преобразователь (DAC).
Несмотря на то, что в данном раскрытии были описаны конкретные варианты осуществления изобретения и применения изобретения, средним специалистам в данной области будет очевидно, что в описанные в данном раскрытии варианты осуществления изобретения и применения возможно внесение множества изменений без отступления от объема изобретения, описанного и заявленного в данном раскрытии. Следует понимать, что, несмотря на то, что были показаны и описаны некоторые формы изобретения, изобретение не следует ограничивать описанными и показанными конкретными вариантами его осуществления или описанными конкретными способами.
1. Способ генерирования бинаурального сигнала в ответ на ряд каналов многоканального входного звукового сигнала, при этом способ включает:
применение бинауральной импульсной характеристики BRIR помещения к каждому каналу указанного ряда, с генерированием в результате фильтрованных сигналов; и
комбинирование фильтрованных сигналов для генерирования бинаурального сигнала,
при этом применение BRIR к каждому каналу указанного ряда включает использование генератора (200) поздней реверберации с применением, в ответ на контрольные значения, внесенные в генератор (200) поздней реверберации, общей поздней реверберации к сведенному сигналу каналов указанного ряда, при этом общая поздняя реверберация эмулирует коллективные макроскопические определяющие признаки частей поздней реверберации одноканальных BRIR, совместно используемых на по меньшей мере некоторых каналах ряда, и
при этом сведенный сигнал является сведенным стерео сигналом каналов указанного ряда.
2. Способ по п. 1, отличающийся тем, что применение BRIR к каждому каналу указанного ряда включает применение к каждому каналу указанного ряда части прямой характеристики и ранних отражений одноканальной BRIR для этого канала.
3. Способ по любому из пп. 1 или 2, отличающийся тем, что генератор (200) поздней реверберации содержит блок схем (203, 204, 205) задержки с обратной связью с применением общей поздней реверберации к сведенному сигналу, при этом каждая схема (203, 204, 205) задержки с обратной связью из этого блока применяет позднюю реверберацию к отличающейся полосе частот сведенного сигнала.
4. Способ по п. 3, отличающийся тем, что каждая из схем (203, 204, 205) задержки с обратной связью реализована в области комплексного квадратурного зеркального фильтра.
5. Способ по любому из пп. 1 или 2, отличающийся тем, что генератор (200) поздней реверберации содержит единственную схему (220) задержки с обратной связью с применением общей поздней реверберации к сведенному сигналу каналов ряда, при этом схема (220) задержки с обратной связью реализована во временной области.
6. Способ по любому из пп. 1 или 2, отличающийся тем, что макроскопические определяющие признаки включают одно или более из усредненного спектра мощности, структуры затухания энергии, модальной плотности и пиковой плотности.
7. Способ по любому из пп. 1 или 2, отличающийся тем, что одно или более из контрольных значений являются зависящими от частоты, и/или одно из контрольных значений представляет собой время реверберации.
8. Система, выполненная с возможностью генерирования бинаурального сигнала в ответ на ряд каналов многоканального входного звукового сигнала, при этом система содержит один или более процессоров, выполненных с возможностью:
применения бинауральной импульсной характеристики BRIR помещения к каждому каналу указанного ряда для генерирования в результате фильтрованных сигналов; и
комбинирования фильтрованных сигналов для генерирования бинаурального сигнала,
при этом применение BRIR к каждому каналу указанного ряда включает использование генератора (200) поздней реверберации для применения, в ответ на контрольные значения, внесенные в генератор (200) поздней реверберации, общей поздней реверберации к сведенному сигналу каналов указанного ряда, при этом общая поздняя реверберация эмулирует коллективные макроскопические определяющие признаки частей поздней реверберации одноканальных BRIR, совместно используемых на по меньшей мере некоторых каналах указанного ряда, и
при этом сведенный сигнал каналов указанного ряда является сведенным стерео сигналом каналов указанного ряда.
9. Система по п. 8, отличающаяся тем, что применение BRIR к каждому каналу указанного ряда включает применение к каждому каналу указанного ряда части прямой характеристики и ранних отражений одноканальной BRIR для этого канала.
10. Система по любому из пп. 8 или 9, отличающаяся тем, что генератор (200) поздней реверберации содержит блок схем (203, 204, 205) задержки с обратной связью, выполненный с возможностью применения общей поздней реверберации к сведенному сигналу, при этом каждая схема (203, 204, 205) задержки с обратной связью из этого блока применяет позднюю реверберацию к отличающейся полосе частот сведенного сигнала.
11. Система по п. 10, отличающаяся тем, что каждая из схем (203, 204, 205) задержки с обратной связью реализована в области комплексного квадратурного зеркального фильтра.
12. Система по любому из пп. 8 или 9, отличающаяся тем, что генератор (200) поздней реверберации содержит схему (220) задержки с обратной связью, реализованную во временной области, и генератор (200) поздней реверберации выполнен с возможностью обработки сведенного сигнала во временной области в указанной схеме (220) задержки с обратной связью для применения общей поздней реверберации к указанному сведенному сигналу.
13. Система по любому из пп. 8 или 9, отличающаяся тем, что макроскопические определяющие признаки включают одно или более из усредненного спектра мощности, структуры затухания энергии, модальной плотности и пиковой плотности.
14. Система по любому из пп. 8 или 9, отличающаяся тем, что одно или более из контрольных значений являются зависящими от частоты, и/или одно из контрольных значений представляет собой время реверберации.