Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
Владельцы патента RU 2740703:
ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)
Изобретение относится к средствам для аудиообработки, а именно для формирования описания звукового поля. Технический результат заключается в повышении эффективности обработки описания звукового поля. Вычисляют модифицированное звуковое поле с использованием пространственной информации, описания звукового поля и информации перемещения, указывающей перемещение из опорного местоположения в другое опорное местоположение. Принимают, в качестве описания звукового поля, описание звукового поля первого слоя и описание звукового поля второго слоя. Выполняют разделение источников для описаний звукового поля первого и второго слоев, чтобы извлекать источники описаний звукового поля первого и второго слоев и данных направления поступления (DoA) для извлеченных источников. Вычисляют, для каждого извлеченного источника, модифицированные DoA-данные относительно другого местоположения с использованием DoA-данных и информации перемещения. Обрабатывают извлеченные источники и модифицированные DoA-данные, чтобы получать модифицированное описание звукового поля. 6 н. и 24 з.п. ф-лы, 23 ил.
Настоящее изобретение относится к аудиообработке и, в частности, к аудиообработке относительно звуковых полей, которые задаются относительно опорного местоположения, такого как местоположение микрофона или виртуального микрофона.
Амбиофонические сигналы содержат усеченное сферическое гармоническое разложение звукового поля. Амбиофония имеет различные варианты. Предусмотрена "традиционная" амбиофония [31], которая сегодня известна как "амбиофония первого порядка (FOA)" и содержит четыре сигнала (т.е. один всенаправленный сигнал и вплоть до трех направленных сигналов в виде восьмерки). Более свежие варианты амбиофонии известны как "амбиофония высшего порядка (HOA)" и предоставляют улучшенное пространственное разрешение и большую зону наилучшего восприятия слушателя за счет переноса большего числа сигналов. В общем, полностью заданное HOA-представление N-ого порядка состоит из (N+1)2 сигналов.
В связи с идеей амбиофонии, представление на основе направленного кодирования аудио (DirAC) задумано, чтобы представлять звуковую FOA- или HOA-сцену в более компактном, параметрическом стиле. Более конкретно, пространственная звуковая сцена представляется посредством одного (или более) передаваемых аудиоканалов, которые представляют понижающее микширование акустической сцены и ассоциированную вспомогательную информацию направления и степени рассеяния в каждом частотно-временном (TF) бине. Дополнительная информация относительно DirAC содержится в [32, 33].
DirAC [32] может использоваться с различными микрофонными системами и с произвольными компоновками громкоговорителей. Цель DirAC-системы состоит в том, чтобы воспроизводить пространственное впечатление существующего акустического окружения максимально возможно точно с использованием многоканальной/трехмерной системы громкоговорителей. В выбранном окружении, отклики (непрерывные звуковые или импульсные отклики) измеряются с помощью всенаправленного микрофона (W) и с помощью набора микрофонов, который позволяет измерять направление поступления звука и степень рассеяния звука. Общепринятый способ заключается в том, чтобы применять три микрофона (X, Y, Z) в виде восьмерки, совмещенные с соответствующими декартовыми осями координат [34]. Способ для этого заключается в том, чтобы использовать микрофон на основе звукового поля, который непосредственно дает в результате все требуемые отклики. W-, X-, Y- и Z-сигналы также могут вычисляться из набора дискретных всенаправленных микрофонов.
В DirAC, звуковой сигнал сначала разделяется на частотные каналы. Направление и степень рассеяния звука измеряется в зависимости от времени в каждом частотном канале. В передаче, один или более аудиоканалов отправляются, вместе с проанализированными данными направления и степени рассеяния. В синтезе, аудио, которое применяется к громкоговорителям, например, может представлять собой всенаправленный канал W, либо звук для каждого громкоговорителя может вычисляться в качестве взвешенной суммы W, X, Y и Z, которая формирует сигнал, который имеет определенные направленные характеристики для каждого громкоговорителя. Каждый аудиоканал разделяется на частотные каналы, которые затем разделяются опционально на рассеянные и на нерассеянные потоки в зависимости от проанализированной степени рассеяния. Рассеянный поток воспроизводится с помощью технологии, которая формирует рассеянное восприятие звуковой сцены, например, с помощью технологий декорреляции, используемых в бинауральном кодировании по сигнальным меткам [35-37]. Нерассеянный звук воспроизводится с помощью технологии, которая имеет целью формировать точечный виртуальный источник согласно данным направления (например, VBAP [38]).
Три технологии для навигации в 6DoF с ограниченной степенью свободы предлагаются в [39]. С учетом одного амбиофонического сигнала, один амбиофонический сигнал вычисляется с использованием: 1) моделирования HOA-воспроизведения и перемещения слушателя в массиве виртуальных громкоговорителей, 2) вычисления и перемещения вдоль плоских волн и 3) повторного расширения звукового поля вокруг слушателя.
Кроме того, следует обратиться к DirAC-технологии, как описано, например, в публикации "Directional Audio Coding - Perception-Based Reproduction of Spatial Sound", V. Pulkki et al, International Workshop on the Principles and Applications of Spatial Hearing, 11-13 ноября 2009 года, Zao, Miyagi, Japan. Этот ссылочный документ описывает направленное кодирование аудио в качестве примера для связанной с опорным местоположением обработки звуковых полей, в частности, в качестве перцепционно обусловленной технологии для пространственной аудиообработки. Оно имеет применение в захвате, кодировании и повторном синтезе пространственного звука, в телеконференц-связи, в направленной фильтрации и в виртуальных слуховых окружениях.
Воспроизведение звуковых сцен зачастую акцентирует внимание на компоновках громкоговорителей, поскольку они представляют собой типичное воспроизведение в частном (например, в гостиной) и в профессиональном контексте (т.е. в кинотеатрах). Здесь, взаимосвязь сцены с геометрией воспроизведения является статической, поскольку она сопровождает двумерное изображение, которое вынуждает слушателя смотреть в направлении вперед. Затем, пространственная взаимосвязь звуковых и визуальных объектов задается и фиксируется во время производства.
В виртуальной реальности (VR), погружение явно достигается посредством предоставления возможности пользователю свободно перемещаться в сцене. Следовательно, необходимо отслеживать перемещение пользователя и регулировать визуальное и слуховое воспроизведение согласно позиции пользователя. Типично, пользователь носит наголовный дисплей (HMD) и наушники. Для восприятия на основе погружения с наушниками, аудио должно бинаурализироваться. Бинаурализация представляет собой моделирование того, как человеческая голова, уши и верхняя часть торса изменяют звук источника в зависимости от его направления и расстояния. Это достигается посредством свертки сигналов с передаточными функциями восприятия звука человеком (HRTF) для их относительного направления [1, 2]. Бинаурализация также заставляет звук казаться исходящим из сцены, а не из головы [3]. Общий сценарий, который уже успешно разрешен, представляет собой воспроизведение видео на 360º [4, 5]. Здесь, пользователь либо носит HMD, либо держит планшетный компьютер или телефон в руках. Посредством перемещения своей головы или устройства, пользователь может оглядываться в любом направлении. Он представляет собой сценарий с тремя степенями свободы (3DoF), поскольку пользователь имеет три степени перемещения (наклон в продольном направлении, наклон относительно вертикальной оси, наклон в поперечном направлении). Визуально, это реализуется посредством проецирования видео на сфере вокруг пользователя. Аудио зачастую записывается с помощью пространственного микрофона [6], например, амбиофонии первого порядка (FOA), рядом с видеокамерой. В амбиофонической области, вращение головы пользователя адаптируется простым способом [7]. Аудио затем, например, подготавливается посредством рендеринга в виртуальные громкоговорители, размещенные вокруг пользователя. Эти сигналы виртуальных громкоговорителей далее бинаурализируются.
Современные VR-варианты применения предоставляют возможность шести степеней свободы (6DoF). Помимо вращения головы, пользователь может перемещаться вокруг, что в результате дает в результате перемещению его позиции в трех пространственных размерностях. 6DoF-воспроизведение ограничено посредством полного размера зоны ходьбы. Во многих случаях, эта зона является довольно небольшой, например, традиционная гостиная. 6DoF обычно встречается в VR-играх. Здесь, полная сцена является синтетической за счет формирования машиногенерируемых изображений (CGI). Аудио зачастую формируется с использованием объектно-ориентированного рендеринга, при котором каждый аудиообъект подготавливается посредством рендеринга с зависимым от расстояния усилением и относительным направлением от пользователя на основе данных отслеживания. Реализм может повышаться посредством искусственной реверберации и дифракции [8, 9, 10].
Относительно записанного контента, имеются некоторые отличительные сложности для принудительного аудиовизуального 6DoF-воспроизведения. Ранний пример пространственного звукового манипулирования в области перемещения в пространстве представляет собой пример технологий "акустического масштабирования"[11, 12]. Здесь, позиция слушателя фактически перемещается в записанную визуальную сцену, аналогично изменению масштаба в изображении. Пользователь выбирает одно направление или часть изображения и затем может прослушивать его из перемещенной точки. Это предусматривает то, что все направления поступления (DoA) изменяются относительно исходного, немасштабируемого воспроизведения.
Предложены способы для 6DoF-воспроизведения записанного контента, которые используют пространственно распределенные позиции записи. Для видео, массивы камер могут использоваться для того, чтобы формировать рендеринг на основе принципа светового поля [13]. Для аудио, аналогичная компоновка использует распределенные массивы микрофонов или амбиофонические микрофоны. Показано, что можно формировать сигнал "виртуального микрофона", размещенного в произвольной позиции, из таких записей [14].
Чтобы реализовывать такие пространственные звуковые модификации технически удобным способом, могут использоваться технологии параметрической звуковой обработки или кодирования (см. [15] на предмет общего представления). Направленное кодирование аудио (DirAC) [16] представляет собой популярный способ для того, чтобы преобразовывать запись в представление, которое состоит из аудиоспектра и параметрической вспомогательной информации относительно направления и степени рассеяния звука. Оно используется для вариантов применения на основе акустического масштабирования [11] и виртуальных микрофонов [14].
Способ, предложенный здесь, предоставляет 6DoF-воспроизведение из записи одного FOA-микрофона. Записи из одной пространственной позиции использованы для 3DoF-воспроизведения или акустического масштабирования. Но, согласно знаниям авторов изобретения, способ для интерактивного, полностью 6DoF-воспроизведения из таких данных не предложен к настоящему моменту. 6DoF-воспроизведение реализуется посредством интегрирования информации относительно расстояния источников звука в записи. Эта информация расстояния включается в параметрическое представление DirAC таким образом, что измененная перспектива слушателя корректно преобразуется.
Ни одно из амбиофонических представлений звукового поля (независимо от того, представляет оно собой регулярную FOA- или HOA-амбиофонию либо DirAC-ориентированное параметрическое представление звукового поля) не предоставляет достаточную информацию, чтобы обеспечивать возможность сдвига с перемещением позиции слушателя, что требуется для 6DoF-вариантов применения, поскольку ни расстояние до объекта, ни абсолютные позиции объектов в звуковой сцене не определяются в этих форматах. Следует отметить, что сдвиг в позиции слушателя может перемещаться в эквивалентный сдвиг звуковой сцены в противоположном направлении.
Типичная проблема при перемещении в 6DoF проиллюстрирована на фиг. 1b. Допустим, что звуковая сцена описывается в позиции A с использованием амбиофонии. В этом случае, звуки из источника A и источника B поступают из идентичного направления, т.е. они имеют идентичное направление поступления (DoA). В случае перемещения в позицию B, DoA источника A и источника B отличаются. С использованием стандартного описания на основе амбиофонии звукового поля, т.е. без дополнительной информации, невозможно вычислять амбиофонические сигналы в позиции B, с учетом амбиофонических сигналов в позиции A.
Цель настоящего изобретения заключается в том, чтобы предоставлять улучшенное описание звукового поля, с одной стороны, или формирование модифицированного описания звукового поля, с другой стороны, которые обеспечивают улучшенную или гибкую, или эффективную обработку.
Эта цель достигается посредством устройства для формирования улучшенного описания звукового поля по п. 1, устройства для формирования модифицированного описания звукового поля по п. 10, способа формирования улучшенного описания звукового поля по п. 27, способа формирования модифицированного описания звукового поля по п. 28, компьютерной программы по п. 29 или улучшенного описания звукового поля по п. 30.
Настоящее изобретение основано на таких выявленных сведениях, что типичные описания звукового поля, которые связаны с опорным местоположением, требуют дополнительной информации таким образом, что эти описания звукового поля могут обрабатываться, так что может вычисляться модифицированное описание звукового поля, которое связано не с исходным опорным местоположением, а с другим опорным местоположением. С этой целью, формируются метаданные, связанные с пространственной информацией этого звукового поля, и метаданные вместе с описанием звукового поля соответствуют улучшенному описанию звукового поля, которое, например, может передаваться или сохраняться. Чтобы формировать модифицированное описание звукового поля из описания звукового поля и метаданных, и, в частности, метаданных, связанных с пространственной информацией описания звукового поля, модифицированное звуковое поле вычисляется с использованием этой пространственной информации, описания звукового поля и информации перемещения, указывающей перемещение из опорного местоположения в другое опорное местоположение. Таким образом, улучшенное описание звукового поля, состоящее из описания звукового поля и метаданных, связанных с пространственной информацией этого звукового поля, лежащей в основе описания звукового поля, обрабатывается, чтобы получать модифицированное описание звукового поля, которое связано с другим опорным местоположением, заданным посредством дополнительной информации перемещения, которая, например, может предоставляться или использоваться на стороне декодера.
Тем не менее, настоящее изобретение не только связано со сценарием кодера/декодера, но также может применяться в варианте применения, в котором формирование улучшенного описания звукового поля и формирование модифицированного описания звукового поля осуществляются по существу в одном и том же местоположении. Модифицированное описание звукового поля, например, может представлять собой описание непосредственно модифицированного звукового поля или фактически модифицированное звуковое поле в канальных сигналах, бинауральных сигналах или, кроме того, связанное с опорным местоположением звуковое поле, которое, тем не менее, теперь связывается с новым или другим опорным местоположением, а не с исходным опорным местоположением. Такой вариант применения, например, должен представлять собой сценарий виртуальной реальности, в котором существует описание звукового поля вместе с метаданными, и в котором слушатель перемещается из опорного местоположения, для которого предоставляется звуковое поле, и перемещается в другое опорное местоположение, и в котором после этого звуковое поле для слушателя, перемещающегося в виртуальной зоне, вычисляется таким образом, что оно соответствует звуковому полю, но теперь в другом опорном местоположении, в которое перемещен пользователь.
В варианте осуществления, формирователь звуковых полей может формировать, для каждого слоя из множества, по меньшей мере, двух слоев, DirAC-описание звукового поля, имеющее один или более сигналов понижающего микширования и отдельные данные направления и опционально данные степени рассеяния для различных частотно-временных бинов. В этом контексте, формирователь метаданных выполнен с возможностью формировать дополнительную информацию расстояния или глубины для каждого слоя, в качестве метаданных, идентичных для всех источников, включенных в слой, и для всех частотных бинов, связанных со слоем. Предпочтительный вариант осуществления должен иметь расстояние или диапазон расстояний, ассоциированный со слоем. Альтернативно, карта глубины может предоставляться в расчете на слой. В частности и в дополнительном варианте осуществления, метаданные, связанные с пространственной информацией, должны представлять собой карту глубины, ассоциирующую определенное расстояние с определенной информацией позиции, такой как информация направления поступления.
В вариантах осуществления, направление поступления задается посредством только угла подъема или только азимутального угла либо обоих углов, и карта глубины должна затем ассоциировать с каждым источником в слое идентичную информацию расстояния, такую как расстояние в метрах и т.п. или относительное расстояние, или квантованное абсолютное или относительное расстояние или любая другая информация расстояния, из которой, в завершение, может извлекаться расстояние относительно другого или нового опорного местоположения, с которым связано звуковое поле.
Далее приводятся другие предпочтительные реализации.
Амбиофония становится одним из наиболее часто используемых форматов для трехмерного аудио в контексте вариантов применения в стиле виртуальной, дополненной и смешанной реальности. Разработан широкий спектр инструментальных средств получения и формирования аудио, которые формируют выходной сигнал в формате амбиофонии. Чтобы представлять амбиофонический кодированный контент в интерактивных вариантах применения в стиле виртуальной реальности (VR), формат амбиофонии преобразуется в бинауральный сигнал или каналы для воспроизведения. В вышеуказанных вариантах применения, слушатель обычно имеет возможность интерактивно изменять свою ориентацию в представленной сцене до такой степени, что он может поворачивать свою голову в звуковой сцене, что обеспечивает три степени свободы (3DoF, т.е. наклон в продольном направлении, наклон относительно вертикальной оси и наклон в поперечном направлении), и при этом подвергаться соответствующему качеству звука. Это реализуется посредством вращения звуковой сцены перед рендерингом согласно ориентации головы, которое может реализовываться с низкой вычислительной сложностью и является преимуществом амбиофонического представления. Тем не менее, в новых вариантах применения, таких как VR, требуется обеспечивать возможность свободного перемещения пользователя в звуковой сцене, а не только изменений ориентации (так называемых "шести степеней свободы", или 6DoF). Как следствие, обработка сигналов требуется для того, чтобы изменять перспективу звуковой сцены (т.е. чтобы фактически перемещаться в звуковой сцене вдоль осей X, Y или Z). Тем не менее, главный недостаток амбиофонии заключается в том, что формат описывает звуковое поле из одной перспективы в звуковой сцене. В частности, она не содержит информацию относительно фактического местоположения источников звука в звуковой сцене, которая позволяет сдвигать звуковую сцену (выполнять "перемещение"), что требуется для 6DoF. Это описание изобретения предоставляет несколько расширений амбиофонии для того, чтобы преодолевать эту проблему, а также упрощать перемещение и в силу этого обеспечивать истинную 6DoF.
Записи на основе амбиофонии первого порядка (FOA) могут обрабатываться и воспроизводиться в наушниках. Они могут вращаться для того, чтобы учитывать ориентацию головы слушателей. Тем не менее, системы виртуальной реальности (VR) обеспечивают возможность слушателю перемещаться в шести степенях свободы (6DoF), т.е. в трех вращательных плюс в трех переходных степенях свободы. Здесь, явные углы и расстояния источников звука зависят от позиции слушателя. Описывается технология для того, чтобы упрощать 6DoF. В частности, FOA-запись описывается с использованием параметрической модели, которая модифицируется на основе позиции слушателя и информации относительно расстояний до источников. Способ оценивается посредством теста на основе прослушивания, сравнивающего различные бинауральные рендеринги синтетической звуковой сцены, в которой слушатель может свободно перемещаться.
В дополнительных предпочтительных вариантах осуществления, улучшенное описание звукового поля выводится посредством выходного интерфейса для формирования выходного сигнала для передачи или хранения, при этом выходной сигнал содержит, для временного кадра, один или более аудиосигналов, извлекаемых из звукового поля, и пространственную информацию для временного кадра. В частности, формирователь звуковых полей, в дополнительных вариантах осуществления, является адаптивным с возможностью извлекать данные направления из звукового поля, причем данные направления означают направление поступления звука за период времени или частотный бин, и формирователь метаданных выполнен с возможностью извлекать пространственную информацию в качестве элементов данных, ассоциирующих информацию расстояния с данными направления.
В частности, в таком варианте осуществления, выходной интерфейс выполнен с возможностью формировать выходные сигналы таким образом, что элементы данных для временного кадра связываются с данными направления для различных частотных бинов.
В дополнительном варианте осуществления, формирователь звуковых полей также выполнен с возможностью формировать информацию степени рассеяния для множества частотных бинов временного кадра звукового поля, при этом формирователь метаданных выполнен с возможностью формировать информацию расстояния только для частотного бина, отличающегося от предварительно определенного значения или отличающегося от бесконечности, либо формировать значение расстояния для частотного бина вообще, когда значение степени рассеяния ниже предварительно определенного или адаптивного порогового значения. Таким образом, для частотно-временных бинов, которые имеют высокую степень рассеяния, значения расстояния не формируются вообще, либо формируется предварительно определенное значение расстояния, которое интерпретируется посредством декодера определенным способом. Таким образом, необходимо удостоверяться в том, что для частотно-временных бинов, имеющих высокую степень рассеяния, любой связанный с расстоянием рендеринг не выполняется, поскольку высокая степень рассеяния указывает то, что для такого частотно-временного бина звук исходит не из определенного локализованного источника, а исходит из любого направления и в силу этого является идентичным независимо от того, воспринимается звуковое поле в исходном опорном местоположении либо в другом или новом опорном местоположении.
Относительно модуля вычисления звуковых полей, предпочтительные варианты осуществления содержат интерфейс перемещения для предоставления информации перемещения или информации вращения, указывающей вращение предназначенного слушателя в модифицированное звуковое поле, модуль подачи метаданных для подачи метаданных в модуль вычисления звуковых полей и модуль подачи звуковых полей для подачи описания звукового поля в модуль вычисления звуковых полей и, дополнительно, выходной интерфейс для вывода модифицированного звукового поля, содержащего модифицированное описание звукового поля и модифицированные метаданные, причем модифицированные метаданные извлекаются из метаданных с использованием информации перемещения, либо выходной интерфейс выводит множество каналов громкоговорителей, причем каждый канал громкоговорителя связан с предварительно заданной позицией громкоговорителя, либо выходной интерфейс выводит бинауральное представление модифицированного звукового поля.
В варианте осуществления, описание звукового поля содержит множество компонентов звукового поля. Множество компонентов звукового поля содержат всенаправленный компонент и, по меньшей мере, один направленный компонент. Такое описание звукового поля, например, представляет собой амбиофоническое описание звукового поля первого порядка, имеющее всенаправленный компонент и три направленных компонента X, Y, Z, либо такое звуковое поле представляет собой амбиофоническое описание высшего порядка, содержащее всенаправленный компонент, три направленных компонента относительно направлений по оси X, Y и Z и, дополнительно, дополнительные направленные компоненты, которые связаны с направлениями, отличными от направлений по оси X, Y, Z.
В варианте осуществления, устройство содержит анализатор для анализа компонентов звукового поля, чтобы извлекать, для различных временных или частотных бинов, информацию направления поступления. Устройство дополнительно имеет модуль преобразования с перемещением для вычисления модифицированной DoA-информации в расчете на частотный или временной бин с использованием DoA-информации и метаданных, причем метаданные связаны с картой глубины, ассоциирующей расстояние с описанием слоя, т.е. со всеми источникам слоя, для всех частотных бинов временного кадра. Следовательно, довольно простая "карта глубины" является достаточной для каждого слоя. Карта глубины для слоя требует только, по меньшей мере, расстояния или диапазона расстояний для этого слоя, как показано на фиг 4c.
Кроме того, модуль вычисления звуковых полей имеет модуль компенсации расстояния для вычисления модифицированного звукового поля с использованием информации компенсации расстояния в зависимости от расстояния, предоставленного из метаданных, идентичных для каждого частотного или временного бина источника из слоя, и из нового расстояния, ассоциированного с временным или частотным бином, причем новое расстояние связано с модифицированной DoA-информацией.
В варианте осуществления, модуль вычисления звуковых полей вычисляет первый вектор, указывающий из опорного местоположения в источник звука, полученный посредством анализа звукового поля. Кроме того, модуль вычисления звуковых полей вычисляет второй вектор, указывающий из другого опорного местоположения в источник звука, и это вычисление проводится с использованием первого вектора и информации перемещения, причем информация перемещения задает вектор перемещения из опорного местоположения в другое опорное местоположение. Так же, в таком случае расстояние от другого опорного местоположения до источника звука вычисляется с использованием второго вектора.
Кроме того, модуль вычисления звуковых полей выполнен с возможностью принимать, в дополнение к информации перемещения, информацию вращения, указывающую вращение головы слушателя в одном из трех направлений вращения, предоставленных посредством наклона в продольном направлении, наклона относительно вертикальной оси и наклона в поперечном направлении. Модуль вычисления звуковых полей затем выполнен с возможностью выполнять преобразование с вращением, чтобы вращать модифицированные данные направления поступления для звукового поля с использованием информации вращения, при этом модифицированные данные направления поступления извлекаются из данных направления поступления, полученных посредством анализа звука описания звукового поля, и информации перемещения.
В варианте осуществления, модуль вычисления звуковых полей выполнен с возможностью определять сигналы источников из описания звукового поля и направлений сигналов источников, связанных с опорным местоположением, посредством анализа звука.
После этого вычисляются новые направления источников звука, которые связаны с другим опорным местоположением, и это выполняется с использованием метаданных, а затем вычисляется информация расстояния источников звука, связанных с другим опорным местоположением, и после этого модифицированное звуковое поле синтезируется с использованием информации расстояния и новых направлений источников звука.
В варианте осуществления, синтез звукового поля выполняется посредством панорамирования сигналов источников звука в направление, предоставленное посредством новой информации направления относительно компоновки для воспроизведения, и масштабирование сигналов источников звука выполняется с использованием информации расстояния перед выполнением операции панорамирования или после выполнения операции панорамирования. Сигналы источников, возможно, должны быть ассоциированы с новым слоем, если расстояние изменяется. В таком случае используется коэффициент масштабирования, отличающийся от 1, если формируется описание звукового поля. Если, в смысле транскодера, формируется новое многослойное описание, то только изменение с одного слоя на другой является достаточным для того, чтобы учитывать изменение расстояния. "Панорамирование" может выполняться, как указано на фиг. 4i, для формирования нового описания звукового поля в форме поля, связанного с конкретным местоположением. Тем не менее, для формирования сигналов громкоговорителей, может выполняться панорамирование с использованием панорамирующих усилений, извлекаемых из нового DoA.
В дополнительном варианте осуществления, синтез звукового поля выполняется посредством вращения FOA- или HOA-сигналов источников звука в слое в направлении, заданном посредством новой информации направления относительно компоновки для воспроизведения, масштабирования сигналов источников звука и в завершение ассоциирования сигнала источника звука со слоем с использованием информации расстояния. Это может заменять "панорамирование", как пояснено.
В дополнительном варианте осуществления, рассеянная часть сигнала источника звука суммируется с прямой частью сигнала источника звука, причем прямая часть модифицируется посредством информации расстояния перед суммированием с рассеянной частью.
В дополнительном варианте осуществления, рассеянная часть сигнала источника звука суммируется с выделенным слоем. Сигналы, ассоциированные с этим выделенным слоем, вращаются на основе новой информации направления относительно компоновки для воспроизведения.
В частности, предпочтительно выполнять синтез источников звука в спектральном представлении, в котором новая информация направления вычисляется для каждого частотного бина, в котором информация расстояния вычисляется для каждого частотного бина, и в котором прямой синтез для каждого частотного бина с использованием аудиосигнала для частотного бина выполняется с использованием аудиосигнала для частотного бина, панорамирующего усиления для частотного бина, извлекаемого из новой информации направления, и коэффициента масштабирования для частотного бина, извлекаемого из информации расстояния для частотного бина, выполняется.
Кроме того, синтез рассеянных сигналов выполняется с использованием рассеянного аудиосигнала, извлекаемого из аудиосигнала из частотного бина, и с использованием параметра степени рассеяния, извлекаемого посредством анализа сигналов для частотного бина, и после этого прямой сигнал и рассеянный сигнал комбинируются, чтобы получать синтезированный аудиосигнал для временного или частотного бина, и после этого частотно-временное преобразование выполняется с использованием аудиосигналов для других частотно-временных бинов, чтобы получать синтезированный аудиосигнал временной области в качестве модифицированного звукового поля.
Следовательно, в общем, модуль вычисления звуковых полей выполнен с возможностью синтезировать, для каждого источника звука, звуковое поле, связанное с другим опорным местоположением, например, посредством обработки, для каждого источника, сигнала источника с использованием нового направления для сигнала источника, чтобы получать описание звукового поля сигнала источника, связанного с другим/новым опорным местоположением. Кроме того, сигнал источника модифицируется перед обработкой сигнала источника или после обработки сигнала источника с использованием информации направления. Так же, в завершение, описания звукового поля для источников суммируются между собой, чтобы получать модифицированное звуковое поле, связанное с другим опорным местоположением.
В дополнительном варианте осуществления, модуль вычисления звуковых полей выполняет, альтернативно DirAC-анализу или любому другому анализу источников звука, алгоритм разделения источников. Алгоритм разделения источников, в конечном счете, дает в результате сигналы источников звука, например, во временной области или в частотной области. Рассеянный сигнал затем вычисляется посредством вычитания сигналов источников звука из исходного звукового поля таким образом, что исходное звуковое поле разлагается на рассеянный сигнал и несколько сигналов источников звука, причем каждый сигнал источника звука имеет ассоциированное определенное направление.
В соответствии с предпочтительными вариантами осуществления, формирователь звуковых полей формирует первое описание звукового поля относительно опорного местоположения, причем первое описание звукового поля содержит звуковые данные только из источников звука, расположенных в первом описании звукового поля вокруг опорного местоположения, и формирователь звуковых полей дополнительно формирует второе описание звукового поля относительно опорного местоположения, причем второе описание звукового поля имеет звуковые данные только из второго источника, расположенного во втором объеме вокруг опорного местоположения, при этом второй объем отличается от первого объема. Каждый объем содержит один и предпочтительно более одного источника звука, но метаданные выполнены с возможностью предоставлять пространственное описание первого объема и/или второго объема, которое после этого является применимым ко всем источникам звука в объеме. Когда, например, пространственное описание представляет собой характерное расстояние определенного слоя до опорного местоположения, в таком случае это расстояние используется аналогичным образом для всех источников в слое, чтобы определять, вместе с соответствующей оценкой направления поступления, позицию источника в слое. Тем не менее, позиция в слое определяется только относительно опорной позиции радиальным способом, в то время как расстояние каждого источника в идентичном слое соответствует пространственному описанию или, в конкретном варианте осуществления, характерному расстоянию, ассоциированному с этим объемом/слоем. Следовательно, получается очень эффективное и компактное представление метаданных, которое состоит, типично, в одном значении для произвольного числа источников в слое и, дополнительно, является идентичным для всех подполос частот звукового сигнала. Когда, например, используется анализ звука для звукового поля слоя, в таком случае информация расстояния должна быть идентичной для каждой подполосы частот.
Здесь следует отметить, что каждый объем представляется посредством слоя и, предпочтительно, посредством отдельного слоя таким образом, что объемы не перекрываются.
Таким образом, настоящее изобретение, связанное с многослойным описанием звукового поля, имеет очень компактную вспомогательную информацию, с одной стороны, но, относительно одного описания звукового поля, больший объем служебной информации, поскольку полное описание звукового поля предоставляется для каждого слоя. Когда, например, один слой представляется посредством сигналов в B-формате, в таком случае требуются, для каждого слоя, четыре звуковых компонента, т.е. всенаправленный компонент и три направленных компонента. Когда в силу этого звуковое поле представляется посредством трех слоев, в таком случае, всего, требуются двенадцать звуковых компонентов, т.е. четыре в расчете на слой, когда каждый слой представляется посредством амбиофонических сигналов первого порядка или сигналов в B-формате. Естественно, различные описания звукового поля могут использоваться для различных слоев такого описания звукового поля высшего порядка для слоя, имеющего большее число источников по сравнению с описанием звукового поля, имеющим меньшее число компонентов для слоя, имеющего меньшее число источников.
Тем не менее, с другой стороны, только одна геометрическая информация требуется в качестве метаданных для каждого слоя звукового поля.
В предпочтительных вариантах осуществления, объемы представляют собой сферы или сферические оболочки вокруг опорного местоположения, в то время как, типично, самый нижний слой представляет собой сферу вокруг опорного местоположения, и верхний слой представляет собой сферическую оболочку, протягивающуюся вокруг первого слоя, представленного посредством сферы.
Тем не менее, объем, представленный посредством звукового поля, не должен обязательно представлять собой сферу. Объем, альтернативно, может представлять собой куб, параллелепипедальный элемент либо любую другую, типично трехмерную геометрическую форму. Тем не менее, настоящее изобретение также может применяться в двумерной ситуации таким образом, что объем представляется посредством зоны и, типично, бесконечно малого протяжения в третьей размерности. Таким образом, термин "объем" не только означает истинный трехмерный объем, но также и означает двумерный случай, в котором объем в двумерном случае представляет собой плоскость с бесконечно малым протяжением в третьем направлении. Следовательно, "объем" в двумерном случае должен представлять собой окружность вокруг опорной точки для первого слоя и круговое кольцо вокруг первого "объема", имеющее более высокий характерный радиус, чем характерный радиус первого слоя.
Кроме того, устройство для формирования улучшенного описания звукового поля может не только быть сконфигурировано как вид формирования кодера, из исходного звукового поля, двух или более многослойных описаний звукового поля и ассоциирования с этими описаниями звукового поля пространственных описаний первого объема и/или второго объема. В других вариантах осуществления, устройство для формирования улучшенного описания звукового поля также может реализовываться как транскодер, принимающий описание слоя с метаданными и формирующий новое многослойное описание с новыми метаданными. Когда, например, метаданные для каждого слоя представляются посредством характерного расстояния до опорной точки, и когда транскодированное улучшенное описание звукового поля должно иметь слои с идентичными характерными расстояниями до другой (новой) опорной точки, в таком случае метаданные для улучшенного звукового поля, сформированного посредством транскодера, должны быть идентичными исходным метаданным, но транскодер формирует модифицированное описание звукового поля для каждого слоя, в котором учитываются новые направления отдельных источников, и в котором, дополнительно, новое расстояние источника звука до опорного местоположения учитывается посредством перемещения источника звука из одного слоя в другой, и, конечно, посредством ослабления или усиления сигнала источника звука для источника звука. В частности, ослабление должно предоставляться для сигнала источника звука, когда источник звука перемещается из нижнего слоя в верхний слой, либо, альтернативно, усиление в сигнал источника звука предоставляется, когда источник звука перемещается из верхнего слоя в нижний слой, т.е. ближе к новому опорному местоположению.
Каждое описание звукового поля для каждого слоя может анализироваться посредством любой технологии разделения источников, которая, например, может представлять собой любую полнополосную технологию разделения источников, которая не только формирует сигнал источника из описания слоя, но и, дополнительно, определяет направление поступления этого источника. Альтернативно, его описание звукового поля также может анализироваться посредством DirAC-анализатора, выполняющего частотно-избирательное разделение источников таким образом, что, для каждого частотно-временного бина, вычисляется исходный аудиосигнал, типично вместе со значением степени рассеяния.
Тем не менее, когда дело доходит до вычисления расстояния определенного источника до нового опорного местоположения, информация расстояния, полученная из метаданных для каждого слоя, является идентичной для каждого источника, определенного из определенного описания слоя. Таким образом, в случае широкополосного анализа, в котором, например, два или более источников с различными направлениями поступления определены из описания слоя, информация расстояния является идентичной для каждого источника.
Альтернативно, когда описание звукового поля для слоя анализируется посредством DirAC-анализатора, в таком случае информация расстояния для каждого частотно-временного бина должна быть, снова, идентичной, т.е. должна быть равна опорному расстоянию для соответствующего слоя.
В случае если настоящее изобретение применяется в качестве декодера, т.е. если модуль вычисления звуковых полей вычисляет модифицированное звуковое поле в форме, например, полного направленного компонентного представления, такого как амбиофоническое представление, метаданные требуются только для масштабирования соответствующих звуковых сигналов в зависимости от старого/нового расстояния до опорного местоположения. Далее можно вычислять, для каждого источника звука каждого слоя, определенное амбиофоническое представление, и это амбиофоническое представление вычисляется с использованием нового направления поступления, определенного из старой информации направления поступления, и информации перемещения из старого опорного местоположения в новое опорное местоположение, и после этого каждый сигнал источника должен масштабироваться, чтобы учитывать расстояние источника от более раннего до нового опорного местоположения, и после соответствующего масштабирования, отдельное амбиофоническое представление источников может накладываться друг на друга, чтобы иметь полное амбиофоническое представление звукового поля. Таким образом, такой "декодер" должен быть выполнен с возможностью преобразовывать многослойное представление в одно описание звукового поля относительно нового опорного местоположения, которое затем может дополнительно обрабатываться, к примеру, преобразовываться в сигналы динамиков и т.п.
Альтернативно, модуль вычисления звуковых полей может быть выполнен с возможностью выполнять представление для громкоговорителей для предназначенной компоновки реальных или виртуальных громкоговорителей из каждого отдельного слоя, например, DirAC-синтез описания звукового поля слоя, и после этого отдельные сигналы громкоговорителей из различных слоев могут суммироваться между собой, чтобы в завершение формировать представление для громкоговорителей, которое затем может подготавливаться посредством рендеринга посредством этой предварительно определенной компоновки громкоговорителей, либо которое может даже преобразовываться в бинауральное представление посредством модуля бинаурального рендеринга.
Следовательно, настоящее изобретение может использоваться для формирования многослойного описания звукового поля с метаданными относительно определенного опорного местоположения или для формирования транскодированного улучшенного звукового поля снова с использованием многослойного представления, но теперь со слоями, которые связаны с новым опорным местоположением, либо настоящее изобретение может применяться для декодирования многослойного представления плюс метаданные в определенное описание звукового поля без метаданных, которые связаны с новым опорным местоположением.
Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:
Фиг. 1a является предпочтительным вариантом осуществления устройства для формирования улучшенного описания звукового поля;
Фиг. 1b является иллюстрацией, поясняющей примерную проблему, лежащую в основе настоящего изобретения;
Фиг. 2 является предпочтительной реализацией устройства для формирования улучшенного описания звукового поля;
Фиг. 3a иллюстрирует улучшенное описание звукового поля, содержащее аудиоданные и вспомогательную информацию для аудиоданных;
Фиг. 3b иллюстрирует дополнительную иллюстрацию улучшенного звукового поля, содержащего аудиоданные и метаданные, связанные с пространственной информацией, такой как геометрическая информация для каждого описания слоя;
Фиг. 4a иллюстрирует реализацию устройства для формирования модифицированного описания звукового поля;
Фиг. 4b иллюстрирует дополнительную реализацию устройства для формирования модифицированного описания звукового поля;
Фиг. 4c иллюстрирует многослойный сценарий;
Фиг. 4d иллюстрирует вариант осуществления декодера или варианта 1 транскодера;
Фиг. 4e иллюстрирует модуль рендеринга для отдельного объекта;
Фиг. 4f иллюстрирует вариант осуществления декодера или варианта 2 транскодера;
Фиг. 4g иллюстрирует часть декодера/модуля рендеринга;
Фиг. 4h иллюстрирует часть транскодера;
Фиг. 4i иллюстрирует примерное устройство для формирования описания звукового поля из аудиосигнала, такого как моносигнал, и данных направления поступления;
Фиг. 5 иллюстрирует воспроизведение с шестью DoF пространственного аудио;
Фиг. 6 иллюстрирует предпочтительный вариант осуществления воспроизведения с шестью DoF, содержащий устройство для формирования улучшенного описания звукового поля и устройство для формирования модифицированного описания звукового поля в расчете на слой;
Фиг. 7 иллюстрирует предпочтительную реализацию для вычисления нового DoA и нового расстояния источника звука относительно нового/другого опорного местоположения;
Фиг. 8 иллюстрирует вариант осуществления для определения и применения коэффициентов масштабирования;
Фиг. 9 иллюстрирует другой предпочтительный вариант осуществления воспроизведения с шестью DoF, содержащий устройство для формирования улучшенного описания звукового поля и устройство для формирования модифицированного описания звукового поля в расчете на слой в контексте DirAC в расчете на слой;
Фиг. 10 иллюстрирует предпочтительную реализацию устройства для формирования модифицированного описания звукового поля;
Фиг. 11 иллюстрирует дополнительную предпочтительную реализацию устройства для формирования модифицированного описания звукового поля;
Фиг. 11 иллюстрирует дополнительную предпочтительную реализацию устройства для формирования модифицированного описания звукового поля;
Фиг. 12a иллюстрирует реализацию на основе DirAC-анализа предшествующего уровня техники; и
Фиг. 12b иллюстрирует реализацию на основе DirAC-синтеза предшествующего уровня техники.
Чтобы обеспечивать 6DoF-варианты применения для упомянутых амбиофонических/DirAC-представлений, необходимо расширять эти представления таким способом, который предоставляет отсутствующую информацию для перемещаемой обработки. Следует отметить, что это расширение, например, может 1) добавлять расстояние или позиции объектов в существующее представление сцены и/или 2) добавлять информацию, которая должна упрощать процесс разделения отдельных объектов.
Кроме того, цель вариантов осуществления заключается в том, чтобы сохранять/многократно использовать структуру существующих (непараметрических или параметрических) амбиофонических систем, чтобы предоставлять обратную совместимость с этими представлениями/системами в том смысле, что:
- расширенные представления могут преобразовываться в существующие нерасширенные представления (например, для рендеринга), и
- чтобы обеспечивать возможность многократного использования существующих программных и аппаратных реализаций при работе с расширенным представлением.
Далее описываются несколько подходов, а именно, один ограниченный (но очень простой) подход и три различных расширенных формата амбиофонии, чтобы обеспечивать 6DoF.
Вместо регулярного амбиофонического представления, задаются несколько амбиофонических сигналов (т.е. наборы из нескольких сигналов). Каждый амбиофонический сигнал соответствует конкретному диапазону расстояний звуковой сцены. Диапазоны расстояний могут содержать равномерные сегменты (например, 0-1 метр, 1-2 метра, 2-3 метра, ...,) или неравномерные сегменты (например, 0-1 метр, 1-3 метра, более 3 метров). Неперекрывающиеся диапазоны расстояний могут статически задаваться или быть динамическими в ответ на фактические свойства звуковой сцены и задаются в многослойном формате амбиофонии. Альтернативно, могут задаваться перекрывающиеся диапазоны расстояний вместе с функциями кодирования со взвешиванием. Один из слоев может выделяться отдельно для рассеянного/окружающих звуков, которые не требуют точного описания расстояния, но распределяются по всей звуковой сцене.
Принцип многослойного амбиофонического представления является применимым как для традиционной, так и для параметрической (DirAC-ориентированной) амбиофонии. Пример с тремя слоями показывается на фиг. 4c.
Нижеприведенный текст описывает то, как предложенная многослойная амбиофония может использоваться для того, чтобы реализовывать перемещения.
Вариант I (фиг. 4d): Объекты в каждом амбиофоническом слое формируются посредством применения технологии разделения источников. Также может формироваться окружающий/рассеянный/остаточный амбиофонический сигнал. DoA получается с использованием одномерной/двумерной локализации источников, и расстояние задается посредством метаданных слоя. Следует отметить, что во многих случаях DoA может извлекаться также из фильтров разделения источников, и что существуют способы для того, чтобы выполнять объединенное разделение источников и DoA-оценку.
Каждый одноканальный объект затем подготавливается посредством рендеринга в один или более слоев, как показано на фиг. 4e. Во-первых, DoA и расстояние после перемещения, представленные, соответственно, в качестве DoA' и Distance', вычисляются на основе информации перемещения (например, представленной в качестве вектора) и расстояния между слоями (например, среднего или характерного расстояния этого слоя). Во-вторых, амбиофонический сигнал формируется для объекта на основе DoA'. В-третьих, объект подготавливается посредством рендеринга в соответствующий слой(и) на основе Distance' и расстояния между слоями, из которого извлечен объект. После формирования модифицированных амбиофонических сигналов для всех объектов, i-ый модифицированный амбиофонический слой (i ∈{1..., L}) вычисляется посредством суммирования модифицированного амбиофонического вывода слоя i всех объектов. Окружающий/рассеянный/остаточный амбиофонический сигнал для i-ого слоя непосредственно суммируется с i-ым модифицированным амбиофоническим выводом.
Дополнительно, так называемый фильтр компенсации расстояния может применяться, чтобы компенсировать изменение расстояния. Фильтр может применяться непосредственно к объекту на основе Distance' и расстояния между слоями.
Вариант II (фиг. 4f): Объекты формируются с использованием всех L слоев посредством применения технологии разделения источников. Один окружающий/рассеянный/остаточный амбиофонический сигнал может формироваться также.
Каждый одноканальный объект затем подготавливается посредством рендеринга в один или более слоев, как показано на фиг. 4e. Во-первых, DoA и расстояние после перемещения, представленные, соответственно, в качестве DoA' и Distance', вычисляются на основе информации перемещения (например, представленной в качестве вектора) и расстояния между слоями (например, среднего или характерного расстояния этого слоя). Во-вторых, амбиофонический сигнал формируется для объекта на основе DoA'. В-третьих, объект подготавливается посредством рендеринга в соответствующий слой(и) на основе Distance' и расстояния между слоями, из которого извлечен объект. Дополнительно, так называемый фильтр компенсации расстояния может применяться к каждому объекту, чтобы компенсировать изменение расстояния. После формирования модифицированных амбиофонических сигналов для всех объектов, i-ый модифицированный амбиофонический слой (i ∈{1..., L}) вычисляется посредством суммирования модифицированного амбиофонического вывода слоя i всех объектов. Окружающий/рассеянный/остаточный амбиофонический сигнал для i-ого слоя непосредственно суммируется с i-ым модифицированным амбиофоническим выводом.
Дополнительно, так называемый фильтр компенсации расстояния может применяться, чтобы компенсировать изменение расстояния. Фильтр может применяться непосредственно к объекту на основе Distance' и расстояния между слоями.
Формирование многослойных амбиофонических сигналов является простым для машиногенерируемого и произведенного контента. Менее простым является преобразование естественной записи через массивы микрофонов или пространственные микрофоны (например, микрофон в B-формате) в многослойные амбиофонические сигналы.
Слои могут преобразовываться в традиционный амбиофонический сигнал посредством проецирования, суммирования или низведения. Простое и вычислительно эффективное преобразование показывается на фиг. 4g.
Изменение ориентации может быть реализовано посредством применения независимого от слоя вращения к каждому из многослойных амбиофонических сигналов или посредством применения одного вращения к традиционному амбиофоническому сигналу. Независимое от слоя вращение может выполняться до или после перемещения.
Фиг. 1a иллюстрирует устройство для формирования улучшенного описания звукового поля, содержащего формирователь 100 (описаний) звуковых полей для формирования, по меньшей мере, одного описания звукового поля, указывающего звуковое поле относительно, по меньшей мере, одного опорного местоположения. Кроме того, устройство содержит формирователь 110 метаданных для формирования метаданных, связанных с пространственной информацией звукового поля. Метаданные принимают, в качестве ввода, звукового поля либо, альтернативно или дополнительно, отдельную информацию относительно источников звука.
Вывод формирователя 100 описаний звуковых полей и формирователя 110 метаданных составляют улучшенное описание звукового поля. В варианте осуществления, вывод формирователя 100 описаний звуковых полей и формирователя 110 метаданных может комбинироваться в модуле 120 комбинирования или выходном интерфейсе 120, чтобы получать улучшенное описание звукового поля, которое включает в себя пространственные метаданные или пространственную информацию звукового поля, сформированную посредством формирователя 110 метаданных.
Фиг. 1b иллюстрирует ситуацию, которая разрешается посредством настоящего изобретения. Позиция A, например, представляет собой, по меньшей мере, одно опорное местоположение, и звуковое поле формируется посредством источника A и источника B, и определенный фактический или, например, виртуальный микрофон, расположенный в позиции A, обнаруживает звук из источника A и источника B. Звук представляет собой наложение звука, исходящего из источников исходящего звука. Это представляет описание звукового поля, сформированное посредством формирователя описаний звуковых полей.
Дополнительно, формирователь метаданных должен, посредством определенных реализаций, извлекать пространственную информацию относительно источника A и другую пространственную информацию относительно источника B, такую как расстояния этих источников до опорной позиции, такой как позиция A.
Естественно, опорная позиция, альтернативно, может представлять собой позицию B. Затем фактический или виртуальный микрофон должен быть размещен в позиции B, и описание звукового поля представляет собой звуковое поле, например, представленное посредством амбиофонических компонентов первого порядка или амбиофонических компонентов высшего порядка либо любых других звуковых компонентов, имеющих потенциал для того, чтобы описывать звуковое поле относительно, по меньшей мере, одного опорного местоположения, т.е. позиции B.
Формирователь метаданных после этого может формировать, в качестве информации относительно источников звука, расстояние источника A звука до позиции B или расстояние источника B до позиции B. Альтернативная информация относительно источников звука, конечно, может представлять собой абсолютную или относительную позицию относительно опорной позиции. Опорная позиция может представлять собой начало общей системы координат или может быть расположена в заданной взаимосвязи с началом общей системы координат.
Другие метаданные могут представлять собой абсолютную позицию одного источника звука и относительную позицию другого источника звука относительно первого источника звука и т.д.
Фиг. 2 иллюстрирует устройство для формирования улучшенного описания звукового поля, в котором формирователь звуковых полей содержит формирователь 250 звуковых полей для первого звукового поля, формирователь 260 звуковых полей для второго звукового поля и произвольное число формирователей звуковых полей для одного или более звуковых полей, таких как третье, четвертое и т.д. звуковое поле. Дополнительно, метаданные выполнены с возможностью вычислять и перенаправлять в модуль 120 комбинирования информацию относительно первого звукового поля и второго звукового поля. Вся эта информация используется посредством модуля 120 комбинирования, чтобы формировать улучшенное описание звукового поля. Таким образом, модуль 120 комбинирования также конфигурируется как выходной интерфейс с возможностью формировать улучшенное описание звукового поля.
Фиг. 3a иллюстрирует улучшенное описание звукового поля в качестве потока данных, содержащего первое описание 330 звукового поля, второе описание 340 звукового поля и ассоциированные с ними метаданные 350, содержащие информацию относительно первого описания звукового поля и второго описания звукового поля. Первое описание звукового поля, например, может представлять собой описание в B-формате или описание высшего порядка либо любое другое описание, которое обеспечивает возможность определять направленное распределение источников звука в полнополосном представлении или в частотно-избирательном представлении. Таким образом, первое описание 330 звукового поля и второе описание 340 звукового поля, например, также могут представлять собой параметрические описания звукового поля для отдельных слоев, имеющих, например, сигнал понижающего микширования и данные направления поступления для различных частотно-временных бинов.
Тем не менее, геометрическая информация 350 для первого и второго описаний звукового поля является идентичной для всех источников, включенных в первое описание 330 звукового поля, либо для источников во втором описании 340 звукового поля, соответственно. Таким образом, когда, в качестве примера, существуют три источника в первом описании 330 звукового поля и геометрическая информация относительно первого описания звукового поля, в таком случае эта геометрическая информация является идентичной для трех источников в первом описании звукового поля. Аналогично, когда, например, существуют пять источников во втором описании звукового поля, в таком случае геометрическая информация для второго звукового поля, включенная в метаданные 350, является идентичной для всех источников во втором описании звукового поля.
Фиг. 3b иллюстрирует примерную конструкцию метаданных 350 по фиг. 3a. В варианте осуществления, опорное местоположение 351 может быть включено в метаданные. Тем не менее, это не обязательно имеет место, информация 351 опорной точки также может опускаться.
Для первого звукового поля, предоставляется первая геометрическая информация, которая, например, может представлять собой средний радиус или характерный радиус первого слоя, который, например, должен составлять значение в 0,5 метров примерного варианта осуществления по фиг. 4c, который описывается ниже.
Второе звуковое поле описывается посредством второй геометрической информации 353, которая, например, должна соответствовать среднему радиусу второго слоя, к примеру, двум метрам для варианта осуществления фиг. 4c, поскольку второй слой расширяется с одного метра до трех метров.
Третье звуковое поле должно описываться посредством третьей геометрической информации 354, и характерное расстояние, например, представляет собой "средний радиус" третьего слоя, к примеру, четыре метра и т.п. Естественно, каждое описание звукового поля предпочтительно содержит более одного источника, но случай также может быть таким, что описание звукового поля определенного слоя включает в себя только один источник.
Когда, например, рассматривается фиг. 4c, который иллюстрирует предпочтительный подход на основе многослойной амбиофонии, первый слой протягивается от 0 или на минимальное расстояние, например, 0,5-1 м. Второй слой протягивается от 1 м до 3 м, и третий слой содержит все источники звука, которые имеют расстояние выше 3 м от первой опорной точки, представляющей собой центр трех окружностей, проиллюстрированных на фиг. 4c.
Кроме того, фиг. 4c иллюстрирует то, что два источника 1, 2 звука включаются в слой 1, два источника 3, 4 звука включаются в слой 2, и источники 5 и 6 звука включаются в слой 3.
Как указано, фиг. 3a иллюстрирует пример потока битов или общего потока данных, содержащего улучшенное описание звукового поля. Поток данных может содержать временные кадры i, i+1 и т.д. и связанную вспомогательную информацию для соответствующего временного кадра.
Фиг. 4b иллюстрирует другую реализацию, в которой анализатор звуковых полей 210 на фиг. 2 фактически не формирует понижающее микширование, а формирует полное представление в B-формате или A-формате либо любое другое, такое как представление высшего порядка в течение определенного периода времени.
Фиг. 4c также иллюстрирует новую позицию слушателя. Когда идентичные слои рисуются вокруг новой позиции слушателя, становится очевидным, что источник 1 звука перемещается, вследствие перемещения в новую позицию слушателя, из слоя 1 в слой 3 и в силу этого должен (существенно) ослабляться.
Кроме того, источник 2 звука перемещается из слоя 1 в слой 2 и в силу этого должен также (несущественно) ослабляться.
Кроме того, источник 3 звука перемещается из более раннего слоя 2 в новый слой 3 и в силу этого также должен (несущественно) ослабляться.
Дополнительно, источник 4 звука остается во втором слое и в силу этого не требует ослабления. Кроме того, источник 5 звука также остается в идентичном слое и в силу этого не должен масштабироваться. В завершение, источник 6 звука перемещается из более раннего третьего слоя в новый первый слой и в силу этого должен (существенно) усиливаться.
Следовательно, в общем, когда источник звука перемещается, вследствие перемещения из опорной точки в другую (новую) опорную точку, в таком случае определенный коэффициент масштабирования определяется. Когда, "перемещение" источника звука проходит из верхнего слоя в нижний слой, в таком случае масштабирование представляет собой ослабление, и когда "перемещение" проходит из нижнего слоя в верхний слой, в таком случае масштабирование представляет собой ослабление. Кроме того, когда "перемещение" проходит из одного слоя в следующий слой, в таком случае коэффициент масштабирования составляет несущественный коэффициент масштабирования, такой как несущественное ослабление или несущественное усиление, и когда перемещение проходит не из одного слоя на следующий слой, а из одного слоя в другой слой, который не является смежным слоем относительно одного слоя, т.е. из первого слоя в третий слой или наоборот, в таком случае коэффициент масштабирования является таким, что выполняется более существенное ослабление или усиление.
Когда, например, источник перемещается из третьего слоя во второй слой, и когда примерные значения по фиг. 3b рассматриваются, в таком случае коэффициент масштабирования составляет коэффициент усиления в 2,0, т.е. 4 м, деленные на 2 м. Тем не менее, когда источник звука перемещается из второго слоя в третий слой, в таком случае коэффициент масштабирования составляет 0,5, т.е. 2 м, деленные на 4 м.
Когда, альтернативно, источник звука перемещается из первого слоя в третий слой и при условии примерных чертежей в форме фиг. 3b, в таком случае коэффициент масштабирования составляет 0,1-5, полученный посредством деления 0,5 м на 5 м.
Когда, альтернативно, источник звука перемещается из третьего звукового поля в первое звуковое поле, к примеру, источник 6 звука в варианте осуществления по фиг. 4c, в таком случае коэффициент масштабирования должен составлять 8,0, полученный путем деления 4 м на 0,5 м.
Естественно, хотя эти примеры описываются относительно двумерного случая "объема", проиллюстрированного на фиг. 4c, идентичные соображения также доступны для истинного трехмерного случая объема, когда окружности на фиг. 4c рассматриваются как представляющие сферу для слоя 1 и сферическую оболочку для слоя 2 или слоя 3.
Фиг. 4d иллюстрирует, в общем, реализацию модуля вычисления звуковых полей для устройства для формирования модифицированного описания звукового поля или, альтернативно, для устройства для формирования улучшенного описания звукового поля в контексте представления транскодера. Представление для первого слоя, примерно проиллюстрированное в качестве амбиофонического слоя 1, второе описание звукового поля, проиллюстрированное в качестве амбиофонического слоя 2, и опциональное дополнительное описание звукового поля, проиллюстрированное в амбиофоническом слое L, вводятся в различные блоки 422, 422a, 422b разделения источников и DoA-оценки. Кроме того, используется модуль 450 рендеринга, который выполнен с возможностью рендеринга объектов, найденных посредством процедур в блоках 422, 422a, 422b, в соответствующие "новые" слои. Кроме того, блоки 422, 422a, 422b анализа не только выполнены с возможностью извлекать объектные сигналы и направления поступления для объектных сигналов, но также выполнены с возможностью формировать, из описания звукового поля каждого слоя, окружающий/рассеянный/остаточный сигнал. Этот сигнал, например, может получаться посредством вычитания суммы всех отдельных сигналов источников, извлекаемых посредством процедуры разделения источников, из отдельного представления. Альтернативно, когда разделение 422, 422a, 422b источников сконфигурировано как DirAC-анализ, например, в таком случае рассеянный/окружающий/остаточный сигнал должен представляться, параметрическим способом, посредством параметров степени рассеяния.
Кроме того, фиг. 4d иллюстрирует сумматор 601, 602, 603 для суммирования, с модифицированным амбиофоническим представлением определенного слоя, соответствующего рассеянного сигнала для слоя.
Это выполняется для каждого из слоя 1, слоя 2, слоя L, и вывод на фиг. 4d снова представляет транскодированное улучшенное описание звукового поля, поскольку с различными модифицированными представлениями, выводимыми посредством блока 601, 602, 603, должны быть ассоциированы определенные метаданные с указанием характерного расстояния слоя 1, слоя 2 и слоя L.
Фиг. 4e иллюстрирует, для случая на фиг. 4d, модуль рендеринга для одного объекта или источника. Объект получается, например, посредством блока 422 для первого слоя, либо блок 422a для второго слоя или 422b для L-ого слоя вводится в блок 430 для вычисления амбиофонического сигнала, и блок 430, например, может быть сконфигурирован так, как проиллюстрировано на фиг. 4i. Для вычисления амбиофонического сигнала, новое DoA', т.е. значение направления поступления для источника, которое формируется посредством блока 423, 423a, 423b посредством старого DoA, информации перемещения из исходной опорной позиции в новую позицию слушателя.
Таким образом, новый амбиофонический сигнал для объекта относительно нового DoA' вычисляется и выводится в качестве object'. Таким образом, вывод блока 430 по фиг. 4i, например, должен представлять собой сигнал object'. Кроме того, блок 423, 423a, 423b должен вычислять/определять новое расстояние, как пояснено выше относительно фиг. 4c, и в силу этого, например, должен вычислять коэффициенты масштабирования, как пояснено выше относительно фиг. 4c и примера на фиг. 4b, и после этого блок 810 рендеринга по слоям может быть выполнен с возможностью масштабировать сигнал object', полученный из блока 430, с определенным коэффициентом масштабирования, извлекаемым из старого расстояния (расстояния между слоями) и нового расстояния, и после этого все сигналы, принадлежащие определенному слою 1, 2 или L вокруг новой позиции слушателя по фиг. 4c, , соответственно, могут суммироваться, чтобы снова иметь многослойное представление. Таким образом, относительно варианта осуществления по фиг. 4c, единственный источник, теперь находящийся в слое 1, должен представлять собой первоначальный источник 6, тогда как первоначальные источники 5, 3, 1 должны суммироваться между собой относительно своих амбиофонических представлений после масштабирования, определенных отдельно для каждого источника, чтобы получать сигнал слоя 3, когда L=3, и аналогично, сигнал источника для источников 2, 4 не должен представлять собой сигнал слоя 2, в котором, как проиллюстрировано в таблице на фиг. 4c, источник 4 не требует масштабирования, а источник 2 требует операции масштабирования.
Таким образом, фиг. 4e иллюстрирует то, как объекты определяются для каждого слоя, и после суммирования окружающего/рассеянного/остаточного сигнала посредством сумматора 601, 602, 603, получается полное модифицированное амбиофоническое представление для каждого слоя, и оно затем может выводиться в качестве улучшенного/модифицированного описания звукового поля вместе с ассоциированными метаданными, как проиллюстрировано посредством фиг. 4h.
Тем не менее, альтернативно, амбиофоническое представление для каждого слоя может просто суммироваться друг с другом посредством сумматора 600, проиллюстрированного на фиг. 4g, чтобы преобразовывать многослойное амбиофоническое представление в традиционное амбиофоническое представление, которое затем может быть традиционно подготовлено посредством рендеринга в фактическое представление или представление для громкоговорителей в бинауральное представление.
Другой вариант II, проиллюстрированный на фиг. 4f, отличается от фиг. 4e в том, что только один окружающий/рассеянный/остаточный сигнал формируется из всех отдельных слоев, и только этот один окружающий/рассеянный/остаточный сигнал суммируется посредством сумматоров 604 с самым верхним слоем. Разделение 422c источников и DoA-оценка, например, может выполняться для каждого описания звукового поля для каждого слоя отдельно для каждого слоя, как показано на фиг. 4d. Тем не менее, алгоритм разделения источников и DoA-оценки также может реализовываться, чтобы суммировать все отдельные описания слоев и затем получать описание сигнального слоя и после этого выполнять разделение источников и DoA-оценку для этого одного амбиофонического представления. Тем не менее, предпочтительно проходить отдельно для каждого слоя, и для того, чтобы формировать один рассеянный сигнал, отдельные рассеянные сигналы, получаемые посредством варианта осуществления по фиг. 4d, могут суммироваться между собой в блоке 422c.
Таким образом, вариант II может приводить к абсолютно сухим амбиофоническим представлениям для нижних слоев, и в "мокром" представлении только для самого верхнего слоя, только один рассеянный сигнал суммируется с самым верхним слоем. Естественно, эта процедура является полезной, поскольку рассеянные сигналы в любом случае не масштабируются посредством процедуры расстояния, а используются аналогично тому, как они первоначально определены независимо от того, связано описание звукового поля с исходным опорным местоположением или с соответствующим новым опорным местоположением, например, с позицией слушателя по фиг. 4c.
Фиг. 6 иллюстрирует алгоритм разделения источников для каждого слоя, который, например, может быть сконфигурирован как DirAC-анализ. Далее, рассеянный сигнал, проиллюстрированный на фиг. 6, выводимый посредством блока 422, не должен присутствовать, но этот рассеянный сигнал должен представляться посредством параметра степени рассеяния, т.е. должен параметрически представляться. Соответственно, объектный сигнал должен представлять собой, для DirAC-процедуры, сигнал давления в расчете на частотно-временной бин. Тем не менее, в общем случае, объектный сигнал также может представлять собой полнополосный сигнал.
Первый слой представляется посредством верхней ветви, второй слой представляется посредством ветви в середине фиг. 6, и третий слой представляется посредством ветви в нижней части фиг. 6.
В случае общей процедуры разделения источников, соответствующий синтезатор 425 должен формировать амбиофонический сигнал для каждого слоя, как, например, проиллюстрировано на фиг. 4d или 4f. Затем все эти амбиофонические сигналы могут комбинироваться, как, в общем, пояснено относительно фиг. 4g, и после этого сигнал может подготавливаться посредством рендеринга посредством модуля 427 рендеринга, например, в бинауральном случае, когда сигнал отправляется в наушник, применяемый к голове слушателя в окружении в стиле виртуальной реальности, проиллюстрированном в 500 на фиг. 6.
Фиг. 6 дополнительно указывает на тот факт, что, который процедуры разделения источников, перемещения, формирования амбиофонических сигналов или вращения могут применяться во многих различных порядках.
Хотя на фиг. 6, верхний слой иллюстрирует то, что разделение источников выполняется перед преобразованием с вращением и также перед преобразованием с перемещением/масштабированием объема, средняя ветвь на фиг. 6 указывает то, что разделение 533a источников выполняется перед перемещением 423a в пространстве, и формирование амбиофонических сигналов выполняется посредством блока 425a, но, затем, после этого этапа, преобразование с вращением применяется в блоке 422a.
С другой стороны, нижняя ветвь на фиг. 6 иллюстрирует то, что преобразование 424b с вращением может применяться даже перед разделением 422b источников, но также может применяться после разделения источников, поскольку перемещение головы слушателя, конечно, является идентичным для всех источников слоя и даже для всех источников всех слоев. Кроме того, преобразование 423b с перемещением также может выполняться перед формированием амбиофонических сигналов и даже перед преобразованием с вращением, но не перед разделением источников, поскольку любое перемещение требует направления поступления каждого источника.
В случае амбиофонических сигналов при вводе в модуль 600 комбинирования, и когда вывод модуля 600 комбинирования дополнительно представляет собой традиционный амбиофонический сигнал, например, как поясняется относительно фиг. 4g, далее преобразование с вращением может применяться даже после блока 600, и после этого модуль 427 рендеринга должен подготавливать посредством рендеринга либо непосредственно в бинауральное представление, либо непосредственно в представление для громкоговорителей или в бинауральное представление через представление виртуальных громкоговорителей. Подвергнутое полному преобразованию с перемещением и полному вращению описание звукового поля, которое, тем не менее, более не разделяется на слои, но "характеристики" слоев отменяются вследствие комбинирования в модуле 600 комбинирования.
В этом контексте, из фиг. 6 и фиг. 4e также очевидно, что в случае не просто транскодирования сигнала, а и в случае формирования одного описания звукового поля, "рендеринг 810 по слоям", поясненный в контексте таблицы на фиг. 4c, не является необходимым способом, проиллюстрированным относительно фиг. 4c. Поскольку только одно звуковое поле формируется, неважно то, перемещается или нет источник из одного слоя в другой, и т.п. Вместо этого, только коэффициенты масштабирования требуются, но эти коэффициенты масштабирования могут извлекаться непосредственно из характерных расстояний для слоев или из старого расстояния, заданного посредством информации 350 слоя, и нового расстояния, полученного посредством использования старого расстояния, DoA источника и информации перемещения, как пояснено, например, относительно фиг. 7. Следовательно, то источник изменяется или "перемещается" либо нет из одного слоя в другой, представляет собой проблему только для представления транскодера, но не представляет собой проблему в случае фиг. 4g или фиг. 6.
Фиг. 4a иллюстрирует предпочтительную реализацию устройства для формирования модифицированного описания звукового поля из описания звукового поля и метаданных, связанных с пространственной информацией описания звукового поля. В частности, устройство содержит модуль 420 вычисления звуковых полей, который формирует модифицированное звуковое поле с использованием метаданных, описания звукового поля и информации перемещения, указывающей перемещение из опорного местоположения в другое опорное местоположение.
Когда, например, звуковое поле предоставляется относительно позиции A на фиг. 1b, в таком случае другое опорное местоположение может представлять собой позицию B, и информация перемещения, например, должна представлять собой вектор, указывающий перемещение позиции A в позицию B. Модуль 420 вычисления звуковых полей далее должен вычислять модифицированное звуковое поле, как если оно должно восприниматься посредством слушателя, расположенного в позиции B, и для этого вычисления, модуль вычисления звуковых полей имеет описание звукового поля, связанное с позицией A и информацией перемещения, и, дополнительно, метаданные, связывающие пространственную позицию источника A и источника B.
В варианте осуществления, модуль 420 вычисления звуковых полей соединяется с входным интерфейсом 400 для приема улучшенного описания звукового поля, например, как поясняется относительно фиг. 1a или 2, и входной интерфейс 400 затем разделяет описание звукового поля, с одной стороны, т.е. что сформировано посредством блока 100 по фиг. 1a или блока 210 по фиг. 2. Кроме того, входной интерфейс 400 отделяет метаданные от улучшенного описания звукового поля, т.е. элемента 350 по фиг. 3a или опциональные 351 и 352-354 по фиг. 3b.
Кроме того, интерфейс 410 перемещения получает информацию перемещения и/или дополнительную или отдельную информацию вращения от слушателя. Реализация интерфейса 410 перемещения может представлять собой модуль слежения за положением головы, который отслеживает не только вращение головы в окружении в стиле виртуальной реальности, но также и перемещение головы из одной позиции, т.е. из позиции A на фиг. 1b, в другую позицию, т.е. в позицию B на фиг. 1b.
Фиг. 4b иллюстрирует другую реализацию, аналогичную фиг. 1a, но связанную не со сценарием кодера/декодера, а связанную с общим сценарием, в котором подача метаданных, указываемая посредством модуля 402 подачи метаданных, подача звуковых полей, указываемая посредством модуля 404 подачи звуковых полей, выполняются без определенного входного интерфейса, разделяющего кодированное или улучшенное описание звукового поля, но все выполняются, например, в фактическом существующем сценарии, например, в варианте применения в стиле виртуальной реальности. Тем не менее, настоящее изобретение не ограничено вариантами применения в стиле виртуальной реальности и также может реализовываться в любых других вариантах применения, в которых пространственная аудиообработка звуковых полей, которые связаны с опорным местоположением, является полезной для того, чтобы преобразовывать звуковое поле, связанное с первым опорным местоположением, в другое звуковое поле, связанное с другим вторым опорным местоположением.
Модуль 420 вычисления звуковых полей затем формирует модифицированное описание звукового поля или, альтернативно, формирует представление (виртуальных) громкоговорителей, или формирует бинауральное представление, такое как двухканальное представление для воспроизведения в наушниках. Таким образом, модуль 420 вычисления звуковых полей может формировать, в качестве модифицированного звукового поля, модифицированное описание звукового поля, по существу идентичное описанию исходного звукового поля, но теперь относительно новой опорной позиции. В альтернативном варианте осуществления, представление виртуальных или фактических громкоговорителей может формироваться для предварительно определенной компоновки громкоговорителей, такой как схема 5.1, или компоновки громкоговорителей, имеющей большее число громкоговорителей и, в частности, имеющей трехмерную компоновку громкоговорителей, а не только двумерную компоновку, т.е. компоновку громкоговорителей, имеющую громкоговорители, приподнятые относительно позиции пользователя. Другие варианты применения, которые являются конкретно полезными для вариантов применения в стиле виртуальной реальности, представляют собой варианты применения для бинаурального воспроизведения, т.е. для наушника, который может применяться к голове пользователя виртуальной реальности.
В качестве примера, нижеописанные фиг. 6 или фиг. 9 иллюстрируют ситуацию, в которой DirAC-синтезатор работает только с компонентом понижающего микширования, таким как всенаправленный компонент или компонент давления, тогда как, в дополнительном альтернативном варианте осуществления, проиллюстрированном относительно фиг. 12b, DirAC-синтезатор работает с общими данными звукового поля, т.е. с полным компонентным представлением, имеющим, в этом варианте осуществления на фиг. 12b, описание полей со всенаправленным компонентом w и тремя направленными компонентами x, y, z.
Фиг. 4i иллюстрирует другую реализацию для выполнения синтеза, отличающуюся от DirAC-синтезатора. Когда, например, анализатор звуковых полей формирует, для каждого сигнала источника, отдельный моносигнал S и исходное направление поступления, и когда, в зависимости от информации перемещения, новое направление поступления вычисляется, в таком случае формирователь 430 амбиофонических сигналов по фиг. 4i, например, должен использоваться для того, чтобы формировать описание звукового поля для сигнала источника звука, т.е. моносигнала S, но для новых данных направления поступления (DoA), состоящих из горизонтального угла θ или угла θ подъема и азимутального угла φ. Далее, процедура, выполняемая посредством модуля 420 вычисления звуковых полей по фиг. 4b, должна формировать, например, представление звукового поля на основе амбиофонии первого порядка для каждого источника звука с новым направлением поступления, и после этого дополнительная модификация в расчете на источник звука может выполняться с использованием коэффициента масштабирования в зависимости от расстояния звукового поля до нового опорного местоположения, и после этого все звуковые поля из отдельных источников могут накладываться друг на друга, чтобы в завершение получать модифицированное звуковое поле, снова, например, в амбиофоническом представлении, связанном с определенным новым опорным местоположением.
Когда интерпретируется то, что каждый частотно-временной бин, обработанный посредством DirAC-анализатора 422, 422a, 422b по фиг. 6 или фиг. 9, представляет определенный источник звука (с ограниченной полосой пропускания), в таком случае формирователь 430 амбиофонических сигналов может использоваться, вместо DirAC-синтезатора 425, 425a, 425b, для того чтобы формировать, для каждого частотно-временного бина, полное амбиофоническое представление с использованием сигнала понижающего микширования или сигнала давления или всенаправленного компонента для этого частотно-временного бина в качестве "моносигнала S" по фиг. 4i. Далее, отдельное частотно-временное преобразование в частотно-временном преобразователе для каждого из W-, X-, Y-, Z-компонента в таком случае должно приводить к описанию звукового поля, отличающемуся от того, что проиллюстрировано на фиг. 4c.
Далее приводятся дополнительные варианты осуществления. Цель состоит в том, чтобы получать виртуальный бинауральный сигнал в позиции слушателя с учетом сигнала в исходной позиции записи и информации относительно расстояний источников звука от позиции записи. Физические источники предположительно должны быть разделимыми посредством своего угла относительно позиции записи.
Сцена записывается из точки обзора (PoV) микрофона, причем эта позиция используется в качестве начала опорной системы координат. Сцена должна воспроизводиться из PoV слушателя, который отслеживается в 6DoF, см. фиг. 5. Один источник звука показывается здесь для иллюстрации, взаимосвязь применима для каждого частотно-временного бина.
Фиг. 5 иллюстрирует 6DoF-воспроизведение пространственного аудио. Источник звука записывается посредством микрофона с DoA rr на расстоянии dr относительно позиции и ориентации микрофонов (черная линия и дуга). Оно должно воспроизводиться относительно перемещающегося слушателя с DoA rl и расстоянием dl (штриховая линия). Это должно учитывать перемещение l в пространстве и вращение o слушателей (точечная линия).
Источник звука в координатах dr∈ℝ3 записывается из направления поступления (DoA), выражаемого посредством единичного вектора. Это DoA может оцениваться из анализа записи. Оно исходит из расстояния . Предполагается, что эта информация включается в метаданные для каждого слоя в качестве расстояния между слоями или, в общем, в качестве элемента 352, 353, 354 по фиг. 3b и может представляться как информация расстояния в форме карты m(l, r) глубины, преобразующей каждый источник l слоя, имеющего любое направление r, из позиции записи в расстояние (например, приведенное в метрах и т.п.) слоя от опорной точки.
Слушатель отслеживается в 6DoF. В данное время, он находится в позиции l ∈ ℝ3 относительно микрофона и имеет вращение o ∈ ℝ3 относительно системы координат микрофонов. Позиция записи выбирается в качестве начала системы координат, чтобы упрощать систему обозначений.
Таким образом, звук должен воспроизводиться с другим расстоянием d1, приводящим к измененной громкости и другому DoA r1, которое представляет собой результат как перемещения, так и последующего вращения.
Ниже приводится способ для получения виртуального сигнала из перспективы слушателей посредством выделенных преобразований на основе параметрического представления, как пояснено в следующем разделе.
Предложенный способ основан на базовом DirAC-подходе для параметрического пространственного кодирования звука (см. [16]). Предполагается, что предусмотрен один доминирующий прямой источник в расчете на частотно-временной экземпляр проанализированного спектра, и они могут обрабатываться независимо. Запись преобразуется в частотно-временное представление с использованием кратковременного преобразования Фурье (STFT). Индекс временного кадра обозначается с помощью n, а частотный индекс - с помощью k. Преобразованная запись затем анализируется, оценивая направления rr(k, n) и степень рассеяния ψ(k, n) для каждого частотно-временного бина комплексного спектра P(k, n). В синтезе, сигнал разделяется на прямую и рассеянную часть. Здесь, сигналы громкоговорителей вычисляются посредством панорамирования прямой части в зависимости от позиций динамиков и суммирования рассеянной части.
Способ для преобразования FOA-сигнала согласно перспективе слушателей в 6DoF может разделяться на пять этапов, см. фиг. 6.
Фиг. 6 иллюстрирует способ 6DoF-воспроизведения. Записанный FOA-сигнал в B-формате обрабатывается посредством DirAC-кодера, который вычисляет значения направления и степени рассеяния для каждого частотно-временного бина комплексного спектра. Вектор направления затем преобразуется посредством отслеживаемой позиции слушателя, и согласно информации расстояния, приведенной на карте расстояний для каждого слоя. Результирующий вектор направления затем вращается согласно вращению головы. В завершение, сигналы для каналов 8+4 виртуальных громкоговорителей синтезируются в DirAC-декодере. Они затем бинаурализируются.
В варианте осуществления, входной сигнал анализируется в DirAC-кодере 422, информация расстояния добавляется из карты m(l) расстояний, предоставляющей расстояние для каждого слоя, после чего отслеживаемое перемещение и вращение слушателя применяются в новых преобразованиях 423 и 424. DirAC-декодер 425 синтезирует сигналы для 8+4 виртуальных громкоговорителей, которые в свою очередь бинаурализируются 427 для воспроизведения в наушниках. Следует отметить, что поскольку вращение звуковой сцены после перемещения является независимой операцией, оно альтернативно может применяться в модуле бинаурального рендеринга. Единственный параметр, преобразованный для 6DoF, представляет собой вектор направления. Посредством определения модели, рассеянная часть предположительно является изотропной и гомогенной и в силу этого оставляется без изменений.
Ввод в DirAC-кодер представляет собой звуковой FOA-сигнал в представлении в B-формате. Он состоит из четырех каналов, т.е. всенаправленного звукового давления и трех пространственных градиентов первого порядка, которые при определенных допущениях являются пропорциональными скорости частиц. Этот сигнал кодируется параметрическим способом, см. [18]. Параметры извлекаются из комплексного звукового давления P(k, n), которое представляет собой преобразованный всенаправленный сигнал, и комплексного вектора скорости частиц [UX(k, n), UY(k, n), UZ(k, n)]T, соответствующего преобразованным сигналам градиента.
DirAC-представление состоит из сигнала P(k, n), степени рассеяния ψ(k, n) и направления r(k, n) звуковой волны в каждом частотно-временном бине. Чтобы извлекать последнее из означенного, во-первых, активный вектор Ia(k, n) интенсивности звука вычисляется в качестве действительной части (обозначаемой посредством Re(·)) произведения вектора давления с комплексно-сопряженным числом (обозначаемым посредством (·)*) вектора скорости [18]:
(1)
Степень рассеяния оценивается из коэффициента варьирования этого вектора [18]:
,
(2)
где обозначает оператор математического ожидания вдоль временных кадров, реализованный в качестве скользящего среднего.
Поскольку он предназначен для того, чтобы манипулировать звуком с использованием карты расстояний на основе направления, имеющей расстояние для каждого источника слоя до опорного местоположения, дисперсия оценок направлений должна быть низкой. Поскольку кадры типично являются короткими, это не всегда имеет место. Следовательно, скользящее среднее применяется, чтобы получать сглаженную оценку (k, n) направления. DoA прямой части сигнала затем вычисляется в качестве вектора единичной длины в противоположном направлении:
(3)
Поскольку направление кодируется как трехмерный вектор единичной длины для каждого частотно-временного бина, проще всего интегрировать информацию расстояния. Векторы направления умножаются на свою соответствующую запись карты таким образом, что длина вектора представляет расстояние dr(k, n) соответствующего источника звука:
= (k, n)),
(4)
где dr(k, n) является вектором, указывающим из позиции записи микрофона в источник звука, активный во временном n и частотном k бине.
Позиция слушателя задается посредством системы отслеживания для текущего кадра обработки в качестве l(n). В силу векторного представления, позиций источников можно вычитать позиционный вектор l(n) отслеживания, чтобы давать в результате новый, перемещенный вектор d1(k, n) направления с длиной , см. фиг. 7. Расстояния от PoV слушателя до источников звука извлекаются, и DoA адаптируются за один этап:
(5)
Важный аспект реалистичного воспроизведения представляет собой ослабление расстояния. Ослабление предположительно представляет собой функцию расстояния между источником звука и слушателем [19]. Длина векторов направления должна кодировать ослабление или усиление для воспроизведения. Расстояние до позиции записи кодируется в dr(k, n) согласно карте расстояний, и расстояние, которое должно воспроизводиться, кодируется в d1(k, n). Если векторы в единичную длину нормализуются, а затем выполняется умножение на отношение старого и нового расстояния, видно, что требуемая длина задается посредством деления d1(k, n) на длину исходного вектора:
(6)
Изменения ориентации слушателя применяются на следующем этапе. Ориентация, предоставленная посредством отслеживания, может записываться в качестве вектора, состоящего из наклона в продольном направлении, наклона относительно вертикальной оси и наклона в поперечном направлении T относительно позиции записи в качестве начала координат. Направление источника вращается согласно ориентации слушателя, которая реализуется с использованием двумерных матриц вращения:
(7)
Результирующее DoA для слушателя затем предоставляется посредством вектора, нормализованного в единичную длину:
(8)
Преобразованный вектор направления, степень рассеяния и комплексный спектр используются для того, чтобы синтезировать сигналы для равномерно распределенной компоновки 8+4 виртуальных громкоговорителей. Восемь виртуальных динамиков расположены в азимутальных шагах на 45° на плоскости слушателя (с подъемом 0°), а четыре - в перекрестном формировании на 90° выше при подъеме в 45°. Синтез разбивается на прямую и рассеянную часть для каждого канала громкоговорителя, где является числом громкоговорителей [16]:
(9)
Для прямой части, амплитудное панорамирование на основе краевого затухания (EFAP) применяется, чтобы воспроизводить звук из направления вправо, с учетом геометрии виртуальных громкоговорителей [20]. С учетом DoA-вектора rp(k, n), это предоставляет панорамирующее усиление Gi(r) для каждого канала i виртуального громкоговорителя. Зависимое от расстояния усиление для каждого DoA извлекается из результирующей длины вектора направления, dp(k, n). Прямой синтез для канала i становится следующим:
,
(10)
где экспонента γ является коэффициентом настройки, который типично задается равным приблизительно 1 [19]. Следует отметить, что при γ=0 зависимое от расстояния усиление выключается.
Давление используется для того, чтобы формировать I декоррелированных сигналов , Эти декоррелированные сигналы суммируются с отдельными каналами громкоговорителей в качестве рассеянного компонента. Это придерживается стандартного способа [16]:
(11)
Рассеянная и прямая часть каждого канала суммируются между собой, и сигналы преобразуются обратно во временную область посредством обратного STFT. Эти канальные сигналы временной области свертываются с HRTF для левого и правого уха в зависимости от позиции громкоговорителя, чтобы создавать бинаурализированные сигналы.
Фиг. 8 иллюстрирует предпочтительную реализацию реализации транскодера, которая работает, например, без характерных расстояний, но с общими определениями коэффициентов масштабирования, которые извлекаются не из расстояний слоев, а только из того, перемещается или нет источник из слоя в другой слой, который является смежным или не является смежным с более ранним слоем. Таким образом, этап 800 выполнен с возможностью определять то, остается источник в идентичном слое или нет. Если определяется то, что идентичный слой представляет собой результат, как, например, для источников 4 и 5, то этап 802 должен определять то, что конкретное масштабирование объектного сигнала для нового направления поступления не требуется, и "коэффициент масштабирования", указывающий отсутствие масштабирования, должен задаваться равным 1, либо альтернативно, может просто помечаться или уведомляться каким-либо способом то, что для такого источника не должно выполняться масштабирование.
Тем не менее, когда определяется то, что источник перемещается в нижний слой, в таком случае этап 804 должен определять коэффициент масштабирования, превышающий 1. Это определение может выполняться посредством использования характерных расстояний двух слоев, т.е. исходного слоя и целевого слоя. Тем не менее, также может использоваться определенный коэффициент масштабирования, который составляет, например, между 1 и 2, когда перемещение осуществляется из одного слоя в смежный слой, и который, например, равен 4, когда источник перемещается посредством двух слоев, и т.д.
Фиг. 8 кроме того иллюстрирует ситуацию на этапе 806, на котором источник перемещается в верхний слой, например, в качестве источника 1, 2, 3. В таком случае, для этого источника должен определяться коэффициент масштабирования, который ниже 1. С другой стороны, коэффициент масштабирования может определяться из характерного расстояния, как пояснено выше, но также альтернативно может получаться посредством использования фиксированных коэффициентов масштабирования, которые зависят от того, сколько слоев перемещено вследствие перемещения из исходного опорного местоположения в новое опорное местоположение или позицию слушателя. Когда, например, перемещение осуществляется только посредством одного слоя, в таком случае может использоваться средний коэффициент масштабирования, к примеру, между 0,5 и 1, и когда перемещение осуществляется посредством двух или более слоев, в таком случае может использоваться более высокий коэффициент масштабирования между 0,1 и 0,5.
Процессор/масштабирование 808 объектных сигналов затем либо должен применять масштабирование к объектному сигналу перед формированием амбиофонии, либо должен применять масштабирование ко всем компонентам амбиофонического представления, чтобы в завершение получать обработанный объектный сигнал в монопредставлении в расчете на источник или в амбиофоническом представлении.
Фиг. 9 иллюстрирует дополнительный вариант осуществления, который является аналогичным фиг. 6, но в котором отдельные блоки 422, 422a, 422b, например, фиг. 4d реализуются как реализации DirAC-кодера/декодера. Затем результат может представлять собой отдельные сигналы каналов громкоговорителей или амбиофонические сигналы, или любые другие представления сигналов, например, для транскодера. Тем не менее, когда вывод представляет собой канальные сигналы или даже бинауральные сигналы, в таком случае эти соответствующие сигналы могут суммироваться между собой в модуле 600 комбинирования, чтобы представлять и одно описание звукового поля, которое затем может подготавливаться посредством рендеринга в блоке 427 посредством дальнейшей процедуры.
Фиг. 10 иллюстрирует дополнительную предпочтительную реализацию модуля 420 вычисления звуковых полей. Процедура, проиллюстрированная на фиг. 10, выполняется для каждого слоя отдельно. Единственное отличие заключается в том, что для каждого слоя используется различная информация 350 слоя, и эта информация слоя является идентичной для каждого источника в слое. Информация слоя считывается из метаданных посредством модуля 1120 определения расстояния, который формирует значение расстояния. Если метаданные уже включают в себя расстояние в метрах и т.п., то этап 1120 просто извлекает данные из потока данных или независимо ни от чего перенаправляет эту информацию на этап 1140. Следовательно, идентичная информация расстояния для каждого DoA каждого источника в идентичном слое формируется и используется посредством этапа 1140.
На основе описания звукового поля, полнополосное направление поступления или направление поступления в расчете на полосу частот определяется на 1100. Эта информация направления поступления представляет данные направления поступления звукового поля. На основе этих данных направления поступления, преобразование с перемещением выполняется на этапе 1110. С этой целью, этап 1120 извлекает метаданные для описания звукового поля для слоя. На основе данных, этап 1110 формирует новые данные направлении поступления для звукового поля, которые, в этой реализации, зависят только от перемещения из опорного местоположения в другое опорное местоположение. С этой целью, этап 1110 принимает сформированную информацию перемещения, например, посредством отслеживания в контексте реализации в стиле виртуальной реальности.
Предпочтительно или альтернативно, также используются данные вращения. С этой целью, этап 1130 выполняет преобразование с вращением с использованием информации вращения. Когда выполняется как перемещение, так и вращение, в таком случае предпочтительно выполнять преобразование с вращением после вычисления новых DoA звукового поля, которые уже включают в себя информацию из перемещения и расстояния между слоями из этапа 1120.
Затем, на этапе 1140 формируется новое описание звукового поля. С этой целью, может использоваться описание исходного звукового поля, либо, альтернативно, могут использоваться сигналы источников, которые разделены от описания звукового поля посредством алгоритма разделения источников, либо могут использоваться любые другие варианты применения. По существу, новое описание звукового поля, например, может представлять собой направленное описание звукового поля, полученное посредством амбиофонического формирователя 430 или сформированное посредством DirAC-синтезатора 425, либо может представлять собой бинауральное представление, сформированное из представления виртуальных динамиков в последующем бинауральном рендеринге.
Предпочтительно, как проиллюстрировано на фиг. 10, расстояние согласно направлению поступления также используется в формировании нового описания звукового поля, чтобы адаптировать громкость или уровень громкости определенного источника звука к новому местоположению, т.е. к новому или другому опорному местоположению.
Хотя фиг. 10 иллюстрирует ситуацию, в которой преобразование с вращением выполняется после преобразования с перемещением, следует отметить, что порядок может отличаться. В частности, преобразование с вращением может применяться к DoA звукового поля, сформированным посредством этапа 1100, и после этого применяется дополнительное преобразование с перемещением, которое обусловлено перемещением субъекта из опорного местоположения в другое опорное местоположение.
После того, как DoA звукового поля определены посредством этапа 1100, информация расстояния получается из метаданных с использованием этапа 1120, и эта информация расстояния затем используется посредством формирования нового описания звукового поля на этапе 1140 для учета измененного расстояния и в силу этого измененного уровня громкости определенного источника относительно определенного опорного местоположения. По существу, можно сказать, что в случае, если расстояние становится большим, в таком случае конкретный сигнал источника звука ослабляется, в то время как, когда расстояние становится короче, таком случае сигнал источника звука усиливается. Естественно, ослабление или усиление определенного источника звука в зависимости от расстояния осуществляется пропорционально изменению расстояния, но, в других вариантах осуществления, менее комплексные операции могут применяться к этому усилению или ослаблению сигналов источников звука в достаточно приблизительных приращениях. Даже такая менее комплексная реализация предоставляет превосходные результаты по сравнению с ситуацией, когда любое изменение расстояния полностью игнорируется.
Фиг. 7 иллюстрирует предпочтительную реализацию модуля 420 вычисления звуковых полей. На этапе 1102, выполняется вычисление разделения источников и направления поступления или, в общем, информации направления для каждого источника. Затем, на этапе 1104, вектор направления поступления, например, умножается на вектор информации расстояния, т.е. вектор из исходного опорного местоположения в источник звука, т.е. вектор из элемента 520 в элемент 510 по фиг. 5,. Затем, на этапе 1106, информация перемещения, т.е. вектор из элемента 520 в элемент 500 по фиг. 5 принимается во внимание, чтобы вычислять новый перемещенный вектор направления, который представляет собой вектор из позиции 500 слушателя в позицию 510 источника звука. Затем вектор нового направления поступления с корректной длиной, указываемой посредством dv, вычисляется на этапе 1108. Этот вектор направляется в направлении, идентичном направлению dr, но имеет другую длину, поскольку длина этого вектора отражает тот факт, что источник 510 звука записывается в исходном звуковом поле с определенной громкостью, и в силу этого длина dv более или менее указывает изменение уровня громкости. Это получается путем деления вектора dl на расстояние dr до плоскости записи, т.е. на длину вектора dr из микрофона 520 в источник 510 звука.
Когда, как показано на фиг. 5, воспроизведенное расстояние превышает записанное расстояние, в таком случае длина dv ниже единичной. Это должно приводить к ослаблению источника 510 звука для воспроизведения в новой позиции слушателя. Тем не менее, когда воспроизведенное расстояние dl меньше записанного расстояния, в таком случае длина dv, вычисленная посредством этапа 1108, больше 1, и соответствующий коэффициент масштабирования должен приводить к усилению источника звука.
Фиг. 11 иллюстрирует дополнительную предпочтительную реализацию модуля вычисления звуковых полей.
На этапе 1200, отдельные источники из звукового поля определяются, например, в расчете на полосу частот или в полной полосе частот. Когда выполняется определение в расчете на кадр и полосу частот, то это может осуществляться посредством DirAC-анализа. Если выполняется полнополосное или подполосное определение, то это может осуществляться посредством какого-либо вида полнополосного или подполосного алгоритма разделения источников.
На этапе 1210, перемещение и/или вращение слушателя определяется, например, посредством слежения за положением головы.
На этапе 1220, старое расстояние для каждого источника определяется посредством использования метаданных и, например, посредством использования метаданных для слоя, таких как характерное расстояние. Таким образом, каждая полоса частот считается определенным источником (при условии, что степень рассеяния ниже определенного порогового значения), и после этого определяется определенное расстояние для каждого частотно-временного бина, имеющего низкое значение степени рассеяния.
Затем на этапе 1230, новое расстояние в расчете на источник получается, например, посредством векторного вычисления в расчете на полосу частот, которое, например, поясняется в контексте фиг. 7, либо с использованием процедуры по фиг. 8, базирующейся на обнаружении изменения слоя.
Кроме того, как проиллюстрировано на этапе 1240, старое направление в расчете на источник определяется, например, посредством DoA-вычисления, полученного в DirAC-анализе, либо, например, посредством анализа информации направления поступления или направления в алгоритме разделения источников.
Затем, на этапе 1250, новое направление в расчете на источник определяется, например, посредством выполнения векторного вычисления в расчете на полосу частот или в полной полосе частот.
После этого, на этапе 1260, новое звуковое поле формируется для перемещенного и вращаемого слушателя. Это может осуществляться, например, посредством масштабирования прямой части в расчете на один канал в DirAC-синтезе. В зависимости от конкретной реализации, модификация расстояния может выполняться на этапах 1270a, 1270b или 1270c, помимо или альтернативно выполнению модификации расстояния на этапе 1260.
Когда, например, определяется то, что звуковое поле имеет только один источник, в таком случае модификация расстояния может уже выполняться на этапе 1270a.
Альтернативно, когда отдельные сигналы источников вычисляются посредством этапа 1200, в таком случае модификация расстояния может выполняться для отдельных источников на этапе 1270b, до того, как фактическое новое звуковое поле формируется на этапе 1260.
Дополнительно, когда формирование звуковых полей на этапе 1260, например, подготавливает посредством рендеринга не сигнал компоновки громкоговорителей или бинауральный сигнал, а другое описание звукового поля, например, с использованием амбиофонического кодера или модуля 430 вычисления, в таком случае модификация расстояния также может выполняться после формирования на этапе 1260, что означает на этапе 1270c. В зависимости от реализации, модификация расстояния также может быть распределена в несколько модулей модификации, так что, в конечном счете, определенный источник звука имеет определенный уровень громкости, который направляется посредством разности между исходным расстоянием между источником звука и опорным местоположением и новым расстоянием между источником звука и другим опорным местоположением.
Фиг. 12a иллюстрирует DirAC-анализатор, как первоначально раскрыто, например, в более раннем противопоставленном материале "Directional Audio Coding" из IWPASH 2009 года.
DirAC-анализатор содержит гребенку 1310 полосовых фильтров, энергоанализатор 1320, анализатор 1330 интенсивности, блок 1340 временного усреднения и модуль 1350 вычисления степени рассеяния и модуль 1360 вычисления направления.
В DirAC, как анализ, так и синтез выполняется в частотной области. Предусмотрено несколько способов для разделения звука на полосы частот, каждая из которых имеет отличительные свойства. Наиболее часто используемые преобразования частоты включают в себя кратковременное преобразование Фурье (STFT) и гребенку квадратурных зеркальных фильтров (QMF). В дополнение к ним, имеется полная свобода в том, чтобы проектировать гребенку фильтров с произвольными фильтрами, которые оптимизируются под любые конкретные цели. Независимо от выбранного частотно-временного преобразования, проектная цель заключается в том, чтобы имитировать разрешение человеческого пространственного слуха. Цель направленного анализа заключается в том, чтобы оценивать в каждой полосе частот направление поступления звука, вместе с оценкой того, поступает либо нет звук из одного или более направлений одновременно. В принципе, это может выполняться с помощью ряда технологий; тем не менее, выявлено, что энергетический анализ звукового поля является подходящим, что проиллюстрировано на фиг. 12a. Энергетический анализ может выполняться, когда сигнал давления и сигналы скорости в одной, двух или три размерностях захватываются из одной позиции. В сигналах в B-формате первого порядка, всенаправленный сигнал называется W-сигналом, который понижающе масштабирован посредством квадратного корня двух. Звуковое давление может оцениваться в качестве , выражаемого в STFT-области.
X-, Y- и Z-каналы имеют диаграмму направленности диполя, направленного вдоль декартовой оси, которые формируют вместе вектор u=[X, Y, Z]. Вектор оценивает вектор скорости звукового поля и также выражается в STFT-области. Энергия E звукового поля вычисляется. Захват сигналов в B-формате может получаться либо с совпадающим позиционированием направленных микрофонов, либо с близкорасположенным набором всенаправленных микрофонов. В некоторых вариантах применения, сигналы микрофонов могут формироваться в вычислительной области, т.е. моделироваться.
Направление звука задается в качестве противоположного направления вектора I интенсивности. Направление обозначается как соответствующие значения углового азимута и подъема в передаваемых метаданных. Степень рассеяния звукового поля также вычисляется с использованием оператора математического ожидания вектора интенсивности и энергии. Результат этого уравнения представляет собой действительнозначное число между нулем и единицей, отличающее то, поступает звуковая энергия из одного направления (степень рассеяния равна нулю) или из всех направлений (степень рассеяния равна единице). Эта процедура является надлежащей в случае, когда доступна полная трехмерная (или меньшей размерности) информация скорости.
Фиг. 12b иллюстрирует DirAC-синтез, снова имеющий гребенку 1370 полосовых фильтров, блок 1400 виртуальных микрофонов, блок 1450 прямого/синтезатора рассеянных сигналов и определенную компоновку громкоговорителей или виртуальную предназначенную компоновку 1460 громкоговорителей. Дополнительно, используются модуль 1380 преобразования степени рассеяния в усиление, блок 1390 обработки таблиц усилений на основе векторного амплитудного панорамирования (VBAP), блок 1420 компенсации микрофонов, блок 1430 усреднения усиления громкоговорителей и модуль 1440 распределения для других каналов.
В этом DirAC-синтезе с громкоговорителями, высококачественная версия DirAC-синтеза, показанного на фиг. 12b, принимает все сигналы в B-формате, для которых сигнал виртуального микрофона вычисляется для каждого направления громкоговорителя компоновки 1460 громкоговорителей. Используемая диаграмма направленности типично является диполем. Сигналы виртуальных микрофонов затем модифицируются нелинейным способом, в зависимости от метаданных. Версия с низкой скоростью передачи битов DirAC не показана на фиг. 12b; тем не менее, в этой ситуации, передается только один канал аудио, как проиллюстрировано на фиг. 6. Различие в обработке заключается в том, что все сигналы виртуальных микрофонов должны заменяться посредством одного принимаемого канала аудио. Сигналы виртуальных микрофонов разделяются на два потока: рассеянные и нерассеянные потоки, которые обрабатываются отдельно.
Нерассеянный звук воспроизводится в качестве точечных источников посредством использования векторного амплитудного панорамирования (VBAP). При панорамировании, монофонический звуковой сигнал применяется к поднабору громкоговорителей после умножения с конкретными для громкоговорителя коэффициентами усиления. Коэффициенты усиления вычисляются с использованием информации компоновки громкоговорителей и указываемого направления панорамирования. В версии с низкой скоростью передачи битов, входной сигнал просто панорамируется в направления, подразумеваемые посредством метаданных. В высококачественной версии, каждый сигнал виртуального микрофона умножается на соответствующий коэффициент усиления, что формирует идентичный эффект с панорамированием; тем не менее, он менее подвержен нелинейным артефактам.
Во многих случаях, направленные метаданные подвергаются резким временным изменениям. Чтобы не допускать артефактов, коэффициенты усиления для громкоговорителей, вычисленные с помощью VBAP, сглаживаются посредством временной интеграции с частотно-зависимыми постоянными времени, равными приблизительно 50 периодам цикла в каждой полосе частот. Это эффективно удаляет артефакты; тем не менее, изменения направления не воспринимаются как более медленные, чем без усреднения, в большинстве случаев.
Цель синтеза рассеянного звука состоит в том, чтобы создавать восприятие звука, который окружает слушателя. В версии с низкой скоростью передачи битов, рассеянный поток воспроизводится посредством декорреляции входного сигнала и его воспроизведения из каждого громкоговорителя. В высококачественной версии, сигналы виртуальных микрофонов рассеянного потока являются уже некогерентными в определенной степени, и они должны декоррелироваться только немного. Этот подход предоставляет лучшее пространственное качество для реверберации объемного звучания и окружающего звука, чем версия с низкой скоростью передачи битов.
Для DirAC-синтеза с наушниками, DirAC формулируется с определенным количеством виртуальных громкоговорителей вокруг слушателя для нерассеянного потока и определенным числом громкоговорителей для рассеянного потока. Виртуальные громкоговорители реализуются как свертка входных сигналов с измеренными передаточными функциями восприятия звука человеком (HRTF).
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.
Изобретаемое улучшенное описание звукового поля может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных или может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат энергонезависимый носитель хранения данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Литературные ссылки
[1] Liitola, T., Headphone sound externalization, Ph.D. thesis, Helsinki University of Technology. Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing., 2006.
[2] Blauert, J., Spatial Hearing - Revised Edition: The Psychophysics of Human Sound Localization, The MIT Press, 1996, ISBN 0262024136.
[3] Zhang, W., Samarasinghe, P. N., Chen, H., and Abhayapala, T. D., “Surround by Sound: A Re-view of Spatial Audio Recording and Reproduction,” Applied Sciences, 7(5), стр. 532, 2017.
[4] Bates, E. and Boland, F., “Spatial Music, Virtual Reality, and 360 Media,” in Audio Eng. Soc. Int. Conf. on Audio for Virtual and Augmented Reality, Лос Анджелес, Калифорния, США, 2016.
[5] Anderson, R., Gallup, D., Barron, J. T., Kontkanen, J., Snavely, N., Esteban, C. H., Agarwal, S., and Seitz, S. M., “Jump: Virtual Reality Video,” ACM Transactions on Graphics, 35(6), стр. 198, 2016.
[6] Merimaa, J., Analysis, Synthesis, and Perception of Spatial Sound: Binaural Localization Modeling and Multichannel Loudspeaker Reproduction, Ph.D. thesis, Helsinki University of Technology, 2006.
[7] Kronlachner, M. and Zotter, F., “Spatial Transformations for the Enhancement of Ambisonics Recordings,” in 2nd International Conference on Spatial Audio, Эрланген, Германия, 2014.
[8] Tsingos, N., Gallo, E., and Drettakis, G., “Perceptual Audio Rendering of Complex Virtual Environments,” ACM Transactions on Graphics, 23(3), стр. 249-258, 2004.
[9] Taylor, M., Chandak, A., Mo, Q., Lauterbach, C., Schissler, C., and Manocha, D., “Guided multi-view ray tracing for fast auralization,” IEEE Trans. Visualization & Comp. Graphics, 18, стр. 1797- 1810, 2012.
[10] Rungta, A., Schissler, C., Rewkowski, N., Mehra, R., and Manocha, D., “Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments,” IEEE Trans. Visualization & Comp. Graphics, 24(4), стр. 1613-1622, 2018.
[11] Thiergart, O., Kowalczyk, K., and Habets, E. A. P., “An Acoustical Zoom based on Informed Spatial Filtering,” in Int. Workshop on Acoustic Signal Enhancement, стр. 109-113, 2014.
[12] Khaddour, H., Schimmel, J., and Rund, F., “A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,” Radioengineering, 24(2), 2015.
[13] Ziegler, M., Keinert, J., Holzer, N., Wolf, T., Jaschke, T., op het Veld, R., Zakeri, F. S., and Foessel, S., “Immersive Virtual Reality for Live-Action Video using Camera Arrays,” in IBC, Амстердам, Нидерланды, 2017.
[14] Thiergart, O., Galdo, G. D., Taseska, M., and Habets, E. A. P., “Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,” IEEE Trans. Audio, Speech, Language Process., 21(12), стр. 2583-2594, 2013.
[15] Kowalczyk, K., Thiergart, O., Taseska, M., Del Galdo, G., Pulkki, V., and Habets, E. A. P., “Parametric Spatial Sound Processing: A Flexible and Efficient Solution to Sound Scene Acquisition, Modification, and Reproduction,” IEEE Signal Process. Mag., 32(2), стр. 31-42, 2015.
[16] Pulkki, V., “Spatial Sound Reproduction with Directional Audio Coding,” J. Audio Eng. Soc., 55(6), стр. 503-516, 2007.
[17] International Telecommunication Union, “ITU-R BS.1534-3, Method for the subjective assessment of intermediate quality level of audio systems,” 2015.
[18] Thiergart, O., Del Galdo, G., Kuech, F., and Prus, M., “Three-Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,” in Audio Eng. Soc. Conv. Spatial Audio: Sense the Sound of Space, 2010.
[19] Kuttruff, H., Room Acoustics, Taylor & Francis, 4 edition, 2000.
[20] Borß, C., “A polygon-based panning method for 3D loudspeaker setups,” in Audio Eng. Soc. Conv., стр. 343-352, Лос Анджелес, Калифорния, США, 2014.
[21] Rummukainen, O., Schlecht, S., Plinge, A., and Habets, E. A. P., “Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality - A Case Study with Impaired Binaural Cues and Tracking Latency,” in Audio Eng. Soc. Conv. 143, Нью-Йорк, NY, США, 2017.
[22] Engelke, U., Darcy, D. P., Mulliken, G. H., Bosse, S., Martini, M. G., Arndt, S., Antons, J.-N., Chan, K. Y., Ramzan, N., and Brunnström, K., “Psychophysiology-Based QoE Assessment: A Survey,” IEEE Selected Topics in Signal Processing, 11(1), стр. 6-21, 2017.
[23] Schlecht, S. J. and Habets, E. A. P., “Sign-Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks,” in Proc. Audio Eng. Soc. Conf., стр. 1-10- accepted, Tokyo, Japan, 2018
[31] M. A. Gerzon, "Periphony: With-height sound reproduction,'' J. Acoust. Soc. Am., том 21,110. 1, стр. 2-10, 1973.
[32] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proc. of the 28th AES International Conference, 2006.
[33] --, "Spatial sound reproduction with directional audio coding," Journal Audio Eng. Soc„ том 55, номер 6, стр. 503-516, июнь 2007.
[34] C. G. and G. M., "Coincident microphone simulation covering three dimensional space and yielding various directional outputs," патент США 4 042 779, 1977.
[35] C. Faller and F. Baumgarte, "Binaural cue coding - part ii: Schemes and applications, "IEEE Trans. Speech Audio Process„ том 11, номер 6, ноябрь 2003.
[36] C. Faller, "Parametric multichannel audio coding: Synthesis of coherence cues," IEEE Trans. Speech Audio Process., том 14, номер 1, январь 2006 .
[37] H. P. J. E. E. Schuijers, J. Breebaart, "Low complexity parametric stereo coding," in Proc. of the 116th A ES Convention, Берлин, Германия, 2004.
[38] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Acoust. Soc. A m„ том 45, номер 6, стр. 456-466, июнь 1997.
[39] J. G. Tylka and E. Y. Choueiri, "Comparison of techniques for binaural navigation of higher order ambisonics sound fields," in Proc. of the AES International Conference on Audio for Virtual and Augmented Reality, Нью-Йорк, сентябрь 2016.
1. Устройство для формирования улучшенного описания звукового поля, содержащее:
- формирователь (100, 250, 260) звуковых полей для формирования по меньшей мере одного описания звукового поля, указывающего звуковое поле относительно по меньшей мере одного опорного местоположения; и
- формирователь (110) метаданных для формирования метаданных, связанных с пространственной информацией звукового поля,
- при этом по меньшей мере одно описание звукового поля и метаданные составляют улучшенное описание звукового поля,
- (a) при этом формирователь (100, 250, 260) звуковых полей выполнен с возможностью
формировать первое описание звукового поля относительно опорного местоположения, при этом первое описание звукового поля содержит звуковые данные только из источников звука, расположенных в первом объеме вокруг опорного местоположения, и
формировать второе описание звукового поля относительно опорного местоположения, при этом второе описание звукового поля содержит звуковые данные только из вторых источников, расположенных во втором объеме вокруг опорного местоположения, при этом второй объем отличается от первого объема, и
при этом формирователь (110) метаданных выполнен с возможностью предоставлять пространственное описание первого объема и/или второго объема;
или
- (b) при этом устройство выполнено с возможностью формировать улучшенное описание звукового поля таким образом, что улучшенное описание звукового поля содержит первое описание звукового поля (330), второе описание звукового поля (340) и пространственную информацию (350) относительно первого описания звукового поля и второго описания звукового поля в качестве метаданных;
или
- (c) при этом формирователь (110) метаданных выполнен с возможностью формировать, в качестве метаданных, первую геометрическую информацию (352) для первого описания звукового поля и вторую геометрическую информацию (353) для второго описания звукового поля.
2. Устройство по п. 1,
- в котором первый объем представляет собой сферу вокруг опорного местоположения, и при этом второй объем представляет собой сферическую оболочку вокруг опорного местоположения, причем сферическая оболочка имеет диаметр, превышающий диаметр сферы, или
- при этом первый объем представляет собой первую сферическую оболочку, и второй объем представляет собой вторую сферическую оболочку, при этом диаметр первой сферической оболочки ниже диаметра второй сферической оболочки,
- при этом формирователь (110) метаданных выполнен с возможностью предоставлять пространственное описание сферы и сферической оболочки или первой сферической оболочки и второй сферической оболочки.
3. Устройство по п. 1,
- в котором первое описание звукового поля и второе описание звукового поля представляют собой амбиофонические описания или описания DirAC (направленного кодирования аудио).
4. Устройство по п. 1,
- в котором формирователь (100, 250, 260) звуковых полей выполнен с возможностью определять первые и вторые различные объемы статически или в зависимости от звукового поля.
5. Устройство по п. 1,
- в котором формирователь (110) метаданных выполнен с возможностью определять диапазон расстояний для каждого описания звукового поля, при этом диапазон расстояний является равномерным для каждого объема или неравномерным, при этом, когда диапазон расстояний является неравномерным для каждого объема, диапазон расстояний для объема, тянущегося еще дальше от опорного местоположения, превышает диапазон расстояний, более близкий к опорному местоположению.
6. Устройство по п. 1,
- в котором формирователь (100) звуковых полей выполнен с возможностью формировать, для каждого слоя из множества слоев, описание DirAC (направленного кодирования аудио) звукового поля, имеющее один или более сигналов понижающего микширования и отдельные данные направления и опционально данные степени рассеяния для различных частотно-временных бинов, и
- при этом формирователь (110) метаданных выполнен с возможностью формировать один элемент информации расстояния для каждого слоя.
7. Устройство по п. 1, дополнительно содержащее выходной интерфейс (120) для формирования выходного сигнала для передачи или хранения, причем выходной сигнал содержит, для временного кадра, один или более аудиосигналов, извлекаемых из звукового поля, и пространственную информацию для временного кадра.
8. Устройство по п. 1,
- в котором первое геометрическое описание (352) представляет собой первое характерное расстояние от первого объема до опорной точки;
- при этом вторая геометрическая информация (353) представляет собой второе характерное расстояние от второго объема до опорной точки, при этом опорная точка представляет собой опорное местоположение или вектор, указывающий из опорного местоположения в опорную точку.
9. Устройство для формирования модифицированного описания звукового поля из описания звукового поля и метаданных, связанных с пространственной информацией описания звукового поля, содержащее:
- модуль (420) вычисления звуковых полей для вычисления модифицированного звукового поля с использованием пространственной информации, описания звукового поля и информации перемещения, указывающей перемещение опорного местоположения в другое опорное местоположение,
- (a) при этом модуль (420) вычисления звуковых полей выполнен с возможностью:
принимать, в качестве описания звукового поля, описание звукового поля первого слоя и описание звукового поля второго слоя,
выполнять разделение источников для описаний звукового поля первого и второго слоев, чтобы извлекать источники описаний звукового поля первого и второго слоев и данных направления поступления (DoA) для извлеченных источников,
вычислять, для каждого извлеченного источника, модифицированные DoA-данные относительно другого местоположения с использованием DoA-данных и информации перемещения, и
обрабатывать извлеченные источники и модифицированные DoA-данные, чтобы получать модифицированное описание звукового поля, или
- (b) при этом модуль (420) вычисления звуковых полей выполнен с возможностью:
отдельно выполнять разделение источников для описания звукового поля каждого слоя и извлекать окружающий/рассеянный/остаточный сигнал для каждого слоя, или
- (c) при этом модуль (420) вычисления звуковых полей выполнен с возможностью:
выполнять разделение источников для всех слоев вместе и извлекать один окружающий/рассеянный/остаточный сигнал по меньшей мере для двух слоев, или
- (d) при этом модуль (420) вычисления звуковых полей выполнен с возможностью вычислять, для каждого источника, модифицированное расстояние и вычислять модифицированное описание звукового поля слоя с использованием модифицированных расстояний извлеченных источников, или
- (e) при этом модуль (420) вычисления звуковых полей выполнен с возможностью суммировать, для соответствующего компонента описания звукового поля каждого слоя, описание звукового поля слоя, чтобы получать полное описание звукового поля, или
- (f) при этом модуль (420) вычисления звуковых полей выполнен с возможностью, для каждого слоя:
вычислять, для описания DirAC (направленного кодирования аудио) в качестве описания звукового поля, модифицированные данные направления для различных частотно-временных бинов с использованием данных направления, информации глубины и информации перемещения, и
подготавливать посредством рендеринга DirAC-описание с использованием модифицированных данных направления в звуковое описание, содержащее множество аудиоканалов, либо передавать или сохранять DirAC-описание с использованием модифицированных данных направления вместо данных направления для частотно-временных бинов и опционально данных степени рассеяния, идентичных данным степени рассеяния, включенным в DirAC-описание, или
- (g) при этом модуль (420) вычисления звуковых полей выполнен с возможностью определять, для каждого слоя, для частотно-временного бина, необходимость поддерживать данные направления или вычислять модифицированные данные направления на основе данных степени рассеяния для частотно-временного бина, при этом модифицированные данные направления вычисляются только для данных степени рассеяния, указывающих степень рассеяния ниже предварительно заданного или адаптивного уровня степени рассеяния, или
- (h) при этом модуль (420) вычисления звуковых полей выполнен с возможностью
принимать, для описания звукового поля каждого слоя, характерное расстояние для описания звукового поля слоя из метаданных,
определять значение масштабирования для источника, определенного из описания звукового поля слоя, с использованием определения того, остается или нет источник в идентичном слое относительно новой опорной позиции, определенной посредством информации перемещения, при этом значение масштабирования определяется как превышающее единицу, если источник находится в нижнем слое относительно другого опорного местоположения, или при этом значение масштабирования определяется как ниже единицы, если источник находится в верхнем слое относительно другого опорного местоположения, или
- (i) при этом модуль вычисления звуковых полей содержит, для каждого слоя:
анализатор (422) звуковых полей для анализа компонентов звукового поля, чтобы извлекать, для различных частотных бинов, информацию направления поступления;
модуль (423) преобразования с перемещением для вычисления модифицированной информации направления поступления в расчете на частотный бин с использованием информации направления и метаданных, причем метаданные содержат карту глубины, ассоциирующую информацию расстояния со слоем; и
модуль компенсации расстояния для вычисления модифицированного звукового поля с использованием информации компенсации расстояния в зависимости от расстояния, предоставленного посредством карты глубины для слоя, и нового расстояния, ассоциированного с частотным бином, связанным с модифицированной информацией направления поступления, или
- (j) при этом модуль вычисления звуковых полей выполнен с возможностью
анализировать описание звукового поля каждого слоя, чтобы получать информацию направления поступления для каждого источника, включенного в описание звукового поля слоя,
определять расстояние источника описания звукового поля слоя до нового опорного местоположения с использованием информации направления поступления и метаданных для описания звукового поля слоя, и
определять коэффициент масштабирования с использованием расстояния источника описания звукового поля слоя до нового опорного местоположения и метаданных для описания звукового поля, из которого извлечен источник, или
- (k) при этом модуль (420) вычисления звуковых полей выполнен с возможностью
формировать, для источника, первый вектор из опорного местоположения в источник с использованием информации направления поступления и геометрической информации, при этом идентичная геометрическая информация используется для каждого источника в описании звукового поля слоя,
формировать второй вектор из первого вектора и информации перемещения для каждого источника в описании звукового поля слоя, и
вычислять значение масштабирования для каждого источника путем деления длины второго вектора на длину первого вектора.
10. Устройство по п. 9,
- в котором модуль (420) вычисления звуковых полей выполнен с возможностью:
- формировать, для каждого извлеченного источника, описание звукового поля с использованием модифицированных данных DoA (направления поступления),
- выбирать описания звукового поля источников звука на основе расстояния между соответствующим извлеченным источником и другим опорным местоположением для конкретного слоя и суммировать описание звукового поля выбранного источника в слое, чтобы получать модифицированное описание звукового поля слоя, или
- суммировать описание звукового поля каждого источника в звуковой сцене, чтобы получать модифицированное полное описание звукового поля.
11. Устройство по п. 10,
- в котором модуль (420) вычисления звуковых полей выполнен с возможностью суммирования окружающего/рассеянного/остаточного сигнала для каждого слоя при вычислении модифицированного описания звукового поля слоя или вычисления одного окружающего/рассеянного/остаточного сигнала, который должен суммироваться с полным описанием звукового поля.
12. Устройство по п. 9,
- в котором модуль (420) вычисления звуковых полей выполнен с возможностью применять вращение к модифицированному описанию звукового поля, при этом модифицированное описание звукового поля представляет собой описание звукового поля слоя или полное описание звукового поля, связанное с другим опорным местоположением.
13. Устройство по п. 9, дополнительно содержащее:
- интерфейс (410) перемещения для предоставления информации перемещения или информации вращения, указывающей вращение предназначенного слушателя для модифицированного звукового поля;
- модуль (402, 400) подачи метаданных для подачи метаданных в модуль (420) вычисления звуковых полей;
- модуль (404, 400) подачи звуковых полей для подачи описания звукового поля в модуль (420) вычисления звуковых полей; и
- выходной интерфейс (421) для вывода модифицированного звукового поля, содержащего модифицированное описание звукового поля и модифицированные метаданные, причем модифицированные метаданные извлекаются из метаданных с использованием информации перемещения, либо для вывода множества каналов громкоговорителей, причем каждый канал громкоговорителя связан с предварительно заданной позицией громкоговорителя, либо для вывода бинаурального представления модифицированного звукового поля.
14. Устройство по п. 9,
- в котором описание звукового поля содержит множество компонентов звукового поля для каждого слоя, причем множество компонентов звукового поля содержат всенаправленный компонент и по меньшей мере один направленный компонент.
15. Устройство по п. 9, в котором модуль (420) вычисления звуковых полей выполнен с возможностью, для каждого слоя:
- вычисления (1104) первого вектора, указывающего из опорного местоположения в источник (510) звука, получаемый посредством анализа (1102) звукового поля;
- вычисления (1106) второго вектора, указывающего из другого опорного местоположения (500) в источник (510) звука, с использованием первого вектора и информации перемещения, причем информация перемещения задает вектор перемещения из опорного местоположения (522) в другое опорное местоположение (500); и
- вычисления (1106) значения модификации расстояния с использованием другого опорного местоположения (500), местоположения источника (510) звука и второго вектора либо с использованием расстояния от другого опорного местоположения (500) до местоположения источника (510) звука и второго вектора.
16. Устройство по п. 9,
- в котором первый вектор вычисляется посредством умножения единичного вектора направления поступления на расстояние, включенное в метаданные, или
- при этом второй вектор вычисляется посредством вычитания вектора перемещения из первого вектора, или
- при этом значение модификации расстояния вычисляется посредством деления второго вектора на норму первого вектора.
17. Устройство по п. 9,
- в котором модуль (420) вычисления звуковых полей выполнен с возможностью принимать, в дополнение к информации перемещения, информацию вращения, и
- при этом модуль (420) вычисления звуковых полей выполнен с возможностью выполнять преобразование (424) с вращением, чтобы вращать данные направления поступления для звукового поля с использованием информации вращения, при этом данные направления поступления извлекаются из данных направления поступления, полученных посредством анализа звукового поля описания звукового поля, и с использованием информации перемещения.
18. Устройство по п. 9, в котором модуль (420) вычисления звуковых полей выполнен с возможностью:
- определять (1200, 1240) источники из описания звукового поля и направлений для источников посредством анализа звукового поля;
- определять (1220), для каждого источника, расстояние источника от опорного местоположения с использованием метаданных;
- определять (1250) новое направление источника, связанного с другим опорным местоположением, с использованием направления для источника и информации перемещения;
- определять (1230) новую информацию расстояния для источника, связанного с другим опорным местоположением; и
- формировать (1260) модифицированное звуковое поле с использованием нового направления источника, новой информации расстояния и описания звукового поля либо сигналов источников, соответствующих источникам, извлекаемым из описания звукового поля.
19. Устройство по п. 9, в котором модуль вычисления звуковых полей выполнен с возможностью, для каждого слоя:
- определять (1200) сигналы источников из описания звукового поля и направлений сигналов источников, связанных с опорным местоположением, посредством анализа звука;
- вычислять (1230) новые направления сигналов источников, связанных с другим опорным местоположением, с использованием информации перемещения;
- вычислять (1230) информацию расстояния для источников звука, связанных с другим опорным местоположением; и
- синтезировать (1260) модифицированное звуковое поле с использованием информации расстояния, сигналов источников и новых направлений.
20. Устройство по п. 19, в котором модуль (420) вычисления звуковых полей выполнен с возможностью:
- синтезировать модифицированное звуковое поле посредством панорамирования сигнала источника звука в направление, предоставленное посредством нового направления относительно компоновки для воспроизведения, и
- посредством масштабирования сигнала источника звука с использованием информации расстояния перед выполнением панорамирования или после выполнения панорамирования.
21. Устройство по п. 19,
- в котором модуль (420) вычисления звуковых полей выполнен с возможностью суммировать, для каждого слоя или только для одного слоя, рассеянный сигнал с прямой частью сигнала источника звука, причем прямая часть модифицируется посредством информации расстояния до суммирования с рассеянным сигналом.
22. Устройство по п. 19, в котором модуль (420) вычисления звуковых полей выполнен с возможностью, для каждого слоя:
- выполнять частотно-временное преобразование описания звукового поля и вычислять (422) направление поступления для множества частотных бинов временного кадра;
- вычислять (423, 424) новое направление для каждого частотного бина,
- вычислять информацию расстояния для каждого частотного бина, и
- выполнять прямой синтез для каждого частотного бина с использованием аудиосигнала для частотного бина, панорамирующего усиления для частотного бина, извлекаемого из нового направления для частотного бина, и значения масштабирования для частотного бина, извлекаемого из информации расстояния для соответствующего слоя.
23. Устройство по п. 22, в котором модуль (420) вычисления звуковых полей выполнен с возможностью, для каждого слоя:
- выполнять синтез рассеянных сигналов с использованием рассеянного аудиосигнала, извлекаемого из аудиосигнала для частотного бина, и с использованием параметра степени рассеяния, извлекаемого посредством анализа звука для частотного бина, и комбинировать прямую часть и рассеянную часть, чтобы получать синтезированный аудиосигнал для частотного бина; и
- выполнять частотно-временное преобразование с использованием аудиосигналов для частотных бинов для временного кадра, чтобы получать синтезированный во временной области аудиосигнал в качестве модифицированного звукового поля.
24. Устройство по п. 19, в котором модуль (420) вычисления звуковых полей выполнен с возможностью синтезировать, для каждого источника звука, звуковое поле, связанное с другим опорным местоположением, причем синтез содержит:
- для каждого источника, обработку (430) сигнала источника с использованием нового направления для сигнала источника, чтобы получать описание звукового поля сигнала источника, связанного с другим опорным местоположением;
- модификацию сигнала источника перед обработкой сигнала источника или модификацию описания звукового поля с использованием информации направления; и
- суммирование описаний звукового поля для источников, чтобы получать модифицированное звуковое поле, связанное с другим опорным местоположением.
25. Устройство по п. 19,
- в котором анализ (1200) звука выполнен с возможностью определять сигналы источников посредством алгоритма разделения источников и вычитать по меньшей мере некоторые сигналы источников из описания звукового поля, чтобы получать рассеянный сигнал.
26. Устройство по п. 12,
- в котором модуль вычисления звуковых полей выполнен с возможностью определять расстояние от нового опорного местоположения до позиции источника с использованием позиции источника и информации перемещения, и
- сравнивать расстояние до нового опорного местоположения с характерным расстоянием слоя вокруг другого опорного местоположения таким образом, что источник подготавливается посредством рендеринга в слой вокруг другого опорного местоположения в соответствии со сравнением.
27. Способ формирования улучшенного описания звукового поля, содержащий этапы, на которых:
- формируют по меньшей мере одно описание звукового поля, указывающее звуковое поле относительно по меньшей мере одного опорного местоположения; и
- формируют метаданные, связанные с пространственной информацией звукового поля,
- при этом по меньшей мере одно описание звукового поля и метаданные составляют улучшенное описание звукового поля,
- (a) при этом формирование по меньшей мере одного описания звукового поля содержит этапы, на которых формируют первое описание звукового поля относительно опорного местоположения, при этом первое описание звукового поля содержит звуковые данные только из источников звука, расположенных в первом объеме вокруг опорного местоположения, и формируют второе описание звукового поля относительно опорного местоположения, при этом второе описание звукового поля содержит звуковые данные только из вторых источников, расположенных во втором объеме вокруг опорного местоположения, при этом второй объем отличается от первого объема, и при этом формирование метаданных содержит этап, на котором предоставляют пространственное описание первого объема и/или второго объема;
или
- (b) при этом способ содержит этап, на котором формируют улучшенное описание звукового поля таким образом, что улучшенное описание звукового поля содержит первое описание звукового поля (330), второе описание звукового поля (340) и пространственную информацию (350) относительно первого описания звукового поля и второго описания звукового поля в качестве метаданных;
или
- (c) при этом формирование метаданных содержит этап, на котором формируют, в качестве метаданных, первую геометрическую информацию (352) для первого описания звукового поля и вторую геометрическую информацию (353) для второго описания звукового поля.
28. Способ формирования модифицированного описания звукового поля из описания звукового поля и метаданных, связанных с пространственной информацией описания звукового поля, при этом способ содержит этап, на котором:
- вычисляют модифицированное звуковое поле с использованием пространственной информации, описания звукового поля и информации перемещения, указывающей перемещение из опорного местоположения в другое опорное местоположение,
- (a) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
принимают, в качестве описания звукового поля, описание звукового поля первого слоя и описание звукового поля второго слоя,
выполняют разделение источников для описаний звукового поля первого и второго слоев, чтобы извлекать источники описаний звукового поля первого и второго слоев и данных направления поступления (DoA) для извлеченных источников,
вычисляют, для каждого извлеченного источника, модифицированные DoA-данные относительно другого местоположения с использованием DoA-данных и информации перемещения, и
обрабатывают извлеченные источники и модифицированные DoA-данные, чтобы получать модифицированное описание звукового поля, или
- (b) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
отдельно выполняют разделение источников для описания звукового поля каждого слоя и извлекают окружающий/рассеянный/остаточный сигнал для каждого слоя, или
- (c) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
выполняют разделение источников для всех слоев вместе и извлекают один окружающий/рассеянный/остаточный сигнал по меньшей мере для двух слоев, или
- (d) при этом вычисление модифицированного звукового поля содержит этапы, на которых вычисляют, для каждого источника, модифицированное расстояние и вычисляют модифицированное описание звукового поля слоя с использованием модифицированных расстояний извлеченных источников, или
- (e) при этом вычисление модифицированного звукового поля содержит этап, на котором суммируют, для соответствующего компонента описания звукового поля каждого слоя, описание звукового поля слоя, чтобы получать полное описание звукового поля, или
- (f) при этом вычисление модифицированного звукового поля содержит этапы, на которых, для каждого слоя:
вычисляют, для описания DirAC (направленного кодирования аудио) в качестве описания звукового поля, модифицированные данные направления для различных частотно-временных бинов с использованием данных направления, информации глубины и информации перемещения, и
подготавливают посредством рендеринга DirAC-описание с использованием модифицированных данных направления в звуковое описание, содержащее множество аудиоканалов, либо передавать или сохранять DirAC-описание с использованием модифицированных данных направления вместо данных направления для частотно-временных бинов и опционально данных степени рассеяния, идентичных данным степени рассеяния, включенным в DirAC-описание, или
- (g) при этом вычисление модифицированного звукового поля содержит этап, на котором определяют, для каждого слоя, для частотно-временного бина, необходимость поддерживать данные направления или вычислять модифицированные данные направления на основе данных степени рассеяния для частотно-временного бина, при этом модифицированные данные направления вычисляются только для данных степени рассеяния, указывающих степень рассеяния ниже предварительно заданного или адаптивного уровня степени рассеяния, или
- (h) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
принимают, для описания звукового поля каждого слоя, характерное расстояние для описания звукового поля слоя из метаданных,
определяют значение масштабирования для источника, определенного из описания звукового поля слоя, с использованием определения того, остается или нет источник в идентичном слое относительно новой опорной позиции, определенной посредством информации перемещения, при этом значение масштабирования определяется как превышающее единицу, если источник находится в нижнем слое относительно другого опорного местоположения, или при этом значение масштабирования определяется как ниже единицы, если источник находится в верхнем слое относительно другого опорного местоположения, или
- (i) при этом вычисление модифицированного звукового поля содержит этапы, на которых, для каждого слоя:
анализируют компоненты звукового поля, чтобы извлекать, для различных частотных бинов, информацию направления поступления;
вычисляют модифицированную информацию направления поступления в расчете на частотный бин с использованием информации направления и метаданных, причем метаданные содержат карту глубины, ассоциирующую информацию расстояния со слоем; и
вычисляют модифицированное звуковое поле с использованием информации компенсации расстояния в зависимости от расстояния, предоставленного посредством карты глубины для слоя, и нового расстояния, ассоциированного с частотным бином, связанным с модифицированной информацией направления поступления, или
- (j) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
анализируют описание звукового поля каждого слоя, чтобы получать информацию направления поступления для каждого источника, включенного в описание звукового поля слоя,
определяют расстояние источника описания звукового поля слоя до нового опорного местоположения с использованием информации направления поступления и метаданных для описания звукового поля слоя, и
определяют коэффициент масштабирования с использованием расстояния источника описания звукового поля слоя до нового опорного местоположения и метаданных для описания звукового поля, из которого извлечен источник, или
- (k) при этом вычисление модифицированного звукового поля содержит этапы, на которых:
формируют, для источника, первый вектор из опорного местоположения в источник с использованием информации направления поступления и геометрической информации, при этом идентичная геометрическая информация используется для каждого источника в описании звукового поля слоя,
формируют второй вектор из первого вектора и информации перемещения для каждого источника в описании звукового поля слоя, и
вычисляют значение масштабирования для каждого источника путем деления длины второго вектора на длину первого вектора.
29. Запоминающий носитель, содержащий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или в процессоре, способа по п. 27.
30. Запоминающий носитель, содержащий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или в процессоре, способа по п. 28.