Интеллектуальное пространство с многомодальным интерфейсом

 

Техническое решение относится к информационным технологиям, в частности, является одним из вариантов реализации концепции окружающего интеллектуального пространства с многомодальным интерфейсом. Разработанное решение может быть использовано для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, таких как лекция, совещание, телеконференция и т.д. Техническое решение представляет собой распределенную систему, которая содержит сеть аппаратно-программных модулей, активационных, коммутирующих устройств, мультимедийных средств и аудиовизуальных сенсоров, встроенных в конструкцию помещения, в том числе 7 многоядерных вычислительных блоков, 3 массива микрофонов, 15 видеокамер, проектор, плазменная панель с сенсорным экраном. Аудиовизуальный мониторинг и протоколирование текущей ситуации в зале, а также естественное взаимодействие пользователей с оборудованием и приложениями реализовано на основе многомодального пользовательского интерфейса, построенного с применением технологий многоканальной обработки аудиовизуальных сигналов, дикторонезависимого распознавания русской речи, аудиовизуального синтеза речи и веб-интерфейса для поддержки проведения распределенных мероприятий. Техническим результатом является автоматизация процесса аудиовизуального протоколирования помещения и обеспечение участников мероприятий информационно-управляющими сервисами с многомодальным интерфейсом на основе анализа текущей ситуации в помещении и учета предпочтений участников предшествующих мероприятий.

Техническое решение относится к информационным технологиям, в частности, является одним из вариантов реализации концепции окружающего интеллектуального пространства с многомодальным интерфейсом. Разработанное решение может быть использовано для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, таких как лекция, совещание, телеконференция и т.д.

Существуют технические решения [1, 2], представляющие собой реализации интеллектуальных пространств для специфических условий эксплуатации. В состав первого технического решения входят приборы учета, счетчики и датчики, дополнительно установленные приборы управления для регулирования теплового режима и средство отображения информации о потребленных энергоресурсах, компьютерный модуль, выполняющий функции учета, контроля и управления, устройства для регулирования и включения/выключения подачи каждого из энергоресурсов, устройства оповещения о событиях в подконтрольной системе, устройства, обеспечивающие передачу информации с компьютерного модуля по каналам связи локальных и/или глобальных сетей, специальное программное обеспечение по заложенным алгоритмам, меняющее параметры подключения счетчиков разных видов и производителей, осуществляющее объединение всех необходимых объектов в единое информационное пространство.

Второе техническое решение предполагает контроль над объектами предприятия и включает в себя метки радиочастотной идентификации, сервер памяти, сканеры меток радиочастотной идентификации, равномерно установленные в области нахождения контролируемых объектов предприятия на расстояниях между собой, обеспечивающих полное перекрытие области нахождения контролируемых объектов предприятия, и соединенные с входами сервера памяти, дополнительно выполняющим функции определения местоположения контролируемых объектов предприятия по данным от сканеров меток радиочастотной идентификации, а также устройство выходного контроля, выполняющего функции гашения меток радиочастотной идентификации, вход-выход которого соединен с первым входом-выходом сервера памяти, и устройство отображения и управления, вход-выход которого соединен со вторым входом-выходом сервера памяти.

Перечисленные выше решения не способны взаимодействовать с пользователями естественными способами на основе анализа/синтеза речи, жестов и других модальностей и, следовательно, не могут быть использованы некоторыми группами населения, например, людьми с ограниченными возможностями.

Также существует техническое решение, обеспечивающее взаимодействие с пользователями с помощью многомодального интерфейса [3]. Устройство представляет собой подвижный автомат самообслуживания, оснащенный массивами микрофонов, камерами, датчиками препятствий и сенсорными мониторами. Все устройства управляются с помощью встроенного бортового компьютера. Устройство может предоставлять информационные услуги пользователям с помощью графического и аудиоинтерфейсов, а также имеет систему распознавания голосовых запросов. В тоже время это устройство не представляет собой интеллектуальное пространство, поэтому не может препятствовать регистрации разработанного технического решения.

Наиболее близким к заявленному техническому решению по тематике является интеллектуальная система жизнеобеспечения, управляемая компьютером, анализирующим текущие условия окружающей среды посредством набора различных датчиков [1]. В данном патенте описана общая идея создания интеллектуального пространства без указания определенных технологий, реализующих связь между встроенными компонентами, а также взаимодействие пользователя с интеллектуальной средой. Также в данной системе не подразумевается использование многомодальных пользовательских интерфейсов и персонифицированного подхода к управлению средствами жизнеобеспечения.

Новизна разработанного технического решения заключается в наличии многомодального пользовательского интерфейса. Разработанные технологии для автоматической обработки аудиовизуальных данных были успешно внедрены в интеллектуальном пространстве для обеспечения естественного взаимодействия с оборудованием. Среди наиболее важных технологий, примененных в разработанном техническом решении, следует отметить: автоматическое распознавание русской речи, голосовую идентификацию диктора, локализацию источников звука, определение положения и слежение за двигающимися объектами и лицами людей, определение позы человека.

Разработанный вариант интеллектуального пространства представляет собой распределенную систему, которая содержит сеть программно-аппаратных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров, встроенных в конструкцию помещения. На основе автоматического анализа текущей ситуации в помещении система обеспечивает участников совещания или лекции необходимыми сервисами. Осведомленность системы о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Моделирование контекста, извлечение, синхронизация и распределение знаний остаются наиболее важными задачами при проектировании интеллектуального пространства.

Для автоматизации управления презентационным, аудио-, видео- и активационным оборудованием была предложена технологическая сеть, учитывающая текущее поведение участников и состояние устройств в интеллектуальном пространстве. Многомодальное управление оборудованием как внутри помещения, так и удаленно реализовано через веб-интерфейс, графическая компоновка которого учитывает характеристики дисплея клиентского устройства.

На рисунке 1 представлена технологическая сеть разработанного интеллектуального пространства, программная реализация которой приведена в работе [4]. Анализ модельно-алгоритмического обеспечения для многоканальной обработки аудиопотоков, использованного при разработке многомодального интерфейса к интеллектуальному пространству приведен в работах [5, 6]. Совместная работа технологий аудиовизуальной обработки сигналов снабжает систему управления помещения данными о текущей обстановке в помещении, о поведении пользователей, а также обеспечивает дистанционное распознавание голосовых команд за счет анализа пространственно-временной, ситуативной информации и предпочтений пользователей.

Дистанционное распознавание голосовых команд, записанных посредством массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например, телевизором, радио, аудио- видеоплеером. Также реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производится поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственному положению пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием. Во всех приложениях интерактивная обратная связь обеспечивается посредством говорящей головы, которая показывает пользователю об осведомленности интеллектуального пространства о поведении пользователей и озвучивает необходимую речевую информацию [7].

Также реализовано удаленное управление оборудованием помещения на основе веб-интерфейса, адаптивного к возможностям и текущему состоянию устройства, и позволяющего автоматически сформировать соответствующую компоновку веб-страницы, отображающейся на стороне клиента.

Для записи текущей ситуации в разработанном интеллектуальном пространстве используются видеокамеры с различным разрешением. При отображении кадра на клиентском устройстве его размеры изменяются так, чтобы полностью заполнить окно браузера. Если же соотношения размеров сторон кадра и окна браузера существенно отличаются, то картинка будет слишком растянута по одной из сторон, поэтому изменение размеров кадра производится не более, чем на 20%. Если при новых размерах в окне браузера остается свободное место, то оно используется для отображения говорящей головы, служащей для аудиовизуального синтеза сообщений, поступающих с сенсоров, установленных в помещении.

При настройке оборудования интеллектуального пространства для проведения конференций могут быть учтены эргономические аспекты использования мультимедийного оборудования, а также выбрано такое расположение аудио- и видеозаписывающих устройств, которое обеспечивает захват наибольшего числа участников. При выборе количества камер, их месторасположения, разрешающей способности, угла обзора объективов и других параметров системы видеомониторинга также учитывается размер зоны охвата, число объектов, требующих одновременного слежения, степень деталировки анализируемых объектов, уровень освещенности.

На рисунке 2 представлена схема расположения посадочных мест, мультимедийного оборудования (TV, Projector), пяти Интернет камер фирмы AXIS (PTZ-камеры Саm3, Саm5, беспроводные камеры Саm2, Саm4, камера с широкоугольным объективом Cam1, установленная на потолке по центру помещения), 10 персональных веб-камер Logitech AF Sphere, установленных на конференц-столе.

Для размещения участников небольших совещаний (круглых столов до 10 человек) в левой части помещения расположен конференц-стол с установленными на нем персональными видеокамерами. В правой части помещения расположены ряды кресел, на которых могут разместиться до 32 участников конференций или лекций, слежение за которыми реализовано посредством распределенной системы видеокамер и массивов микрофонов. С учетом указанного расположения оборудования, в помещении выделены три непересекающиеся зоны (на рисунке 3 ограничены пунктирной линией), требующие постоянного видеослежения: (1) зона перемещения основного докладчика; (2) зона участников, сидящих за конференц-столом; (3) зона участников, сидящих в рядах кресел.

Видеомониторинг всех трех зон осуществлялся с помощью камеры Cam1 с углом обзора 140 градусов и разрешающей способностью 2048×1536 пикселей. Стационарные камеры Саm2, Саm4 имеют угол обзора 74 градусов и разрешающую способность 1280×1024 пикселей. Две камеры Саm3, Саm5 с углами обзора 51,6 градусов и разрешающей способностью 704×576 пикселей, с функциями наклона, поворота и масштабирования, обеспечивают наведение на любую точку пространства в помещении.

Камера Саm2 установлена на высоте 2 метров на противоположной стене от проекционного экрана и используется для аудиовидеозаписи хода мероприятия. Так как камера Cam1 имеет широкоугольный объектив, и расположена на потолке в центре помещения, то она одновременно охватывает все пространство помещения и позволяет определить координаты всех участников в горизонтальной плоскости. Стационарная камера Саm4 установлена слева от входной двери и направлена таким образом, чтобы охватывать сразу всех пользователей, сидящих в зоне кресел. PTZ-камера Саm3 и камера Саm2 установлены рядом и в большинстве случаев работают совместно. Посредством анализа кадров с камеры Саm2 определяется положение наблюдаемого объекта и формируется команда на установку камеры Саm3 в направлении, необходимом для захвата лица определенного участника, находящегося в зоне кресел. PTZ-камера Саm5 установлена по центру левой стены помещения на высоте 2 метра от уровня пола и служит для захвата видеоизображения выступающего докладчика.

Разработанная многофункциональная система видеомониторинга интеллектуального пространства на основе системы Интернет камер AXIS осуществляет видеозапись всего мероприятия, а также позволяет автоматизировать такие ключевые этапы, как регистрация участников, съемка выступающего, активных участников в аудитории во время дискуссии и другие [8]. Исходя из основных этапов мероприятия, были составлены различные режимы работы многофункциональной системы видеомониторинга. В таблице 1 показаны функции каждой из камер в пяти основных режимах: наблюдение, слежение за участниками, регистрация участников, выступление докладчика, дискуссия.

В ходе основной части мероприятия выделяются два режима «Выступление докладчика» и «Дискуссия». В первом выполняется слежение за перемещением выступающего и определение участников, сидящих в зоне кресел. При этом наведение и запись выступления основного докладчика выполняется при помощи камеры Саm5. В режиме «Дискуссия» используется камера Саm3 для записи выступлений, сидящих в помещении. Во всех режимах кроме «Наблюдения» камера Саm2 выполняет запись общего вида на аудиторию. В таблице 1 не показан режим "Ожидание", в котором камеры находятся в «спящем» состоянии до тех пор, пока не будет включена, по крайней мере, одна из групп света.

Таблица 1
Функции камер в различных режимах работы системы видеомониторинга разработанного интеллектуального пространства.
Камера Режимы работы
Наблюдение Слежение за участниками Регистрация участников Сопровождение мероприятия
Выступление докладчика Дискуссия
Cam1Слежение за изменением состояния буферной зоны Слежение за перемещением и определение сидящих участников Слежение за перемещением выступающего и определение участников, сидящих в зоне кресел.
Cam4 Поиск лиц сидящих участников
Cam3 Фотографирование лиц сидящих участников Запись выступлений, сидящих в помещении
Cam5 Наведение и запись перемещающегося участника Наведение и запись выступления основного докладчика
Cam2 Запись общего вида на аудиторию

Для удобства наблюдения за режимами работы системы вся информация передается на модуль управления интеллектуальным пространством, в диалоговом окне которого отображаются найденные в процессе видеомониторинга объекты, в том числе участники, сидящие за конференц-столом, в зоне кресел, а также движущиеся в текущий момент. Фотографии зарегистрированных участников отображаются в диалоговом окне в соответствии с занимаемыми креслами.

При настройке аудиооборудования проводится оценка работы системы аудиолокализации с учетом размеров помещения и времени реверберации аудиосигнала. Многоканальная аудиоплата Presonus FirePod была использована для записи сигналов со всех микрофонов. В системе аудиолокализации применяется оценка положения источника звука на основе сигналов пар микрофонов, а затем координаты источника звука усредняются по всем массивам микрофонов. В разработанном решении применяются конфигурации из четырех массивов: MA 1 - линейный массив из двух микрофонов, расположенный в левой части зала; МА2 - линейный массив из двух микрофонов, расположенный в зоне презентаций; МА3 - линейный массив из двух микрофонов, расположенный над зоной кресел; МА4 - массив Т-образной конфигурации, состоящий из микрофонов второго массива и двух дополнительных микрофонов. Четвертый массив был оставлен с Т-образной конфигурацией, так как при расположении основного докладчика лицом к сенсорной доске (спиной к аудитории), другие массивы микрофонов не смогут определить положение источника звука.

Так как массивы микрофонов установлены на высоте двух метров от пола, то сигналы исходящие непосредственно под массивом, оказываются ослабленными. По этой причине все микрофоны в массивах были наклонены в горизонтальной плоскости примерно на тридцать градусов вниз, чтобы покрыть большую зону аудилокализации. Кроме того, в вертикальной плоскости у микрофонов второго и четвертого массивов был сделан наклон вправо на двадцать градусов, чтобы их можно было использовать для локализации источников звука в зоне кресел.

Полная конфигурация аудиозахватывающего оборудования включает в себя десять микрофонов Октава МК-012, их расположение показано на рисунке 9. Каждый микрофон имеет кардиоидный капсюль и записывает звук, приходящий с отклонением от нормали до 60 градусов, с приблизительно одинаковым усилением. Также следует учесть, что производительность метода GCC-PHAT, использующегося для аудиолокализации, значительно выше при углах до 65 градусов [8]. По этим причинам рабочий сектор в горизонтальной плоскости для массива, состоящего из пары микрофонов, был ограничен 120 градусами.

Первый и третий массивы установлены под углом 90 градусов к стене. Микрофоны 3-6 установлены под углом 70 градусов к стене, как уже было замечено выше, для захвата речи участников, сидящих в зоне кресел в правой части зала. Второй массив состоит из 3 и 4 микрофонов. Четвертый массив имеет конфигурацию «перевернутая Т», состоит из 3-6 микрофонов и может оценивать положение источника звука независимо от остальных массивов микрофонов. Он используется для записи речи участников, находящихся в зоне выступлений. Когда лицо выступающего направлено на «умную доску», то есть он стоит спиной к слушателям, что часто бывает при вводе рукописных набросков или формул, то речь выступающего не может быть отчетливо записана другими микрофонами.

Таким образом, микрофоны 1-8, показанные на рисунке 9 применяются для аудиолокализации. Для определения текущего уровня звука в зале используются микрофоны 9 и 10, установленные на потолке в левой и правой части зала. Разработанный алгоритм определения речевой активности основан на оценке энергии спектра сигналов, записанных 9 и 10 микрофоном, и используется для включения/выключения модуля аудиолокализации. Во время проведения мероприятия наоборот данные о положении источника звука используются при сегментации речи участника, записанного 9 или 10 микрофонами.

Метод GCC-PHAT был использован для оценки положения источника звука каждой парой микрофонов. Массивы MA1 - МА 3 оценивают угол по направлению к источнику звука, затем рассчитывается точка пересечения лучей, в которой и предполагается, что находится говорящий участник. Четвертый массив оценивает положение диктора методом триангуляции. Окончательное решение принимается на основе комбинации оценок от всех массивов микрофонов с учетом их рабочего сектора и расстояния между массивом и предполагаемым положением источника звука.

На рисунке 4 показана схема устройства, которая содержит вычислительный блок (ВБ) 1 с многоядерной архитектурой, являющийся главным сервером системы управления интеллектуальным пространством, к которому подключена плазменная панель с сенсорным экраном 27, коммутирующее устройство 20 для управления группами света 21, 22, 23, 24, шторами 25 и проекционным экраном 26. На ВБ 1 передаются данные с ВБ 2, ВБ 3, ВБ 6, ВБ 7. Совместная работа технологий аудиовизуальной обработки сигналов снабжает систему управления интеллектуальным пространством данными о текущей обстановке в помещении, о поведении пользователей, а также обеспечивает распознавание голосовых команд за счет анализа пространственно-временной, ситуативной информации и предпочтений пользователей [9].

ВБ 2 отвечает за обработку данных поступающих с видеокамер 8, 9, 10, 11, 12. Также с ВБ 2 на ВБ 3 поступает информация о местоположении пользователей в помещении. К ВБ 3 подключены многоканальные платы аудиозахвата 13 и 14, к которым подключены массивы микрофонов 15, 16, 17 и отдельные микрофоны 18 и 19. Данные с ВБ 3 поступают на ВБ 1 и на ВБ 2 для последующей обработки. К ВБ 4 и ВБ 5 подключены наборы веб-камер 29-33 и 34-38 соответственно. Данные с этих камер обрабатываются и передаются с ВБ 4 и ВБ 5 на ВБ 6, который генерирует дополнительный веб-интерфейс для управления оборудованием, встроенным в интеллектуальное пространство. ВБ 6 обрабатывает потоки данных от удаленных пользователей, подключенных через веб-интерфейс. Коммутирующее устройство 39 используется для подключения ВБ 6 к сети Интернет. ВБ 6 передает данные, полученные через веб-интерфейс на ВБ 1, где данные о состоянии устройств помещения обрабатываются и отображаются с помощью приложения «многомодальная система управления интеллектуальным пространством». К ВБ 7 подключен проектор 28, который используется для управления презентациями. ВБ 7 передает данные о состоянии проектора на ВБ 1. ВБ 2, ВБ 3 и ВБ 6 получают данные о состоянии устройств 21-26, встроенных в интеллектуальное пространство, с ВБ 1.

Положительный эффект, который дает предлагаемое техническое решение, состоит в автоматизации процесса аудиовизуального протоколирования помещения и обеспечении участников мероприятий информационно-управляющими сервисами с многомодальным интерфейсом на основе анализа текущей ситуации в помещении и учета предпочтений участников предшествующих мероприятий.

При составлении описания и формулировании технического решения были использованы следующие источники информации:

1. Галанин Ю.Э. Патент RU 108611 U1 МПК G01K 17/00, G01D 7/00, 2011.

2. Сараев В.Н, Кобяков А.А., Вайно А.Э., Лисютин Е.В., Кобякова Н.Г., Козлов Л.Н., Подоляк В.И., Панфилов С.А. Патент RU 105494 U1, МПК G06Q 10/00, 2011.

3. Ронжин А.Л., Прищепа М.В., Будков В.Ю., Карпов А.А. Патент RU 108172 U8, МПК G06F 17/30, G06F 13/14, 2011.

4. Свидетельство о государственной регистрации ПрЭВМ 2011613964 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 23 мая 2011 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю. Программная реализация интеллектуального зала (ПРИЗ-1).

5. Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN / ruSMART 2009, LNCS 5764, 2009. pp.77-88.

6. Ронжин А.Л., Карпов А.А., Кагиров И.А. Особенности дистанционной записи и обработки речи в автоматах самообслуживания // Информационно-управляющие системы, Вып.42, т.5. - СПб.: ГУАП, 2009, С.32-38.

7. А.А.Карпов, Л.И.Цирульник, М.Железны. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту // Информационные технологии. - М.: Новые Технологии, 8, т.9, 2010. С.13-18

8. Chau D.T., Li J., and Akagi М., "A DOA Estimation Algorithm Based on Equalization-Cancellation Theory", Proc. Interspeech 2010, Makuhari, Japan, 2010, pp.2770-2773.

9. Свидетельство о государственной регистрации ПрЭВМ 2011616481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 19 августа 2011 г.: Ронжин Ал.Л., Будков В.Ю. Модель профиля пользователя интеллектуального пространства.

Система для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, содержащая аппаратно-программные модули, активационные и коммутирующие устройства, мультимедийные средства и аудиовизуальные сенсоры, функционально взаимосвязанные между собой, и обеспечивающая участников мероприятия необходимыми услугами в автоматическом режиме, отличающаяся тем, что встроенные средства: 3 массива микрофонов Т-образной конфигурации и 2 отдельных микрофона, обеспечивающие захват аудиоданных, пространственно-спектральную фильтрацию полезного речевого сигнала и работу системы дистанционного распознавания речи; 15 камер, из которых 1 широкоугольная камера, расположенная под потолком, 4 интеллектуальные камеры, установленные на стенах, 10 индивидуальных веб-камер, обеспечивающих работу многоканальной системы видеомониторинга, определение местоположение пользователя в помещении, нахождение его лица и слежение за перемещением; мультимедийные проекционные устройства с возможностью сенсорного ввода, соединенные посредством каналов связи с вычислительными блоками; выполняют в автоматическом режиме локальное и удаленное управление презентационным и активационным оборудованием в помещении, многомодальными информационными приложениями, а также производят автоматическое определение аудиовизуальной активности дикторов, запись хода мероприятия и обеспечивают проведение распределенных совещаний с участием удаленных участников на основе внедренных технологий многоканальной обработки аудиовизуальных сигналов, дикторонезависимого распознавания русской речи, аудиовизуального синтеза русской речи, многоканального видеомониторинга и веб-интерфейса для организации распределенных мероприятий.



 

Похожие патенты:

Лототрон // 107627

Изобретение относится к вычислительной технике, в частности, к автоматизированной системе идентификации и аутентификации граждан по биометрическим параметрам личности

Изобретение относится к области подвижной медицинской техники и может быть использовано в полевой, авиационной и морской медицине

Мультимедийный лазерный уличный проектор для рекламы на зданиях с лампой и настенным или потолочным кронштейном для крепления относится к рекламе, в частности к проекционным устройствам для визуализации рекламных сообщений.
Наверх