Многомодальный подвижный автомат информационного обслуживания

 

Техническое решение относится к вычислительной технике, в частности, к устройствам манипулирования данными, представленными на естественном языке, и может быть использовано для массового обслуживания и оказания информационно-справочных услуг в общественных местах, например торговых комплексах, развлекательных центрах, транспортных узлах и т.д. Техническим результатом является расширение зоны обслуживания и повышение качества человеко-машинного взаимодействия при оказании услуг информационно-справочного характера. Устройство состоит из информационной стойки, содержащей бортовой компьютер, два сенсорных монитора, четыре видеокамеры, два массива микрофонов, два динамика, беспроводной маршрутизатор, многоканальную плату аудиозахвата, аккумулятор, преобразователь тока; и подвижной платформы, включающей два привода с шаговыми двигателями, плата автоматического управления приводами, ультразвуковые и инфракрасные датчики для определения препятствий. Многомодальный пользовательский интерфейс реализован на основе программно-аппаратных средств многоканальной аудиовизуальной обработки сигналов, включая технологии компьютерного зрения для определения положения тела и лица пользователя; спектрально-пространственного определения границ полезного речевого сигнала; дикторонезависимого дистанционного распознавания русской речи; аудиовизуального синтеза русской речи.

Техническое. решение относится к вычислительной технике, в частности, к устройствам манипулирования данными, представленными на естественном языке, и может быть использовано для массового обслуживания и оказания информационно-справочных услуг в общественных местах, например торговых комплексах, развлекательных центрах, транспортных узлах и т.д.

Существуют устройства [1, 2, 3] (банкоматы), предназначенные для оказания информационных услуг населению. Область применения ограничена их прикладным назначением и техническим исполнением. Данные устройства оборудованы картоприемниками, клавиатурами, мониторами, динамиками, камерами и микрофонами. Устройства предназначены для выполнения операций с банковскими картами. Камеры и микрофоны в этих устройствах используются для работы системы безопасности. Способы взаимодействия пользователя с устройством ограничены вводом данных с помощью клавиатуры, либо сенсорного экрана (в некоторых случаях), а вся необходимая пользователю информация выводится на дисплей. Данные устройства не способны взаимодействовать с пользователем альтернативными способами на основе анализа/синтеза речи, жестов и других естественных модальностей и, следовательно, не могут быть использованы некоторыми группами населения, например слабовидящими или некоторыми глухими людьми.

Известны устройства [4, 5, 6], служащие в качестве платежных, справочных и рекламно-развлекательных терминалов. Данный вид устройств предоставляет информационно-справочную или рекламную информацию, вывод которой осуществляется как визуально с помощью мониторов, так и в озвученном виде через динамики. Также известны устройства, дополнительно оснащенные датчиками присутствия посетителя [7], при срабатывании которых устройство выходит из рекламного режима и выводит на дисплей графическое меню с предоставляемыми услугами. Также существуют распределенные справочные системы, при использовании которых клиент передает и получает информацию с помощью персонального пользовательского устройства, соединенного информационным каналом с серверной частью, где происходит обработка запроса [8].

Наиболее близким к заявленному устройству по техническим характеристикам является устройство [9], содержащее центральный блок управления, выполненный в виде компьютера, панель выбора товара с клавиатурой, устройство отображения информации, микрофон записи звуковых сообщений и посланий и звуковое устройство, соединенное с компьютером, датчик приближения и устройство записи видео- и фотоинформации, выполненное в виде веб- или фотокамеры, соединенной с компьютером. Данное устройство не способно использовать дополнительные информационные каналы, естественные для пользователя. Устройство является стационарным, не имеющим возможности самостоятельного передвижения, и выпускается в напольной или навесной модификациях. Это устройство обслуживает только пользователей, находящихся в непосредственной близости, и не всегда доступно для людей с ограниченными физическими возможностями. Недостатком данного устройства являются ограниченные возможности по естественному бесконтактному взаимодействию с пользователем и ограниченная зона обслуживания, обусловленная стационарностью устройства.

Новизной заявляемого технического решения является применение средств и технологий, реализующих многомодальное взаимодействие пользователя с информационно-справочной системой, и расширение зоны функционирования за счет мобильности устройства. Это достигается путем совмещения нескольких информационных каналов, позволяющих выбирать наиболее подходящий для каждого пользователя способ коммуникации. Наличие нескольких возможных способов взаимодействия обеспечивается в первую очередь техническим и технологическим оснащением устройства. Ниже на изображении представлена схема устройства.

Изделие представляет собой информационную стойку, установленную на подвижной платформе. Стойка оснащена двумя сенсорными мониторами, расположенными на двух ее противоположных сторонах и предназначенных для ввода и вывода информации. Четыре видеокамеры установлены слева и справа от каждого из мониторов и обеспечивают дистанционное обнаружение пользователей и отслеживание их перемещений. Массивы микрофонов Т-образной геометрии обеспечивают аудиолокализацию пользователя по его речи относительно устройства и работу системы распознавания речи. Вся информация, поступающая с камер, микрофонов и сенсорных мониторов, обрабатывается бортовым компьютером, встроенным в информационную стойку.

Для самостоятельного перемещения по заданной территории устройство оснащено подвижной платформой, компоновочная схема шасси которой состоит из двух ведущих и двух флюгерных колес; для обнаружения препятствий по внешней окружности платформы расположены четыре ультразвуковых и восемь инфракрасных датчиков, обеспечивающих своевременное обнаружение препятствий, возникающих по курсу движения устройства.

Перемещение по заданной территории обеспечивается составленными картами местности, с обозначенными основными статическими препятствиями. Устройство перемещается по маршрутам, задаваемым на этой карте. Маршруты составляются таким образом, чтобы полностью покрывать территорию и иметь возможность доступа к любой возможной точке зоны обслуживания. В подвижной платформе также находятся платы управления приводами и датчиками, соединенные с бортовым компьютером.

Вся информация, поступающая по информационным каналам в бортовой компьютер, обрабатывается с последующей выработкой команд и выбора режима работы устройства.

Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного устройства. Разработанные авторами технологии обработки аудиовизуальных данных внедрены в устройство для обеспечения естественного и интуитивно понятного взаимодействия с пользователем [10]. Наиболее важными технологиями являются автоматическое распознавание речи, локализация источников звука, определение положения и слежение за лицом человека, аудиовизуальный синтез русской речи («говорящая голова»).

Метод спектрально-пространственного анализа речевой активности использован в системе дистанционной записи и распознавания речи. Пространственная локализация диктора осуществляется за счет использования антропоморфных моделей слуха и трехмерной геометрии массива микрофонов. Определение значения максимума корреляции взаимного спектра пар сигналов, записанных разными микрофонами, позволяет оценить разность фаз между сигналами, а последующее вычисление координат источника звука производится методом триангуляции. Уровень энергии взаимного спектра сигналов и оценка допустимого положения диктора используется для определения границ речи в многоканальном звуковом потоке, записанном в зашумленных местах массового использования [11].

Для системы распознавания русской речи использована модель компактного представления словаря сверхбольшого размера на базе двухуровневого морфофонемного префиксного графа (ДМПГ). За счет интеграции морфемного и фонетического уровней в единой древовидной структуре словаря обеспечивается компактное представление словоформ и их фонематических транскрипций [12]. В процессе декодирования русской слитной речи ДМПГ обеспечивает формирование на выходе распознавателя грамматически правильных слов и позволяет увеличить скорость распознавания речи.

Алгоритм определения положения и видеослежения за подвижным объектом основан на оценке изменений в соседних кадрах, а также учитывает реальные размеры людей, скорости и направления их перемещений, зоны допустимого появления объектов, что делает алгоритм устойчивым по отношению к внезапным изменениям освещенности и позволяет различать объекты в случае их сближения.

Одним из основных компонентов подсистемы вывода информации в информационной стойке, помимо графического пользовательского интерфейса, является модель аудиовизуального синтеза речи («говорящая голова»), или виртуальный анимированный помощник (аватар) [13]. Аватар - это трехмерная модель лица человека с двигающимися глазами, ртом и лицевыми мускулами. Модель аватара может разговаривать, синхронизируя движения рта, губ и зубов с синтезированным голосом или заранее сделанной аудиозаписью. Синхронизация движения губ с синтезированной или записанной речью создает иллюзию «живой говорящей головы». Модель аватара имеет подвижные глаза, веки и лицевые мускулы, что позволяет ему выразительно отображать широкий спектр эмоций.

Аватар информационной стойки выполняет две функции. Во-первых, используя информацию о перемещениях клиента, полученную от системы компьютерного зрения, он способен симулировать проявление внимания к клиенту. Устройство отслеживает положение и перемещение потенциальных пользователей, а аватар поворачивается и наблюдает за приближающимися клиентами. Когда клиент подходит достаточно близко и проявляет интерес к киоску, аватар произносит приветствие. Используя данные о перемещениях клиента и динамическую модель движения головы, аватар поворачивается таким образом, чтобы все время быть направленным на клиента, при этом глаза аватара фокусируются на лице человека. По мере того как клиент осуществляет поиск нужной информации, аватар помогает ему, давая вербальные указания по поводу навигации, отвечая на вопросы и обеспечивая клиента другой полезной информацией. Аватар привлекает людей к информационно-справочной стойке, побуждает их пользоваться им и даже развлекает их. Внимание проходящих мимо людей привлекается, когда аватар поворачивает голову в их сторону и наблюдает за ними.

Множество режимов работы информационно-справочного устройства включает: диалог с посетителем; сопровождение посетителя; рекламный режим; движение на парковку. В каждом из режимов рассчитывается свой маршрут передвижения и способ взаимодействия с посетителями. Также на выбор режима и изменение маршрута влияет возникновение динамических препятствий и состояние аккумуляторных батарей робота. При появлении посетителя в зоне речевого диалога производится аудиовизуальный синтез приветствия и запрашивается название интересующего объекта, после чего робот сопровождает посетителя до нужного места и вновь переходит в режим рекламирования. Логическая модель переходов в различные режимы представлена ниже.

В режиме движения с выводом рекламы, на мониторах устройства проигрывается рекламная информация, при появлении пользователя в зоне взаимодействия устройство переходит в режим диалога с пользователем.

Режим диалога с пользователем включает в себя установление контакта с пользователем, выявление его предпочтений и предоставление необходимой информационно-справочной информации. Также в этом режиме происходит слежение за перемещением пользователя.

Режим сопровождения посетителей, заключается в предоставлении услуги сопровождения по запросу пользователя. В этом режиме устройство автоматически выбирает маршрут до интересующего пользователя места и перемещается в это место, предлагая пользователю следовать за ним.

В режиме движения на парковку устройство переходит автоматически по окончании рабочего дня или при обнаружении снижения зарядов аккумуляторов до критического значения.

Во всех режимах работы происходит опрос датчиков препятствий и состояния аккумуляторов. При снижении заряда аккумуляторов устройство оповещает об этом пользователей, если они есть, и переходит в режим движения на парковку.

Базовый сценарий поведения устройства в режиме диалога в зависимости от действий пользователя, представлен ниже, где отражены наиболее типичные случаи взаимодействия, например: (1) пользователь прошел мимо устройства слишком быстро, чтобы сработал модуль видеолокализации; (2) пользователь вошел в зону видеомониторинга, был запущен аудиовизуальный синтез приветствия, но пользователь прошел дальше; (3) пользователь произнес голосовую команду в зоне речевого диалога, его аудиосигнал был зарегистрирован как полезный, распознан, произведен поиск необходимой информации в базе данных, а результат выведен на экран киоска и синтезирован посредством «говорящей головы», после чего пользователь ушел от устройства, получив нужные ему данные.

Отметим что, приветствие инициируется только для первого человека, вошедшего в зону видеомониторинга пользователя. Если во время текущего сеанса модуль видеолокализации обнаруживает еще лица, то приветствие не запускается. Однако говорящая голова аватара направляется на лицо того пользователя, который расположен ближе всего к устройству. После ухода пользователя и отсутствия других лиц в зоне видеомониторинга в течение определенного времени устройство снова переходит в начальное состояние. В ходе одного сеанса взаимодействия пользователь может сделать несколько голосовых запросов к устройству, в этом случае этапы аудиообработки и вывода информации на экран повторяются соответствующее число раз.

На рисунке 1 показана схема устройства. Оно содержит бортовой компьютер 1, представляющий собой персональный компьютер с многоядерной архитектурой, к которому подключены сенсорные мониторы 2 и 3, камеры 4, 5, 6, 7, многоканальная плата аудиозахвата 8, беспроводной маршрутизатор 9, динамики 10 и 11. К плате аудиозахвата подключены массивы микрофонов 14 и 15. На компьютере происходит обработка аудиоданных, поступающих с массивов микрофонов 14, 15 через плату аудиозахвата 8, выработка команды управления и вывод необходимой аудиовизуальной информации на мониторы 2, 3 и динамики 10, 11. С помощью беспроводного маршрутизатора 9 устройство имеет доступ к сети Интернет, также имеется возможность подключения к устройству для проведения удаленного технического обслуживания.

Электроприводы 16 и 17 подключены к плате управления приводами 12, которая в свою очередь соединена информационным кабелем с бортовым компьютером 1, который вырабатывает управляющие команды. Плата управления датчиками 13, получает и преобразует данные, поступающие от инфракрасных датчиков 18, 19, 20, 21, 22, 23, 24, 25 и ультразвуковых датчиков 26, 27, 28, 29, расположенных по внешней окружности платформы, после чего эти данные поступают в бортовой компьютер 1 посредством информационного интерфейса PCI. В устройстве также имеется аккумулятор 30, обеспечивающий автономную работу всех систем.

При обнаружении пользователя с помощью одной из камер 4, 5, 6, 7 запускается режим диалога. Посредством аудиовизуального синтеза генерируется приветствие и затем пользователю предоставляется краткая информация о режимах взаимодействия с помощью голосового сообщения через динамики 10, 11 и анимации движений говорящей головы на мониторе. Голосовой запрос пользователя выявляется массивом микрофонов 14 или 15 в зависимости от расположения пользователя и обрабатывается на бортовом компьютере системами аудиолокализации и дистанционного распознавания речи. В случае если запрос был успешно распознан и необходимая пользователю информация обнаружена в информационной базе данных, то соответствующие сведения отображаются на мониторе 2 или 3 в зависимости от расположения пользователя и озвучиваются через динамики. При необходимости производится дополнительный запрос информации у пользователя (уточнение запроса, необходимости сопровождения пользователя до точки). Если пользователь запросил сопровождение, то бортовой компьютер 1 производит расчет маршрута и начинает управление передвижением платформы по расчетной траектории. В процессе передвижения происходит анализ показаний датчиков 18-29 и, в случае обнаружения ими препятствия, производится остановка устройства или объезд помехи в зависимости от ситуации. В ходе сопровождения пользователя устройство может выводить аудиовизуальную информацию, связанную с объектом назначения, или организовать удаленную связь с его представителем.

Положительный эффект, который дает предлагаемое техническое решение, состоит в том, что устройство в дополнение к стандартным средствам ввода/вывода на основе графического пользовательского интерфейса включает программно-аппаратные средства для анализа и синтеза естественно-языковой информации, что расширяет круг пользователей, а возможность самостоятельного передвижения устройства увеличивает зону предоставления услуг и обслуживания посетителей.

При составлении описания и формулировании технического решения были использованы следующие источники информации:

1. Григжи Ш., Тьюроси К., Фоклер Г., Грэф X.Т., Крафт Д., Шеффлер Д., Канса Р., Ковач Д.А., Утц З., Тула П., Ваймер М., Дугласе М., Льют Р.К., Бут Д., Истмен Д., Бескитт У.Д., Дженкинс Р., Шабат У.Дж., Млечива Р., Ван Ц.Ю., Вайшнав Д.X., Юн Д., Фэлт Д., Холлифилд Д., Мэджи П.Д., Баркер Д.А., Барнетт Р.В., Ватсон Т., Бауэр Т. Патент RU 2310235 С2 МПК G07F 19/00, G06Q 90/00, 2007

2. Шурыгин И.В., Патент RU 67751 U1 МПК G07F 19/00, 2007.

3. Граф X.Т., Контор К., Харти М., Джоунз Б., Патент RU 2312811 С2 МПК В65Н 3/06, 2007.

4. Ковалев А.Э., Патент RU 82898 U1, МПК G06F 17/50, 2008.

5. Лебедев Д.В., Патент RU 83870 U1, МПК G09F 19/00, 2009.

6. Багаева Н.В., Патент RU 56026 U1, МПК G06F 17/00, 2006.

7. Объедков А.П., Патент RU 79695 U1, МПК G06F 19/00, 2008.

8. Чупов М.В., Патент RU 2009103232 А, МПК G06Q 30/00, 2010.

9. Абрамов М.А., Матасов Ф.В., Патент RU 71180 U1 МПК G07F 11/00, 2007.

10. Свидетельство о регистрации ПрЭВМ 2010617640 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 18 ноября 2010 г.: Ронжин А.Л., Карпов А.А., Кипяткова И.С. Многомодальный пользовательский интерфейс для интеллектуальной информационной системы.

11. Свидетельство о регистрации ПрЭВМ 2009610481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 21 января 2009 г.: Ронжин А.Л. Модуль спектрально-пространственного анализа речевой активности (SVAD).

12. Свидетельство о регистрации ПрЭВМ 2008611032 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008 г.: Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А., Карпов А.А. Декодер русской слитной речи на базе двухуровневого морфофонемного префиксного графа (SIRIUS).

13. А.А.Карпов, Л.И.Цирульник, М.Железны. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту // Информационные технологии. - М.: Новые Технологии, 8, т.9, 2010, С.13-18.

Устройство для автоматического предоставления пользователям информационно-справочных услуг в ходе многомодального диалога и самостоятельного передвижения по заданной территории обслуживания, содержащее информационную стойку, которая имеет две рабочих стороны с одинаковым функционалом и расположением средств захвата и отображения аудиовизуальной информации, оснащена двумя сенсорными мониторами, четырьмя видеокамерами, встроенными слева и справа от каждого монитора; двумя массивами микрофонов, бортовым компьютером, обрабатывающим данные, поступающие с камер, микрофонов, сенсорных мониторов, датчиков препятствий, и установлена на подвижной платформе, компоновочная схема шасси которой состоит из двух ведущих и двух флюгерных колес, а для обнаружения препятствий по внешней окружности платформы расположены четыре ультразвуковых и восемь инфракрасных датчиков; встроенные аккумуляторы обеспечивают автономную работу всех бортовых устройств и электроприводов шасси, отличающееся тем, что массивы микрофонов имеют Т-образную конфигурацию и выполняют многоканальную запись аудиоданных, которые далее обрабатываются в программном блоке пространственно-спектральной фильтрации полезного речевого сигнала и в программном блоке распознавания речи, реализованных в бортовом компьютере устройства; сенсорные мониторы, обеспечивающие ввод/вывод графической информации, в комплексе с динамиками служат для аудиовизуального вывода речевой информации посредством виртуальной трехмерной модели головы человека с выраженной артикуляцией губ и синхронного синтеза аудиосигнала речевого сообщения, генерируемых в программном блоке бимодального синтеза русской речи; многоканальная обработка поступающих от видеокамер сигналов в программном блоке обработки видеоданных обеспечивает определение наличия пользователей и слежение за перемещениями их лиц; два вида бесконтактных датчиков препятствий, рассчитанных на разные расстояния и время срабатывания, обеспечивают своевременное обнаружение динамических помех, возникающих по маршруту движения устройства.



 

Похожие патенты:

Полезная модель предназначена для снятия параметров акустических колебаний при неразрушающем контроле, основанном на возбуждении свободно затухающих упругих колебаний в контролируемом объекте или его части и последующем анализе параметров этих колебаний, и может быть использована в различных отраслях промышленности и испытательной технике.

Интеллектуальная независимая система мониторинга и оценки качества научно-технических документов относится к области вычислительной техники, в частности, к интеллектуальной системе, предназначенной для автоматизированного вычисления оценки качества научно-технических документов

Изобретение относится к строительству пространственной фундаментной платформы с многоэтажными зданиями в особых грунтовых условиях и сейсмичности

Блок цифровой обработки (бос) сигнала баркера при его обнаружении относится к области радиотехники, и может быть использован в радиолокационных системах обнаружения и распознавания, обеспечивая обработку сложных сигналов, в том числе, линейно-частотно модулированных сигналов с внутриимпульсной фазо-кодовой манипуляцией.
Наверх