Стереоскопическая система обнаружения пешеходов с двухпоточной нейронной сетью с глубоким обучением и способы ее применения
Изобретение относится к области обработки видеоинформации. Система обнаружения пешеходов содержит стереоскопическую камеру для захвата определенных стереоскопических изображений пешеходов, проходящих через заданный участок, схему ASIC для обработки захваченных стереоскопических изображений, контроллер стереоскопической системы обнаружения пешеходов, имеющий процессор, сетевой интерфейс и память, в которой хранятся исполняемые компьютером команды, которые заставляют процессор выполнить: захват стереоскопической камерой стереоскопических изображений пешеходов, ректификацию стереоскопических изображений, вычисление карт диспаратности ректифицированных стереоскопических изображений, обучение двухпоточной нейронной сети с глубоким обучением, в которой содержится нейронная сеть извлечения признаков диспаратности из карт диспаратности множества стереоскопических изображений пешеходов, и нейронную сеть изучения и объединения признаков, полученных из левых ректифицированных изображений и карт диспаратности множества стереоскопических изображений пешеходов, обнаружение множества пешеходов, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети с глубоким обучением. Технический результат - обеспечение возможности создания стереоскопической системы обнаружения пешеходов. 2 н. и 18 з.п. ф-лы, 9 ил.
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение в целом относится к обнаружению пешеходов, в частности, к стереоскопической системе обнаружения пешеходов, имеющей двухпоточную нейронную сеть с глубоким обучением, и способам использования стереоскопической системы обнаружения пешеходов, имеющей двухпоточную нейронную сеть с глубоким обучением.
ИЗВЕСТНЫЙ УРОВЕНЬ ТЕХНИКИ
Обнаружение пешеходов играет ключевую роль в видеонаблюдении и подсчете количества людей на заданной территории, такой как магазин, улица или стадион. Для обнаружения пешеходов могут использоваться разные способы: (а) монокулярное видеодетектирование пешеходов на основе изображения одного кадра, (б) монокулярное видеодетектирование пешеходов на основе информации о движении в кадре; (в) обнаружение пешеходов, основанное на стереоскопическом зрении, (г) обнаружение пешеходов с использованием системы получения трехмерных данных, и др. В способе (а) используется только информация о цвете и текстуре монокулярных RGB-изображений. Для целей, которые трудно выделить, таких как тени, следы или пешеход в головном уборе, он обладает низкой робастностью, и часто случаются ошибки детектирования. В способе (б) извлекается информация о движении пешеходов, основанная на признаках контуров между последующими кадрами, для обнаружения пешеходов в движении он дает хорошие результаты и имеет высокую робастность. Однако для неподвижных пешеходов этот способ не очень хорош, так как между последующими кадрами сложно извлечь признаки контуров, и обнаружение пешеходов часто не удается выполнить. В способе (в) для получения более точных результатов обнаружения пешеходов используется информация из стереоскопических изображений. Однако существующий способ используется только для выбора области анализа в кадре по картам диспаратности, обнаружение пешехода в области анализа также основывается на определении характеристик монокулярного RGB-изображения. Следовательно, при обнаружении пешеходов этот способ может использоваться для исключения ложных целей (таких как тени, следы), а обнаружение особых целей, таких как пешеходы в головном уборе, остается ненадежным. С помощью способа обнаружения пешеходов, при котором используется оборудование для получения трехмерных данных, по собранной способом (г) трехмерной информации могут быть точно определены положения целей в трехмерном пространстве. Однако этот подход требует использования дополнительных дорогостоящих систем сбора трехмерных данных, таких как лидар, которыми трудно оснастить общественные места, поэтому такой способ менее удобен при реализации на практике.
Следовательно, в данной области техники существуют вышеупомянутые преграды и недостатки, не устраненные на настоящий момент.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Одна из особенностей состоит в том, что настоящее изобретение относится к стереоскопическим системам обнаружения пешеходов. В некоторых вариантах осуществления стереоскопическая система обнаружения пешеходов включает в себя стереоскопическую камеру, специализированную интегральную схему (СИС) обработки изображений/видео и контроллер стереоскопической системы обнаружения пешеходов. Стереоскопическая камера содержит первую камеру и вторую камеру, предназначенные для захвата некоторого количества стереоскопических изображений пешеходов, проходящих через заданный участок. Первая камера содержит в себе первый объектив и первый КМОП-приемник для захвата левого изображения через первый объектив. Вторая камера содержит в себе второй объектив и второй КМОП-приемник для захвата правого изображения через второй объектив. Левое и правое изображения формируют стереоскопическое изображение. СИС обработки изображений/видео предварительно обрабатывает стереоскопические изображения пешеходов, захваченные стереоскопической камерой. Контроллер стереоскопической системы обнаружения пешеходов содержит процессор, сетевой интерфейс и память, на которой хранится операционная система и исполняемые компьютером команды. При выполнении в процессоре исполняемых компьютером команд, исполняемые компьютером команды заставляют процессор выполнить одно или несколько из следующих заданий: захват стереоскопической камерой стереоскопических изображений пешеходов, проходящих через заданный участок; ректификацию захваченных стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео; вычисление карт диспаратности ректифицированных стереоскопических изображений пешеходов; обучение двухпоточной нейронной сети с глубоким обучением и обнаружение пешеходов, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети с глубоким обучением. Двухпоточная нейронная сеть с глубоким обучением содержит в себе нейронную сеть извлечения признаков диспаратности из карт диспаратности стереоскопических изображений пешеходов, и нейронную сеть изучения и объединения признаков RGB и диспаратности, полученных из стереоскопических изображений пешеходов.
В некоторых вариантах осуществления стереоскопические изображения пешеходов включают в себя определенные обучающие изображения пешеходов и некоторые стереоизображения пешеходов, поученные в реальном времени стереоскопической камерой для обнаружения пешеходов. СИС обработки изображений/видео запрограммирована для выполнения: калибровки стереоскопической камеры; ректификации стереоскопических изображений пешеходов; вычисления карт диспаратности обучающих стереоскопических изображений пешеходов на стадии обучения; и вычисления карт диспаратности стереоскопических изображений пешеходов, полученных в реальном времени, на стадии применения.
В некоторых вариантах осуществления стадия обучения включает в себя: 1) обучение нейронной сети извлечения признаков диспаратности с использованием карт диспаратности стереоскопических изображений пешеходов, 2) обучение нейронной сети изучению RGB-признаков и слиянию RGB-признаков и признаков диспаратности, при этом изучение RGB-признаков основывается только на левом изображении пешеходов, 3) наложение обученных нейронных сетей друг на друга для формирования двухпоточной нейронной сети с глубоким обучением, 4) точная настройка сформированной двухпоточной нейронной сети с глубоким обучением с использованием левых изображений и карт диспаратности стереоскопических изображений пешеходов.
В некоторых вариантах осуществления, стадия применения включает в себя: захват в реальном времени стереоскопической камерой стереоскопических изображений; ректификацию с использованием СИС обработки изображений/видео захваченных в реальном времени стереоскопических изображений; вычисление, с использованием СИС обработки изображений/видео, карт диспаратности ректифицированных стереоскопических изображений, полученных в реальном времени; обнаружение пешеходов по левым изображениям, связанным с картами диспаратности стереоскопических изображений, полученных в реальном времени, с использованием двухпоточной нейронной сети с глубоким обучением, сформированной на стадии обучения; и выполнение операции подавления немаксимумов с результатами обнаружения для получения итоговых результатов обнаружения пешеходов.
В некоторых вариантах осуществления процесс обнаружения пешеходов с использованием двухпоточной нейронной сети с глубоким обучением включает в себя: извлечение признаков диспаратности из карт диспаратности стереоскопических изображений, полученных в реальном времени, основанное на нейронной сети извлечения признаков диспаратности; изучение RGB-признаков по левым изображениям с использованием первых N слоев нейронной сети признаков RGB и диспаратности; наложение извлеченных признаков диспаратности и изученных RGB-признаков при их передаче через несколько каналов; и слияние признаков диспаратности и RGB с использованием последних M-N слоев нейронной сети изучения и слияния признаков с целью получения итоговых результатов обнаружения пешеходов. В некоторых вариантах осуществления N - положительное целое число, а М - положительное целое число больше N, являющееся общим числом слоев нейронной сети изучения и слияния признаков. В одном варианте осуществления N равно 7, а М равно 15.
В одном варианте осуществления стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вертикально вниз на пешеходов, проходящих через дверной проем. В еще одном варианте осуществления стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вниз на пешеходов, проходящих через дверной проем, под определенным углом.
В некоторых вариантах осуществления интерфейс нейронной сети может быть представлен сетевым интерфейсом power-on-ethernet (РОЕ). Питание стереоскопической системы обнаружения пешеходов происходит через сетевой интерфейс РОЕ, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс и сеть передачи данных.
Другая особенность состоит в том, что настоящее изобретение относится к способу обнаружения пешеходов при помощи стереоскопической системы обнаружения пешеходов. В некоторых вариантах осуществления указанный способ включает в себя: захват некоторых стереоскопических изображений пешеходов, проходящих через заданный участок, при помощи стереоскопической камеры стереоскопической системы обнаружения пешеходов; ректификацию захваченных стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео стереоскопической системы обнаружения пешеходов; вычисление, с использованием СИС обработки изображений/видео, карт диспаратности ректифицированных стереоскопических изображений пешеходов; обучение двухпоточной нейронной сети с глубоким обучением с использованием левых изображений и карт диспаратности стереоскопических изображений пешеходов; и обнаружение пешеходов, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети с глубоким обучением.
В некоторых вариантах осуществления двухпоточная нейронная сеть с глубоким обучением содержит в себе нейронную сеть для извлечения признаков диспаратности из карт диспаратности стереоскопических изображений, и нейронную сеть изучения RGB-признаков и слияния признаков RGB и диспаратности, полученных из стереоскопических изображений.
В некоторых вариантах осуществления стереоскопическая система обнаружения пешеходов включает в себя стереоскопическую камеру, специализированную интегральную схему (СИС) обработки изображений/видео и контроллер стереоскопической системы обнаружения пешеходов. Стереоскопическая камера содержит первую камеру и вторую камеру, предназначенные для захвата некоторого количества стереоскопических изображений пешеходов, проходящих через заданный участок. Первая камера содержит в себе первый объектив и первый КМОП-приемник для захвата левого изображения через первый объектив. Вторая камера содержит в себе второй объектив и второй КМОП-приемник для захвата правого изображения через второй объектив. Левое и правое изображения формируют стереоскопическое изображение. СИС обработки изображений/видео предварительно обрабатывает стереоскопические изображения пешеходов, захваченные стереоскопической камерой. Контроллер стереоскопической системы обнаружения пешеходов содержит процессор, сетевой интерфейс и память, на которой хранится операционная система и исполняемые компьютером команды. При выполнении в процессоре исполняемых компьютером команд, исполняемые компьютером команды заставляют процессор выполнить одну или несколько операций из описываемого способа.
В некоторых вариантах осуществления стереоскопические изображения пешеходов включают в себя определенные обучающие изображения пешеходов и некоторые стереоизображения пешеходов, поученные в реальном времени стереоскопической камерой для обнаружения пешеходов. СИС обработки изображений/видео запрограммирована для выполнения: калибровки стереоскопической камеры; ректификации стереоскопических изображений пешеходов; вычисления карт диспаратности обучающих стереоскопических изображений пешеходов на стадии обучения; и вычисления карт диспаратности стереоскопических изображений пешеходов, полученных в реальном времени, на стадии применения.
В некоторых вариантах осуществления стадия обучения включает в себя: обучение нейронной сети извлечения признаков диспаратности с использованием карт диспаратности стереоскопических изображений пешеходов; обучение нейронной сети изучения и слияния признаков RGB и диспаратности, при этом изучение RGB-признаков основывается только на левом изображении пешеходов; наложение обученных нейронных сетей друг на друга для формирования двухпоточной нейронной сети с глубоким обучением; и точная настройка сформированной двухпоточной нейронной сети с глубоким обучением с использованием левых изображений и карт диспаратности стереоскопических изображений пешеходов.
В некоторых вариантах осуществления, стадия применения включает в себя: захват в реальном времени стереоскопических изображений пешеходов стереоскопической камерой; ректификацию захваченных в реальном времени стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео; вычисление, с использованием СИС обработки изображений/видео, карт диспаратности ректифицированных полученных в реальном времени стереоскопических изображений пешеходов; и обнаружение пешеходов по левым изображениям и картам диспаратности стереоскопических изображений, полученных в реальном времени, с использованием двухпоточной нейронной сети с глубоким обучением, сформированной на стадии обучения; и выполнение операции подавления немаксимумов с результатами обнаружения для получения итоговых результатов обнаружения пешеходов.
В некоторых вариантах осуществления процесс обнаружения пешеходов с использованием двухпоточной нейронной сети с глубоким обучением включает в себя: извлечение признаков диспаратности из карт диспаратности полученных в реальном времени стереоскопических изображений пешеходов с использованием нейронной сети извлечения признаков диспаратности; изучение RGB-признаков по левым изображениям пешеходов с использованием первых N слоев нейронной сети изучения и слияния признаков RGB и диспаратности; наложение извлеченных признаков диспаратности и изученных RGB-признаков при их передаче через несколько каналов; и слияние признаков диспаратности и RGB с использованием последних M-N слоев нейронной сети изучения и слияния признаков с целью получения итоговых результатов обнаружения пешеходов. В некоторых вариантах осуществления N - положительное целое число, а М - положительное целое число больше N, являющееся общим числом слоев нейронной сети изучения и слияния признаков. В одном варианте осуществления N равно 7, а М равно 15.
В одном варианте осуществления стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вертикально вниз на пешеходов, проходящих через дверной проем. В еще одном варианте осуществления стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вниз на пешеходов, проходящих через дверной проем, под определенным углом.
В некоторых вариантах осуществления интерфейс нейронной сети может быть представлен сетевым интерфейсом power-on-ethernet (РОЕ). Питание стереоскопической системы обнаружения пешеходов происходит через сетевой интерфейс РОЕ, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс и сеть передачи данных.
Эти и другие особенности настоящего изобретения очевидны из следующего ниже описания предпочтительного варианта осуществления, которое ведется со ссылками на прилагаемые рисунки, хотя в него могут быть внесены изменения и дополнения, которые не выходят за пределы существа и объема идей изобретения.
КРАТКОЕ ОПИСАНИЕ РИСУНКОВ
Прилагаемые рисунки иллюстрируют одно или несколько вариантов осуществления настоящего изобретения, а его признаки и эффекты, вместе с письменным описанием, служат для объяснения принципов настоящего изобретения. Везде, где возможно, на всех рисунках используются одинаковые номера позиций, обозначающие одинаковые или похожие элементы варианта осуществления, где:
на ФИГ. 1 показана блок-схема стереоскопической системы обнаружения пешеходов, имеющей двухпоточную нейронную сеть с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 2 показан вид снизу стереоскопической системы обнаружения пешеходов, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 3 показана стереоскопическая система обнаружения пешеходов, установленная над дверным проемом для обнаружения пешеходов, проходящих внутрь или наружу дверного проема, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 4 показана стереоскопическая система обнаружения пешеходов, установленная над дверным проемом для обнаружения пешеходов, направленная вниз, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 5 показана стереоскопическая система обнаружения пешеходов, установленная над дверным проемом для обнаружения пешеходов, направленная на пешеходов под углом, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 6 показана блок-схема стадии обучения и применения двухпоточной нейронной сети с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 7 подробно показана операция обнаружения пешеходов с использованием двухпоточной нейронной сети с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 8 показана схема нейронной сети на основе метода single shot multibox detector (SSD), использующая двухпоточную нейронную сеть с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на ФИГ. 9 показаны некоторые ветви детектирования нейронной сети SSD, обозначенные на схеме двухпоточной нейронной сети с глубоким обучением на ФИГ. 9, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
Настоящее изобретение более подробно описано в следующих примерах, которые служат только для иллюстрации, так как возможны его многочисленные изменения и дополнения, очевидные специалистам в данной области техники. Далее подробно описываются различные варианты осуществления изобретения. В ссылках на рисунки одинаковые компоненты имеют одинаковые номера позиций, если это имеет место, на всех видах. В настоящем описании и следующей за ним формуле изобретения единственное число существительных подразумевает в том числе множественность, если контекст явно не указывает обратное. Также в настоящем описании и следующей за ним формуле изобретения, предлог "в" включает в себя значение "в" и "на", если контекст явно не указывает обратное. Более того, для удобства читателя в спецификации могут использоваться названия и подписи, что не должно влиять на объем настоящего изобретения. В дополнение, более точное определение некоторых терминов, используемых в этой спецификации, приведено ниже.
Термины, используемые в этой спецификации, в общем случае имеют свое обычное для данной области техники значение в контексте изобретения и узком контексте, в котором используется каждый термин. Пояснения к некоторым терминам, используемым для описания изобретения, приведены ниже или в спецификации, чтобы облегчить понимание специалисту, читающему описание данного изобретения. Для удобства некоторые термины могут быть графически выделены, например, курсивом и/или кавычками. Использование выделения не влияет на объем и значение термина; объем и значение термина остаются прежними, в том же контексте, не зависимо от того, выделен он или нет. Специалистам в данной области техники очевидно, что одна и та же идея может быть объяснена несколькими способами. Следовательно, другие формулировки или синонимы могут использоваться для одного или более терминов, о которых идет речь, никакого дополнительного значения к термину не добавляется, не зависимо, раскрывается ли он подробнее или обсуждается в этом документе. Для некоторых терминов приводятся синонимы. Упоминание одного или нескольких синонимов не исключает использование других синонимов. Использование примеров в этой спецификации, включая примеры каких-либо терминов, о которых идет речь в этом разделе, носит исключительно иллюстративный характер и ни в коем случае не ограничивает объем и значение изобретения или какого-либо из терминов, который поясняется примером. Подобным образом, изобретение не ограничивается различными вариантами осуществления, приведенных в этой спецификации.
Если иное не указано, все используемые технические и научные термины имеют общепринятое значение и понятное для среднего специалиста в данной области, для которого предназначается данное изобретение. В случае противоречий, настоящий документ, включая определения, имеет приоритет.
Используемые в этом описании слова "около", "примерно" и "приблизительно" обычно означают в пределах 20%, предпочтительно в пределах 10%, а еще более предпочтительно в пределах 5%
указанного значения или диапазона. Численные значения, указанные в документе, являются приблизительными, это означает, что термины "около", "примерно" и "приблизительно" могут подразумеваться, если не написаны явно.
В данном документе понятие "множество" означает два и более.
В данном документе слова "содержащий", "включающий в себя", "заключающий в себе", "имеющий", "вмещающий" и им подобные следует понимать как неограничивающие, то есть подразумевающие "в том числе".
В данном документе фраза "по меньшей мере один из А, В и С" должна трактоваться как логическое предложение (А или В или С), в которой используется не исключающее логическое ИЛИ. Следует понимать, что один или более этапов в пределах способа могут выполняться в разном порядке (или одновременно) без изменения принципов настоящего изобретения.
В данном документе термин "модуль" может обозначать специализированную интегральную схему (СИС), быть ее частью или содержать ее в себе; электрическую схему; схему комбинационной логики; программируемую вентильную матрицу (FPGA); процессор (совместно используемый, выделенный или группа процессоров), выполняющий код; другие необходимые аппаратные компоненты, обеспечивающие описанный функционал; или сочетание некоторых или всех указанных выше средств, такое как однокристальная система. Термин "модуль" может включать в себя память (совместно используемую, выделенную, или группу памятей), которые хранят код, выполняемый процессором.
Термин "код", как он был использован выше, может включать в себя программные средства, аппаратные средства и/или микрокод, и может означать программы, процедуры, функции, классы и/или объекты. Термин "совместно используемый", как он был использован выше, означает, что некоторые или все коды из множества модулей могут выполняться, используя один (совместно используемый) процессор. Аналогично, некоторые или все коды из множества модулей могут храниться в одной (совместно используемой) памяти. Термин "группа", как он был использован выше, означает, что некоторые или все коды из отдельно взятого модуля могут выполняться, используя группу процессоров. Аналогично, некоторые или все коды из отдельно взятого модуля могут храниться в группе памятей.
Устройства и способы, описанные в данном документе, могут быть реализованы одной и более компьютерной программой, выполняемой одним и более процессором. Компьютерные программы включают в себя выполняемые процессором процедуры, находящиеся на материальном машиночитаемом носителе долговременного хранения. Компьютерные программы также могут содержать в себе сохранные данные. Неограничивающие примеры материальных машиночитаемых носителей долговременного хранения - это энергонезависимая память, магнитное и оптическое запоминающее устройство.
Настоящее изобретение далее будет описано более подробно со ссылками на прилагаемые рисунки ФИГ. 1-9, на которых показаны варианты осуществления данного изобретения. Это изобретение, однако, может быть осуществлено во множестве форм, поэтому не следует считать, что оно ограничивается указанными далее вариантами осуществления; наоборот, эти варианты осуществления приводятся для того, чтобы раскрытие данного изобретения было исчерпывающим и полным и полностью передавало объем изобретения специалистам в данной области техники. Одинаковые элементы имеют одинаковые номера позиций по всему документу.
Одна из особенностей состоит в том, что настоящее изобретение относится к стереоскопическим системам 100 обнаружения пешеходов, как показано на ФИГ. 1. В некоторых вариантах осуществления стереоскопическая система 100 обнаружения пешеходов включает в себя стереоскопическую камеру 110, специализированную интегральную схему (СИС) 120 обработки изображений/видео и контроллер 130 стереоскопической системы обнаружения пешеходов. Как показано на ФИГ. 1 и 3, стереоскопическая камера 110 имеет первую камеру 111 и вторую камеру 112 для захвата серии стереоскопических изображений пешеходов 303, проходящих через заданный участок. Первая камера 111 содержит в себе первый объектив 1111 и первый КМОП-приемник 1112 для захвата левого изображения через первый объектив 1111. Вторая камера 112 содержит в себе второй объектив 1121 и второй КМОП-приемник 1122 для захвата правого изображения через второй объектив 1121. Левое и правое изображения формируют стереоскопическое изображение.
В некоторых вариантах осуществления стереоскопическая система 100 обнаружения пешеходов устанавливается над дверным проемом 302 в закрытом пространстве, как показано на ФИГ. 3. Закрытое пространство включает в себя стены 301, а дверной проем 302 включает в себя левую дверь 3021 и правую дверь 3022. Когда первая дверь 3021 и/или вторая дверь открывается, пешеходы 303 могут входить в закрытое пространство или выходить и него.
В некоторых вариантах осуществления для счета пешеходов, входящих в закрытое пространство или выходящих из него, для точного подсчета пешеходов должна быть установлена по меньшей мере одна стереоскопическая система 100 обнаружения пешеходов.
В одном варианте осуществления стереоскопическое изображение пешеходов 303 захватывается в форме видео. Еще в одном варианте осуществления стереоскопические изображения пешеходов 303 захватываются в виде неподвижных изображений, извлеченных из видео, захваченного с помощью стереоскопической камеры 110. В некоторых вариантах осуществления частота кадров стереоскопического видео составляет 20-25 кадров в секунду. В зависимости от скорости СИС 120 обработки изображений/видео и процессора 131, частота кадров стереосистемы может быть уменьшена до 10-14 кадров в секунду при разрешении изображения 320 × 240 пикселей, при использовании платформы сети мобильной связи.
В некоторых вариантах осуществления, когда закрытое пространство имеет более одной двери, над каждой из дверей должна быть установлена по меньшей мере одна стереоскопическая система 100 обнаружения пешеходов.
В некоторых вариантах осуществления, когда дверь имеет необычайно большую ширину, или в витрине магазина отсутствует стена 301, для точного подсчета пешеходов над дверным проемом может быть установлено более одной стереоскопической системы 100 обнаружения пешеходов.
В одном варианте осуществления, показанном на ФИГ. 4, стереоскопическая система 100 обнаружения пешеходов может устанавливаться непосредственно над проходом и прямо над пешеходом 303 на предварительно заданном расстоянии от стены 301, например, 60-80 см от стены 301. В соответствии с таким способом установки, изображения, захватываемые стереоскопической системой 100 обнаружения пешеходов могут быть плоскими, поэтому тени и следы могут препятствовать обнаружению пешеходов, а точность обнаружения пешеходов может быть далека от идеальной.
В еще одном варианте осуществления, показанном на ФИГ. 5, стереоскопическая система 100 обнаружения пешеходов может устанавливаться под определенным углом над проходом и пешеходом 303 на предварительно заданном расстоянии от стены 301, например, 60-80 см от стены 301. В соответствии с таким способом установки, изображения, захватываемые стереоскопической системой 100 обнаружения пешеходов могут более реалистичными, тени и следы могут быть распознаны на изображениях, и точность обнаружения пешеходов может быть улучшена.
Обращаясь снова к ФИГ. 1, в некоторых вариантах осуществления, СИС 120 обработки изображений/видео предварительно обрабатывает стереоскопические изображения пешеходов 303, захваченные стереоскопической камерой 110. СИС 120 обработки изображений/видео может включать в себя графический процессор (GPU), предназначенный для выполнения специализированных вычислений рендеринга графики. Предварительная обработка включает в себя, помимо прочего, калибровку стереоскопической камеры, ректификацию обучающих стереоскопических изображений, ректификацию стереоскопических изображений, полученных в реальном времени, по которым осуществляется обнаружение пешеходов и вычисление карт диспаратности. Контроллер 130 стереоскопической системы обнаружения пешеходов содержит процессор 131, сетевой интерфейс 132 и память 133, на которой хранится операционная система 1333 и исполняемые компьютером команды 1334. Процессор 131 может быть выполнен в виде одноядерного процессора, многоядерного процессора, совместно используемого процессора, специализированного процессора, группы процессоров и процессора с искусственным интеллектом (ИИ), предназначенного для выполнения вычислений, связанных с работой искусственного интеллекта.
Операционная система 1333, исполняемые компьютером команды 1334 и многие параметры, используемые в работе двухпоточной нейронной сети с глубоким обучением, хранятся в энергонезависимом твердотельном накопителе (SSD) 1332. При выполнении в процессоре 131 исполняемых компьютером команд 1334, исполняемые компьютером команды 1334 загружаются на одно или более оперативных запоминающих устройств 1331 и заставляют процессор 131 выполнить одно или несколько из следующих заданий: захват стереоскопической камерой 110 стереоскопических изображений пешеходов 303, проходящих через заданный участок; ректификацию захваченных стереоскопических изображений пешеходов 303 при помощи СИС 120 обработки изображений/видео; вычисление карт диспаратности ректифицированных стереоскопических изображений пешеходов 303; обучение двухпоточной нейронной сети 625 с глубоким обучением; и обнаружение пешеходов 303, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети 625 с глубоким обучением.
Рассмотрим ФИГ. 6, на которой показана блок-схема стадии обучения и применения двухпоточной нейронной сети с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения. В некоторых вариантах осуществления стереоскопическая камера 110 может быть откалибрована для повышения стабильности и точности стереоскопической камеры 110, как показано в блоке 601 на ФИГ. 6. Калибровка стереоскопической камеры, при которой происходит съемка стереоскопической камерой 110 объекта заданного размера с разных углов, позволяет рассчитать внутренние и внешние параметры стереоскопической камеры 110.
В одном варианте осуществления, характерные этапы калибровки включают в себя: (а) изготовление черно-белой шахматной доски 12×12 элементов, съемка под разными углами 15 фотографий с помощью стереоскопической камеры 110. Шахматная доска должна одновременно присутствовать в поле зрения первой камеры 111 и второй камеры 112 стереоскопической камеры 110, (б) калибровка камеры выполняется с помощью набора инструментов "toolbox_calib" в MATLAB по 15 фотографиям, снятых ранее в процессе калибровки. Следующие параметры первой камеры 111 и второй камеры 112 получаются в процессе калибровки:
фокусное расстояние левого объектива по оси X:
фокусное расстояние левого объектива по оси Y:
фокусное расстояние правого объектива по оси X:
фокусное расстояние правого объектива по оси Y:
координаты центра изображения левой камеры: и
координаты центра изображения правой камеры: и
параметр дисторсии первой камеры:
параметр дисторсии второй камеры:
матрица поворота между первой камерой 111 и второй камерой 112: R;
вектор сдвига Т.
Эти параметры камеры используются для выполнения ректификации стереоскопических изображений пешеходов, полученных стереоскопической камерой 110. В некоторых вариантах осуществления стереоскопическая камера 110 захватывает первое изображение I1 с помощью первой камеры 111 и второе изображение I2 с помощью второй камеры 112. Два этих стереоскопических изображения I1 и I2 ректифицируются с помощью функций ректификации, в которые входят stereoRectify, initUndistortRectifyMap, и remap, а также используются параметры, полученные во время стереоскопической калибровки, описанные выше: , , , , , , , , , R, и T.
В некоторых вариантах осуществления, в указанные функции входят:
stereoRectify(M1, D1, М2, D2, imageSize, R, Т, R1, R2, P1, P2, Q,
CALIB_ZERO_DISPARITY, 0, imageSize, &ValidRoi1, &ValidRoi2);
initUndistortRectifyMap(M1, D1, R1, P1, imageSize, CV_16SC2, remap[0][0],
remap[0][1]);
initUndistortRectifyMap(M2, D2, R2, P2, imageSize, CV_16SC2, remap[1][0],
remap[1][1]);
где
imageSize - это размер изображений I1 и I2, a
R1, R2, P1, P2, Q, ValidRoi1, ValidRoi2, remap - выходные переменные
remap(left_src, left_dst, remap[0][0], remap[0][1], INTER_LINEAR);
remap(right_src, right_dst, remap[1][0], remap[1][1], INTER_LINEAR);
где left_src - это первое изображение I1, right_src - это второе изображение I2, left_dst - это ректифицированное первое изображение , и right_dst - то ректифицированное второе изображение
Ректифицированные стереоскопические изображения и могут подаваться на стадии 610 обучения и на стадии 620 применения.
В некоторых вариантах осуществления двухпоточная нейронная сеть 625 с глубоким обучением содержит в себе нейронную сеть для извлечения признаков диспаратности из карт диспаратности стереоскопических изображений пешеходов 303, и нейронную сеть изучения и объединения признаков RGB и диспаратности, полученных из стереоскопических изображений пешеходов 303. В некоторых вариантах осуществления нейронная сеть изучения и объединения признаков содержит М слоев, где М - положительное целое и является общим числом слоев нейронной сети изучения и слияния признаков.
В некоторых вариантах осуществления стереоскопические изображения пешеходов 303 включают в себя определенные обучающие изображения пешеходов 303 и некоторые стереоизображения пешеходов 303, поученные в реальном времени стереоскопической камерой 110 для обнаружения пешеходов. СИС 120 обработки изображений/видео запрограммирована для выполнения одной или более операций: калибровка стереоскопической камеры 110; ректификация стереоскопических изображений пешеходов 303; вычисление карт диспаратности обучающих стереоскопических изображений пешеходов 303 на стадии 610 обучения; и вычисление карт диспаратности стереоскопических изображений пешеходов 303, полученных в реальном времени, на стадии 620 применения.
В некоторых вариантах осуществления на стадии 610 обучения обучающие стереоскопические изображения пешеходов 303 от стереоскопической камеры 110 направляются в блок 611 для ректификации обучающих стереоскопических изображений пешеходов 303. Ректифицированные обучающие стереоскопические изображения пешеходов 303 используются для вычисления карт диспаратности этих обучающих стереоскопических изображений пешеходов 303 в блоке 613.
Карта диспаратности d ректифицированных стереоскопических изображений и генерируется при помощи стандартного алгоритма полуглобального стереосопоставления (Semi-Global Block-Matching, SGBM). Карта диспаратности d - это изображение в градациях серого со значением пикселя от 0 до 255.
Карта диспаратности d записывает величину отклонения для каждой точки на изображении, между первым (левым) и вторым (правым) положениями. Например, для положения столбца j строки i на первом (левом) изображении, эта точка будет обнаружена на правом изображении, при помощи поиска совпадений, тогда Δj - это значение карты диспаратности d(i,j). Для более далекого объекта отклонение положения Δj на первом изображении и на втором изображении будет меньше. Для близкого объекта отклонение положения Δj на первом изображении и на втором изображении будет больше. Следовательно, карта диспаратности d отображает относительное расстояние до объекта от первой камеры 111 и второй камеры 112 стереоскопической камеры 110.
В некоторых вариантах осуществления вычисленные карты диспаратности стереоскопических изображений пешеходов 303 затем используются в блоке 615 для извлечения признаков диспаратности из карт диспаратности этих обучающих стереоскопических изображений пешеходов 303. После обучения нейронной сети извлечения признаков диспаратности, выходные данные обучения нейронной сети извлечению признаков диспаратности подаются в блок 617 для обучения нейронной сети изучения и слияния признаков. Как только нейронная сеть извлечения признаков диспаратности и нейронная сеть изучения и слияния признаков будут обучены, нейронная сеть извлечения признаков диспаратности и нейронная сеть изучения и слияния признаков объединяются и используются для формирования и обучения двухпоточной нейронной сети с глубоким обучением в блоке 619. Выходные данные блока 619 формируют двухпоточную нейронную сеть 625 с глубоким обучением, используемую для обнаружения пешеходов 303 на стадии 620 применения.
В некоторых вариантах осуществления архитектура нейронной сети извлечения признаков диспаратности относится к методу "single shot multibox detector" (SSD), как показано на ФИГ. 8. В одном варианте осуществления, основа метода SSD состоит из 23 слоев, каждый из которых включает в себя операцию свертки, нелинейные активации, и операции пулинга. Эти операции выполняются в соответствии с уравнениями, приведенными на ФИГ. 8 для каждого из 23 слоев.
Как показано на ФИГ. 8, эти 23 слоя последовательно соединены друг с другом. Нелинейная активация использует функцию активации ReLU, определяемую как ƒ(x)=max(0, х). Операции пулинга выполняются по максимальному значению (пулинг с функцией максимума), это значит, что значение каждого пикселя заменяется на максимальное значение соседних пикселей.
В некоторых вариантах осуществления conv означает операцию свертки, обозначение pool означает операцию пулинга, k × k обозначает размер ядра свертки или ядра пулинга, р обозначает количество пикселей на краю карты признаков (padding - дополнение нулями), s обозначает размер шага перемещения (stride - шаг) ядра свертки, и с обозначает число проходов ядра свертки (channels - каналы).
В некоторых вариантах осуществления, как показано на ФИГ. 8, ветка 11 обнаружения (ВО №1), ветка 21 обнаружения (ВО №2), ветка 31 обнаружения (ВО №3), ветка 41 обнаружения (ВО №4), ветка 51 обнаружения (ВО №5), ветка 61 обнаружения (ВО №6) сформированы в слоях 10, 15, 17, 19, 21, 23 соответственно. Каждая из веток обнаружения формируется после двух операций свертки. Результатом первой свертки является карта признаков положения пешехода, а результатом второй свертки - соответствующая карта признаков оценки, как показано на ФИГ. 9. Значения 4*k для координаты каждого пикселя (х, у) в карте признаков положения обозначают координаты левого верхнего угла, длину и ширину k предсказанных положений прямоугольника. Значения 2*k для координаты каждого пикселя (х, у) в карте признаков оценки обозначают k предсказанных оценок, соответствующих "пешеходу" или фону из k предсказанных положений. Результаты обнаружения пешеходов, полученные каждой веткой обнаружения ВО №1, ВО №2, ВО №3, ВО №4, ВО №5 и ВО №6 комбинируются для получения конечных результатов обнаружения пешеходов, как показано на ФИГ. 8.
В некоторых вариантах осуществления количество категорий веток обнаружения в SSD устанавливается равным 2, то есть назначаются только категории "пешеход" и "фон". Большое количество N кадров бинокулярных изображений - - извлекается из стереоскопической видеозаписи. Для стадии обучения N - это общее число кадров стереоскопических изображеий. После операций ректификации получаются ректифицированные стереоскопические изображения . После обработки ректифицированных стереоскопических изображений вычисляются карты диспаратности этих стереоскопических изображений . Для каждого кадра стереоскопического изображения, все ограничивающие прямоугольники отмечаются вручную на левом изображении. Каждый ограничивающий прямоугольник представляется в виде координат его левого верхнего угла, длиной и шириной.
Во время обучения стереоскопические карты диспаратности этих стереоскопических изображений являются входными данными для нейронной сети извлечения признаков диспаратности, в то время как информация об ограничивающем пешехода прямоугольнике является выходными данными нейронной сети извлечения признаков диспаратности. Нейронная сеть извлечения признаков диспаратности обучается при помощи алгоритма обратного распространения и алгоритма градиентного спуска. В конце обучения, только первые 7 слоев нейронной сети извлечения признаков диспаратности оставляются для извлечения признаков диспаратности, а остальные слои удаляются. Наконец, когда карта диспаратности введена, нейронная сеть извлечения признаков диспаратности генерирует карту признаков с разрешением 1/8 разрешения первоначальной карты диспаратности.
В некоторых вариантах осуществления архитектура нейронной сети изучения и слияния признаков также относится к методу "single shot multibox detector" (SSD), как показано на ФИГ. 8, при использовании подобных параметров и формул. В некоторых вариантах осуществления количество категорий веток обнаружения в SSD также устанавливается равным 2, то есть назначаются только категории "пешеход" и "фон". Кадр ректифицированного изображения - это входные данные нейронной сети изучения и слияния признаков, информация об ограничивающем пешехода прямоугольнике на левом изображении является выходными данными нейронной сети изучения и слияния признаков. Нейронная сеть изучения и слияния признаков также обучается при помощи алгоритма обратного распространения и алгоритма градиентного спуска.
В некоторых вариантах осуществления, как показано в блоке 619 ФИГ. 7, двухпоточная нейронная сеть с глубоким обучением формируется и обучается путем комбинирования признаков диспаратности, извлеченных с помощью нейронной сети извлечения признаков диспаратности и RGB-признаков, изученных 7 слоем нейронной сети изучения и слияния признаков. Эти признаки концентрируются и продолжаются на дальнейшее распространение в соответствии с последующей структурой нейронной сети изучения и слияния признаков.
В некоторых вариантах осуществления на стадии 620 применения полученных в реальном времени стереоскопические изображения пешеходов 303 поступают из откалиброванной стереоскопической камеры 110, и эти стереоскопические изображения пешеходов 303 ректифицируются в блоке 621. Ректифицированные стереоскопические изображения пешеходов 303, полученные в реальном времени, используются для вычисления карт диспаратности этих стереоскопических изображений пешеходов 303, полученных в реальном времени, в блоке 623. Двухпоточная нейронная сеть с глубоким обучением, обученная в блоке 619, используется в блоке 625 для обнаружения пешеходов 303. Выходные данные после обнаружения пешеходов из блока 625 используются в блоке 627 для выполнения операции подавления немаксимумов. Конечные результаты обнаружения пешеходов получаются в блоке 629 после того, как на выходе блока 625 будет выполнена операция подавления немаксимумов.
Рассмотрим ФИГ. 7, на которой подробно показана операция обнаружения пешеходов с использованием двухпоточной нейронной сети с глубоким обучением, в соответствии с некоторыми вариантами осуществления настоящего изобретения. Входные стереоскопические изображения пешеходов 303 направляются в два отдельных потока: первый поток и второй поток. Первый поток включает в себя блок 62511 и блок 62513. Этот поток используется для извлечения признаков диспаратности стереоскопических изображений пешеходов 303. Первый поток включает в себя блок 62521 и блок 62523. Этот поток используется для изучения RGB-признаков на левом изображении пешеходов 303. В первом потоке, в блоке 62511 получают карты диспаратности входных стереоизображений пешеходов 303. Полученные карты диспаратности входных стереоизображений пешеходов 303 используются в блоке 62513 для извлечения признаков диспаратности с использованием нейронной сети извлечения признаков диспаратности. Во втором потоке, в блоке 62521 получают левое изображения ректифицированных стереоизображений пешеходов 303. Полученные левые изображения ректифицированных стереоизображений пешеходов 303 используются в блоке 62523 для изучения RGB-признаков с использованием первых N слоев нейронной сети изучения и слияния признаков, где N - это положительное целое число, N<M.
В некоторых вариантах осуществления извлеченные признаки диспаратности из блока 62513 и изученные RGB-признаки из блока 62523 подаются через каналы в блок 62525 и накладываются. Наложенные признаки диспаратности и RGB-признаки отправляются на оставшиеся M-N слоев нейронной сети изучения и слияния признаков. Конечные результаты обнаружения пешеходов находятся на выходе М-слоя нейронной сети изучения и слияния признаков. В одном варианте осуществления М равно 15, а N равно 7.
В некоторых вариантах осуществления интерфейс 132 нейронной сети - это сетевой интерфейс power-on-ethernet (РОЕ). Питание стереоскопической системы 100 обнаружения пешеходов происходит через сетевой интерфейс РОЕ, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс 132 и сеть передачи данных 140, как показано на ФИГ. 1.
В некоторых вариантах осуществления, как только двухпоточная нейронная сеть 625 с глубоким обучением будет сформирована и должным образом обучена, двухпоточная нейронная сеть 625 с глубоким обучением может использоваться для обнаружения пешеходов.
В практическом применении обнаружения пешеходов стереоскопические RGB-изображения I1, I2 захватываются стереоскопической камерой 110. Затем захваченные стереоскопические RGB-изображения I1, I2 ректифицируются для получения ректифицированных стереоскопических изображений . Карта стереоскопической диспаратности d вычисляется с помощью ректифицированных стереоскопических изображений . Карта стереоскопической диспаратности d используется нейронной сетью извлечения признаков диспаратности для извлечения признаков диспаратности, а ректифицированное левое изображение используется нейронной сетью изучения и слияния признаков для изучения RGB-признаков при задействовании первых N слоев. Извлченные признаки диспаратности и изученные RGB-признаки накладываются, проходя через каналы. Наложенные признаки затем отправляются на оставшиеся M-N слоев нейронной сети изучения и слияния признаков с целью получения итоговых результатов обнаружения пешеходов. Информация об ограничивающем пешехода прямоугольнике используется как начальный результат обнаружения пешехода, где информация каждого ограничивающего пешехода прямоугольника содержит координаты верхнего левого угла, высоту и ширину ограничивающего пешехода прямоугольника и оценку обнаружения.
В некоторых вариантах осуществления начальные результаты обнаружения пешехода фильтруются с помощью операции подавления немаксимумов, как показано в блоке 627 на ФИГ. 6. В одном варианте осуществления выполняются следующие этапы:
(а) этап инициализации:
и
(б) Выбор ограничивающего пешехода прямоугольника с наибольшей оценкой обнаружения Bmax из поиск из и нахождение всех ограничивающих пешехода прямоугольников, имеющих наложение с Bmax более 40% для формирования Когда является пустым множеством, переход на этап (г). В противном случае переход на этап (в).
(в) удаление из
(г) удаление Bmax из и добавление Bmax к Когда не является пустым множеством, переход на этап (б). В противном случае переход на этап (д).
(д) получение конечного результата обнаружения пешеходов, где K<=N.
Другая особенность состоит в том, что настоящее изобретение относится к способу обнаружения пешеходов при помощи стереоскопической системы 100 обнаружения пешеходов. В некоторых вариантах осуществления указанный способ включает в себя: захват некоторых стереоскопических изображений пешеходов 303, проходящих через заданный участок, при помощи стереоскопической камеры 110 стереоскопической системы 100 обнаружения пешеходов; ректификацию захваченных стереоскопических изображений пешеходов при помощи СИС 120 обработки изображений/видео стереоскопической системы 100 обнаружения пешеходов 303; вычисление, с использованием СИС 120 обработки изображений/видео, карт диспаратности ректифицированных стереоскопических изображений пешеходов 303; обучение двухпоточной нейронной сети 625 с глубоким обучением с использованием ректифицированных левых изображений и вычисленных карт диспаратности стереоскопических изображений пешеходов 303; и обнаружение пешеходов 303, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети 625 с глубоким обучением.
В некоторых вариантах осуществления двухпоточная нейронная сеть 625 с глубоким обучением содержит в себе нейронную сеть для извлечения признаков диспаратности из карт диспаратности стереоскопических изображений пешеходов 303, и нейронную сеть изучения и объединения признаков RGB и диспаратности, полученных из стереоскопических изображений пешеходов 303.
В некоторых вариантах осуществления стереоскопическая система 100 обнаружения пешеходов включает в себя стереоскопическую камеру 110, специализированную интегральную схему (СИС) 120 обработки изображений/видео и контроллер 130 стереоскопической системы обнаружения пешеходов. Стереоскопическая камера 110 содержит первую камеру 111 и вторую камеру 112, предназначенные для захвата некоторого количества стереоскопических изображений пешеходов 303, проходящих через заданный участок. Первая камера 111 содержит в себе первый объектив 1111 и первый КМОП-приемник 1112 для захвата левого изображения через первый объектив 1111. Вторая камера 112 содержит в себе второй объектив 1121 и второй КМОП-приемник 1122 для захвата правого изображения через второй объектив 1121. Левое и правое изображения формируют стереоскопическое изображение. СИС 120 обработки изображений/видео предварительно обрабатывает стереоскопические изображения пешеходов 303, захваченные стереоскопической камерой 110. Контроллер 130 стереоскопической системы обнаружения пешеходов содержит процессор 131, сетевой интерфейс 132 и память 133, на которой хранится операционная система 1333 и исполняемые компьютером команды 1334. При выполнении в процессоре 131 исполняемых компьютером команд 1334, исполняемые компьютером команды 1334 заставляют процессор 131 выполнить одну или несколько операций из описываемого способа.
В некоторых вариантах осуществления стереоскопические изображения пешеходов 303 включают в себя определенные обучающие изображения пешеходов 303 и некоторые стереоизображения пешеходов 303, поученные в реальном времени стереоскопической камерой 110 для обнаружения пешеходов. СИС 120 обработки изображений/видео запрограммирована для выполнения: калибровки стереоскопической камеры 110; ректификации стереоскопических изображений пешеходов 303; вычисления карт диспаратности обучающих стереоскопических изображений пешеходов 303 на стадии обучения; и вычисления карт диспаратности стереоскопических изображений пешеходов 303, полученных в реальном времени, на стадии применения.
В некоторых вариантах осуществления стадия обучения включает в себя: обучение нейронной сети извлечения признаков диспаратности с использованием карт диспаратности стереоскопических изображений пешеходов 303; обучение нейронной сети изучения и слияния признаков RGB и диспаратности, основываясь только на левом изображении пешеходов 303; и наложение обученной нейронной сети извлечения признаков диспаратности и нейронной сети изучения и слияния признаков для формирования двухпоточной нейронной сети 625 с глубоким обучением.
В некоторых вариантах осуществления, стадия применения включает в себя: захват в реальном времени стереоскопической камерой 110 изображений пешеходов 303; ректификацию захваченных в реальном времени стереоскопических изображений пешеходов 303 при помощи СИС 120 обработки изображений/видео; вычисление, с использованием СИС 120 обработки изображений/видео, карт диспаратности ректифицированных полученных в реальном времени стереоскопических изображений пешеходов 303; обнаружение пешеходов 303 по ректифицированным левым изображениям и картам диспаратности полученных в реальном времени стереоскопических изображений пешеходов 303 с использованием двухпоточной нейронной сети 625 с глубоким обучением, сформированной на стадии обучения; и выполнение операции подавления немаксимумов с результатами обнаружения для получения итоговых результатов обнаружения пешеходов.
В некоторых вариантах осуществления процесс обнаружения пешеходов 303 с использованием двухпоточной нейронной сети 625 с глубоким обучением включает в себя: извлечение признаков диспаратности из карт диспаратности полученных в реальном времени стереоскопических изображений пешеходов 303 с использованием нейронной сети извлечения признаков диспаратности; изучение RGB-признаков по ректифицированным левым изображениям пешеходов 303 с использованием первых N слоев нейронной сети изучения и слияния признаков RGB и диспаратности; наложение извлеченных признаков диспаратности и изученных RGB-признаков при их передаче через несколько каналов; и слияние признаков диспаратности и RGB с использованием последних M-N слоев нейронной сети изучения и слияния признаков с целью получения итоговых результатов обнаружения пешеходов. В некоторых вариантах осуществления N - положительное целое число, а М - положительное целое число больше N, являющееся общим числом слоев нейронной сети изучения и слияния признаков. В одном варианте осуществления N равно 7, а М равно 15.
В одном варианте осуществления стереоскопическая система 100 обнаружения пешеходов устанавливается над дверным проемом 301, при этом стереоскопическая камера 110 направлена вертикально вниз на пешеходов 303, проходящих через дверной проем 301. В еще одном варианте осуществления стереоскопическая система 100 обнаружения пешеходов устанавливается над дверным проемом 301, при этом стереоскопическая камера 110 направлена вниз на пешеходов 303, проходящих через дверной проем 301, под определенным углом.
В некоторых вариантах осуществления интерфейс нейронной сети может быть представлен сетевым интерфейсом power-on-ethernet (РОЕ). Питание стереоскопической системы 100 обнаружения пешеходов происходит через сетевой интерфейс РОЕ, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс 132 и сеть передачи данных 140.
Сеть передачи данных 140 может быть представлена беспроводной персонально сетью (WPAN), беспроводной локальной сетью (WLAN), беспроводной региональной сетью (WMAN), беспроводной глобальной сетью (WWAN), мобильной сетью и мобильной сетью передачи данных. Сеть WPAN также может включать в себя сеть передачи данных на основе Wi-Fi, Bluetooth, инфракрасного излучения и Zigbee.
Данное выше описание примеров вариантов осуществления изобретения было представлено только для целей иллюстрации и описания, и точные раскрытые формы не исчерпывают и не ограничивают изобретение. В свете представленного выше идеи изобретения возможно множество изменений и дополнений.
Варианты осуществления были выбраны и описаны с целью объяснения принципов изобретения и их практического применения, для того чтобы другие специалисты в данной области техники могли использовать данное изобретение и различные варианты осуществления с различными изменениями и дополнениями, необходимыми для конкретного предполагаемого использования. Альтернативные варианты осуществления станут очевидными специалистам в данной области техники, для которых предназначено данное изобретение в пределах его существа и объема. Соответственно, объем настоящего изобретения определяется прилагаемой формулой изобретения, а не предшествующим описанием и приведенными в нем примерами вариантов осуществления.
1. Стереоскопическая система обнаружения пешеходов, включающая в себя:
стереоскопическую камеру, содержащая первую камеру и вторую камеру, предназначенные для захвата множества стереоскопических изображений множества пешеходов, проходящих через заданный участок;
специализированную интегральную схему (СИС) обработки изображений/видео для предварительной обработки множества стереоскопических изображений пешеходов, захваченных стереоскопической камерой;
контроллер стереоскопической системы обнаружения пешеходов, имеющий процессор, сетевой интерфейс, память, на которой хранится операционная система и исполняемые компьютером команды, при этом, когда исполняемые компьютером команды выполняются в процессоре, они заставляют процессор выполнить одно или несколько из следующих заданий:
захват стереоскопической камерой множества стереоскопических изображений пешеходов, проходящих через заданный участок ;
ректификацию множества захваченных стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео;
вычисление карт диспаратности множества ректифицированных стереоскопических изображений пешеходов;
обучение двухпоточной нейронной сети с глубоким обучением, в которой двухпоточная нейронная сеть с глубоким обучением содержит в себе нейронную сеть извлечения признаков диспаратности из карт диспаратности множества стереоскопических изображений пешеходов и нейронную сеть изучения и объединения признаков, полученных из левых ректифицированных изображений и карт диспаратности множества стереоскопических изображений пешеходов;
обнаружение множества пешеходов, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети с глубоким обучением.
2. Стереоскопическая система обнаружения пешеходов по п. 1, отличающаяся тем, что первая камера имеет первый объектив и первый КМОП-приемник для захвата левого изображения через первый объектив, вторая камера имеет второй объектив и второй КМОП-приемник для захвата правого изображения через второй объектив, левое и правое изображения формируют стереоскопическое изображение.
3. Стереоскопическая система обнаружения пешеходов по п. 1, отличающаяся тем, что СИС обработки изображений/видео запрограммирована для выполнения одной или более из следующих операций:
калибровка стереоскопической камеры;
ректификация множества стереоскопических изображений пешеходов, где множество стереоскопических изображений пешеходов включает в себя множество обучающих изображений пешеходов и множество стереоскопических изображений пешеходов, поученных в реальном времени стереоскопической камерой для обнаружения пешеходов;
вычисление карт диспаратности множества обучающих стереоскопических изображений пешеходов на стадии обучения;
вычисление карт диспаратности множества стереоскопических изображений пешеходов, полученных в реальном времени, на стадии применения.
4. Стереоскопическая система обнаружения пешеходов по п. 3, отличающаяся тем, что стадия обучения включает в себя:
обучение нейронной сети извлечения признаков диспаратности с использованием карт диспаратности множества стереоскопических изображений пешеходов;
обучение нейронной сети изучения и слияния признаков RGB и диспаратности, основываясь только на множестве левых изображений пешеходов;
наложение обученной нейронной сети извлечения признаков диспаратности и нейронной сети изучения и слияния признаков для формирования двухпоточной нейронной сети с глубоким обучением.
5. Стереоскопическая система обнаружения пешеходов по п. 4, отличающаяся тем, что стадия применения включает в себя:
захват в реальном времени стереоскопической камерой множества стереоскопических изображений пешеходов;
ректификацию множества захваченных в реальном времени стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео;
вычисление, с использованием СИС обработки изображений/видео, карт диспаратности множества полученных в реальном времени ректифицированных стереоскопических изображений пешеходов;
обнаружение множества пешеходов по ректифицированным левым изображениям и картам диспаратности множества полученных в реальном времени стереоскопических изображений пешеходов с использованием двухпоточной нейронной сети с глубоким обучением, сформированной на стадии обучения;
выполнение операции подавления немаксимумов с результатами обнаружения для получения итоговых результатов обнаружения пешеходов.
6. Двухпоточная нейронная сеть с глубоким обучением, отличающаяся тем, что обнаружение множества пешеходов с использованием двухпоточной нейронной сети с глубоким обучением включает в себя:
извлечение признаков диспаратности из карт диспаратности множества полученных в реальном времени стереоскопических изображений пешеходов с использованием нейронной сети извлечения признаков диспаратности;
изучение RGB-признаков по множеству ректифицированных левых изображений пешеходов с использованием первых N слоев нейронной сети изучения и слияния признаков RGB и диспаратности, где N – положительное целое число;
наложение извлеченных признаков диспаратности и изученных RGB-признаков при их передаче через множество каналов;
слияние признаков диспаратности и RGB при использовании последних M-N слоев нейронной сети изучения и объединения признаков для получения конечного результата обнаружения пешеходов, где M – положительное целое больше N и является общим числом слоев нейронной сети изучения и слияния признаков.
7. Стереоскопическая система обнаружения пешеходов по п. 6, отличающаяся тем, что N равно 7, а M равно 15.
8. Стереоскопическая система обнаружения пешеходов по п. 1, отличающаяся тем, что стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вертикально вниз на множество пешеходов, проходящих через дверной проем.
9. Стереоскопическая система обнаружения пешеходов по п. 1, отличающаяся тем, что стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вниз на множество пешеходов, проходящих через дверной проем под определенным углом.
10. Стереоскопическая система обнаружения пешеходов по п. 1, отличающаяся тем, что сетевой интерфейс представляет собой power-on-ethernet (POE), где питание стереоскопической системы обнаружения пешеходов происходит через сетевой интерфейс POE, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс и сеть передачи данных.
11. Способ обнаружения пешеходов при помощи стереоскопической системы обнаружения пешеходов, включающий в себя:
захват множества стереоскопических изображений множества пешеходов, проходящих через заданный участок, при помощи стереоскопической камеры стереоскопической системы обнаружения пешеходов;
ректификацию множества захваченных стереоскопических изображений пешеходов при помощи специализированной интегральной схемы (СИС) обработки изображений/видео стереоскопической системы обнаружения пешеходов;
вычисление с использованием СИС обработки изображений/видео, карт диспаратности множества ректифицированных стереоскопических изображений пешеходов;
обучение двухпоточной нейронной сети с глубоким обучением с использованием ректифицированных левых изображений и вычисленных карт диспаратности множества стереоскопических изображений пешеходов, где двухпоточная нейронная сеть с глубоким обучением содержит в себе нейронную сеть извлечения признаков диспаратности из карт диспаратности множества стереоскопических изображений пешеходов и нейронную сеть изучения и объединения признаков, полученных из левых ректифицированных изображений и карт диспаратности множества стереоскопических изображений пешеходов;
обнаружение множества пешеходов, проходящих через заданный участок, при помощи обученной двухпоточной нейронной сети с глубоким обучением.
12. Способ по п. 11, отличающийся тем, что стереоскопическая система обнаружения пешеходов включает в себя:
стереоскопическую камеру, содержащую первую камеру и вторую камеру, предназначенные для захвата множества стереоскопических изображений множества пешеходов, проходящих через заданный участок;
СИС обработки изображений/видео для предварительной обработки множества стереоскопических изображений пешеходов, захваченных стереоскопической камерой;
контроллер стереоскопической системы обнаружения пешеходов, имеющий процессор, сетевой интерфейс, память, на которой хранится операционная система и исполняемые компьютером команды, при этом, когда исполняемые компьютером команды выполняются в процессоре, они заставляют процессор выполнить одну или несколько операций способа.
13. Способ по п. 11, отличающийся тем, что СИС обработки изображений/видео запрограммирована для выполнения одной или более из следующих операций:
калибровка стереоскопической камеры;
ректификация множества стереоскопических изображений пешеходов, где множество стереоскопических изображений пешеходов включает в себя множество обучающих изображений пешеходов и множество стереоскопических изображений пешеходов, поученных в реальном времени стереоскопической камерой для обнаружения пешеходов;
вычисление карт диспаратности множества обучающих стереоскопических изображений пешеходов на стадии обучения;
вычисление карт диспаратности множества стереоскопических изображений пешеходов, полученных в реальном времени, на стадии применения.
14. Способ по п. 13, отличающийся тем, что стадия обучения включает в себя:
обучение нейронной сети извлечения признаков диспаратности с использованием карт диспаратности множества стереоскопических изображений пешеходов;
обучение нейронной сети изучения и слияния признаков RGB и диспаратности, основываясь только на множестве левых изображений пешеходов;
наложение обученной нейронной сети извлечения признаков диспаратности и нейронной сети изучения и слияния признаков для формирования двухпоточной нейронной сети с глубоким обучением.
15. Способ по п. 14, отличающийся тем, что стадия применения включает в себя:
захват в реальном времени стереоскопической камерой множества стереоскопических изображений пешеходов;
ректификацию множества захваченных в реальном времени стереоскопических изображений пешеходов при помощи СИС обработки изображений/видео;
вычисление с использованием СИС обработки изображений/видео карт диспаратности множества полученных в реальном времени ректифицированных стереоскопических изображений пешеходов;
обнаружение множества пешеходов по ректифицированным левым изображениям и картам диспаратности множества полученных в реальном времени стереоскопических изображений пешеходов с использованием двухпоточной нейронной сети с глубоким обучением, сформированной на стадии обучения;
выполнение операции подавления немаксимумов с результатами обнаружения для получения итоговых результатов обнаружения пешеходов.
16. Способ по п. 15, отличающийся тем, что обнаружение множества пешеходов с использованием двухпоточной нейронной сети с глубоким обучением включает в себя:
извлечение признаков диспаратности из карт диспаратности множества полученных в реальном времени стереоскопических изображений пешеходов с использованием нейронной сети извлечения признаков диспаратности;
изучение RGB-признаков по множеству ректифицированных левых изображений пешеходов с использованием первых N слоев нейронной сети изучения и слияния признаков RGB и диспаратности, где N – положительное целое число;
наложение извлеченных признаков диспаратности и изученных RGB-признаков при их передаче через множество каналов;
слияние признаков диспаратности и RGB при использовании последних M-N слоев нейронной сети изучения и объединения признаков для получения конечного результата обнаружения пешеходов, где M – положительное целое больше N и является общим числом слоев нейронной сети изучения и слияния признаков.
17. Способ по п. 16, отличающийся тем, что N равно 7, а M равно 15.
18. Способ по п. 11, отличающийся тем, что стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вертикально вниз на множество пешеходов, проходящих через дверной проем.
19. Способ по п. 11, отличающийся тем, что стереоскопическая система обнаружения пешеходов устанавливается над дверным проемом, при этом стереоскопическая камера направлена вниз на множество пешеходов, проходящих через дверной проем под определенным углом.
20. Способ по п. 12, отличающийся тем, что сетевой интерфейс представляет собой power-on-ethernet (POE), где питание стереоскопической системы обнаружения пешеходов происходит через сетевой интерфейс POE, и конечные результаты обнаружения пешеходов передаются на сервер, который собирает конечные результаты обнаружения пешеходов через сетевой интерфейс и сеть передачи данных.