Устройство извлечения устойчивых векторов признаков

 

Полезная модель относится преимущественно к устройствам для распознавания вредоносных последовательностей и может быть использована в устройствах компьютерной и информационной безопасности. Модуль извлечения векторов признаков, модуль классификации и модуль хранения и сопоставления размеченных последовательностей первого класса. Устройство дополнительно содержит модуль хранения и сопоставления размеченных последовательностей второго класса, модуль выбора метода классификации, передающий наиболее подходящий способ классификации в модуль классификации, и модуль обратной связи и коррекции ошибки, передающий сигнал об ошибке в модуль выбора способа классификации, а модуль извлечения векторов признаков выполнен в виде парсера N-грамм

1 нез. п. ф-ы, 1 илл.

Полезная модель относится преимущественно к устройствам для распознавания вредоносных последовательностей, и, в частности, может быть использована в устройствах компьютерной и информационной безопасности.

Известно устройство и способ распознавания признаков принадлежности входных последовательностей одному из классов. Устройство содержит модуль извлечения векторов признаков, модуль конвертации векторов признаков, модуль классификации и модуль выбора класса для отнесения входной последовательности. [1] Известные устройство и реализуемый им способ, в частности, широко применяются для распознавания образов (например, объектов на фотографиях и рукописных текстов), поиска нечетко заданной информации в больших объемах данных, решении задач искусственного интеллекта и машинного обучения.

Основным существенным недостатком известного устройства и реализуемого им способа является его неустойчивость к распознаванию намеренно измененных вредоносных последовательностей, а также склонность к нарастающей ошибке в определении классов.

Наиболее близким к заявляемой полезной модели является система адаптивного байесовского извлечения признаков, содержащая модуль извлечения векторов признаков, модуль классификации и модуль хранения и сопоставления размеченных последовательностей первого класса, который обеспечивает выбор наиболее характерных для заданного класса признаков путем хранения и сопоставления заранее размеченных (т.е. в отношении которых уже была проведена заведомо верная процедура классификации) последовательностей, относящихся к первому классу. [2]

Основными существенными недостатками известной системы (прототипа) являются неспособность системы использовать априорную информацию о последовательностях, отнесенных ко второму классу, во время классификации, и как следствие низкую устойчивость к экстремальным наборам последовательностей, когда количество последовательностей, относящихся к одному из классов существенно больше или меньше количества последовательностей, относящихся ко второму классу (данный сценарий довольно часто встречается в проблемах компьютерной и информационной безопасности). Вследствие отсутствия механизма коррекции накапливающейся ошибки и выбора подходящего метода классификации известный аналог отличается низкой производительностью и отказоустойчивостью.

Главной задачей, решаемой заявляемой полезной моделью, является: повышение качества различения вредоносных и легитимных последовательностей путем извлечения устойчивых векторов признаков в задачах компьютерной и информационной безопасности за счет использования априорной информации из обоих различаемых классов последовательностей, а также за счет использования механизма обратной связи и коррекции ошибки классификации. Поставленная задача решается в полезной модели за счет дополнительного введения в устройство модуля хранения и сопоставления размеченных последовательностей второго класса, модуля выбора метода классификации, передающего наиболее подходящий способ классификации в модуль классификации и модуля обратной связи и коррекции ошибки, передающего сигнал об ошибке в модуль выбора способа классификации, а также за счет того, что модуль извлечения векторов признаков выполнен в виде парсера N-грамм.

Ни из патентно-технической литературы, ни из практики конструирования систем компьютерной и информационной безопасности не известно о ее конструкции и, в частности, методе коррекции ошибки путем установления обратной связи по размерности N-граммы в модуле извлечения векторов признаков и по выбору метода классификации в модуле выбора метода классификации. Правомерен вывод о соответствии заявленного технического решения критерию «новизна».

Совокупность новых и общих для прототипа и заявляемого технического решения существенных признаков может быть реализована множество раз. При этом достигается один и тот же эффект и решается главная задача, поставленная полезной моделью, указанная выше. Следует сделать правомерный вывод о соответствии заявленного решения критерию «промышленная применимость». Апробация заявляемого решения в качестве полезной модели проведена в составе антивирусного программно-аппаратного комплекса в тестовой лаборатории ООО «Секьюрити Стронгхолд».

Сущность заявляемого технического решения поясняется схемой компонентов устройства извлечения устойчивых векторов признаков. Устройство состоит из модуля хранения и сопоставления размеченных последовательностей первого класса 1, модуля хранения и сопоставления размеченных последовательностей второго класса 2, модуля извлечения векторов признаков 4, модуля классификации 5, модуля выбора метода классификации 6 и модуля обратной связи и коррекции ошибки 7. Дополнительно на схеме обозначены входная последовательность 3, которая подлежит классификации, и устойчивые векторы признаков 8, которые являются непосредственным результатом работы устройства извлечения устойчивых векторов признаков. Потоки данных на схеме обозначены сплошной линией, управляющие сигналы корректировки ошибки -пунктирной.

Устройство извлечения устойчивых векторов признаков работает следующим образом. Входная последовательность 3 поступает на вход модуля извлечения векторов признаков 4, который разбивает последовательность на N-граммы с дискретностью N, определенной на предыдущих итерациях процесса или заранее заданной оператором. Разобранные N-граммы поступают в модуль классификации 5. Кроме того, в модуль классификации поступают размеченные последовательности первого и второго классов из модуля хранения и сопоставления размеченных последовательностей первого класса 1 и модуля хранения и сопоставления размеченных последовательностей второго класса 2.

После этого модуль классификации с помощью метода, выбранного модулем выбора метода классификации 6 (байесовский классификатор, машина поддерживающих векторов, нейронная сеть, метод ближайших соседей, деревья принятия решений либо любой другой из заложенных в модуль классификации методов) определяет класс, к которому относится входная последовательность. Выбранный класс и сама последовательность поступают в модуль обратной связи и коррекции ошибки 7. Затем модуль обратной связи и коррекции ошибки с помощью заранее размеченных последовательностей первого класса и второго класса, поступивших из модуля хранения и сопоставления размеченных последовательностей первого класса и модуля хранения и сопоставления размеченных последовательностей второго класса, определяет, насколько верно была проведена классификация. В случае, если классификация была произведена верно, на выход устройства передаются устойчивые векторы признаков 8, использовавшиеся при классификации. Если классификация была произведена неверно, то сигнал об ошибке, ее величине и знаке передается в модуль выбора метода классификации и модуль извлечения векторов признаков. В модуле выбора метода классификации этот сигнал используется для изменения выбранного метода классификации на следующей итерации работы устройства (на новых последовательностях). Метод классификации выбирается исходя из вероятностей использования того или иного метода классификации, сохраненных в таблице вероятностей метода классификации, содержащихся в модуле выбора метода классификации. За счет этого вероятность выбора метода классификации, допустившего ошибку на предыдущей итерации, снижается. В модуле извлечения векторов признаков сигнал об ошибке используется для изменения дискретности N на следующей итерации работы устройства. При этом новое значение дискретности является приведенной к ближайшему целому линейной комбинацией между старым значением дискретности и случайно выбранным значением, отличающимся от старого значения на дельту со знаком, равным знаку сигнала ошибки.

Следует отметить, что указанный выше принцип работы может быть применен не только к двум, но и к большему количеству разных классов классифицируемых последовательностей. Один из вариантов реализации такого устройства состоит в каскадном соединении бинарных устройств, при котором первый из нескольких классов последовательности принимается за первый класс, распознаваемый устройством, а все остальные классы - за второй класс. В случае, если распознанная последовательность принадлежит ко второму классу, то она подается на вход следующего каскада устройства, и распознавание повторяется. Другой вариант реализации заключается в прямом добавлении в устройство дополнительных модулей хранения и сопоставления размеченных последовательностей по числу классов. Однако, недостаток такого подхода заключается в том, что ряд методов классификации, например байесовский классификатор, не смогут выбраны модулем выбора метода классификации, если число распознаваемых классов больше двух.

Предлагаемое решение более эффективно, чем прототип, так как, во-первых, обладает существенно большей производительностью и отказоустойчивостью, а во-вторых, обеспечивает возможность повышения точности распознавания последовательностей путем использования априорной информации обо всех распознаваемых классах, а не только о первом. Кроме того, предлагаемое устройство извлечения устойчивых векторов признаков позволяет уменьшить объем используемых значимых векторов признаков, что в конечном итоге повышает производительность и надежность системы безопасности в целом.

Источники информации:

[1] - US Patent 5,671,293 «Pattern recognizing method and apparatus», МПК G06K 9/62, G06K 009/62, публ. 1996 г.

[2] - US Patent 7,961,955 «Adaptive bayes feature extraction», МПК G06K 9/62, публ. 2008 г.

Устройство извлечения устойчивых векторов признаков, содержащее модуль извлечения векторов признаков, модуль классификации и модуль хранения и сопоставления размеченных последовательностей первого класса, отличающееся тем, что оно дополнительно содержит модуль хранения и сопоставления размеченных последовательностей второго класса, модуль выбора метода классификации, передающий наиболее подходящий способ классификации в модуль классификации, и модуль обратной связи и коррекции ошибки, передающий сигнал об ошибке в модуль выбора способа классификации, а модуль извлечения векторов признаков выполнен в виде парсера N-грамм, разработанные N-граммы которого поступают в модуль классификации, в который и в модуль обратной связи и коррекции ошибки поступают размеченные последовательности первого и второго классов соответственно из модуля хранения и сопоставления размеченных последовательностей первого класса и модуля хранения и сопоставления размеченных последовательностей второго класса, модуль классификации предназначен для определения класса, к которому относится входная последовательность, выбранный указанным модулем класс и сама последовательность поступают в модуль обратной связи и коррекции, предназначенный для определения, верно ли была произведена классификация.



 

Похожие патенты:

Полезная модель относится к медицине, а именно к медицинской диагностической технике, и может быть использована в онкологии в качестве аппаратуры для радионуклидной диагностики рака молочной железы при профилактических обследованиях для лечения больных с радиационно-чувствительными опухолями. Радионуклидный (радиоизотопный) метод диагностического исследования связан с новым способом радиоизотопной визуализации - сцинтиграфией. Маммосцинтиграфия - это способ дифференциальной диагностики патологии молочной железы по визуальной картине распределения в ткани диагностических радиофармпрепаратов, обладающих повышенной тропностью к опухолевым клеткам с использованием сцинтилляционной гамма-камеры.

Актуальность проведения скрининговых исследований в выявлении рака молочной железы и его лечении обусловлена высокой частотой онкологических заболеваний молочной железы, возможностью выявления этих заболеваний на ранних стадиях рака молочной железы при проведении массовых скрининговых обследований пациентов, относящихся к группе повышенного риска по возрасту и другим показаниям. Проведение скрининга заболеваний молочной железы позволяет выделить пациентов, нуждающихся в углубленной диагностике и постановке диагноза.

Медицинское оборудование для первичной диагностики новообразований молочной железы и назначения последующего обследования и лечения. В некоторых случаях имеет ощутимое преимущества перед более простым, безопасным и дешевым УЗИ, особенно, когда необходимо проверить аксиллярную зону.
Наверх