Система вероятностного антивирусного анализа объектов

Авторы патента:

G06F11 - Обнаружение ошибок, исправление ошибок; контроль (способы или устройства для контроля правильности записи на носителе информации G06K 5/00; при накоплении информации, основанном на относительном перемещении носителя записи и преобразователя G11B, например G11B 20/18; в статических запоминающих устройствах G11C; кодирование, декодирование, или преобразование кода для обнаружения или исправления ошибок вообще H03M 13/00 )

Полезная модель относится к системам компьютерной безопасности, преимущественно к системам антивирусного анализа объектов, и может быть использована как в составе компьютерной системы безопасности, или антивирусного пакета программного обеспечения, так и в качестве самостоятельного программного продукта или отдельного компонента.

Средство хранения коллекции известных объектов, средство подсчета коэффициентов классификаторов, средство хранения коллекции коэффициентов классификаторов для известных объектов, локальное средство обновления коэффициентов классификаторов, локальное средство хранения коэффициентов классификаторов для известных объектов, локальное средство сравнения, локальное средство подсчета коэффициентов классификаторов, локальное средство анализа неизвестных объектов.

Система дополнительно содержит средство хранения известных легитимных объектов, генератор N-грамм, локальный генератор N-грамм, средство лечения и удаления вредоносных объектов, фабрику классификаторов, расширяемый набор классификаторов, локальную фабрику классификаторов и обновляемую база данных известных объектов в виде коллекции коэффициентов классификаторов.

В качестве классифицируемого объекта используется файл, область диска или процесс в памяти.

1 нез. п. ф-ы, 1 зав. п. ф-ы, илл. 1

Полезная модель относится к системам компьютерной безопасности, преимущественно к системам антивирусного анализа объектов, и может быть использована как в составе компьютерной системы безопасности, антивирусного пакета программного обеспечения, так и в качестве самостоятельного программного продукта или компонента.

Известна система сравнения объектов для определения их тождественности или принадлежности к выбранным классам, состоящая из хранилища известных объектов, средства генерации сигнатур и средства сравнения сигнатур, которая генерирует сигнатуру для известного и неизвестного файла и определяет тождественность файлов путем сравнения их сигнатур. [1] Такая система, в частности, широко применяется для детектирования вредоносных файлов.

Основным существенным недостатком известной системы сравнения объектов для определения их тождественности, применительно к антивирусному анализу, является ее неспособность обнаружить как видоизмененные версии тождественных объектов, так и новые неизвестные ранее объекты, обладающие существенными отличительными признаками уже известных объектов.

Наиболее близким к заявленному техническому решению является система для быстрого обнаружения похожих объектов с использованием сверток, содержащая средство хранения коллекции известных объектов, средство подсчета сверток, средство обновления сверток, средство хранения коллекции сверток известных объектов, локальное средство обновления сверток, локальное средство хранения коллекции сверток известных объектов, локальное средство сравнения сверток, локальное средство подсчета сверток, локальное средство анализа неизвестных объектов, которая обеспечивает детектирование объектов, похожих на уже известные, путем сравнения специальным образом подобранных характеристик файла с имеющейся базой данных выбранных характеристик. [2]

Основными существенными недостатками известного аналога, выбранного автором в качестве прототипа заявляемой полезной модели, являются неспособность системы определять новые неизвестные ранее объекты, кардинально отличающиеся по своему содержимому и по сверткам, но, тем не менее обладающие существенными отличительными признаками уже известных объектов, а применительно к антивирусному анализу - неспособность определять ранее не изученные и не встречавшиеся версии вредоносных программ, существенно отличающиеся от уже известных по своему бинарному содержимому, но, тем не менее, использующие сходные с уже известными структуру, методы заражения, методы осуществления вредоносной деятельности, а также стилистический почерк создателя.

Главной задачей, решаемой заявляемой полезной моделью, является: повышение уровня безопасности компьютера за счет более раннего обнаружения новых видов вредоносных программ еще до обновления антивирусных баз и до того, как эти новые виды вредоносных программ попадут в антивирусную лабораторию. Поставленная задача решается в полезной модели за счет того, что она дополнительно содержит средство хранения известных легитимных объектов, генератор N-грамм, который разбивает известные вредоносные и легитимные объекты на N-граммы, а также ранжирует N-граммы по их информационной и статистической значимости для объекта и выделяет верхние К N-грамм, для которых значение информационной и статистической значимости наивысшее, локальный генератор N-грамм, средство лечения и удаления вредоносных объектов.

Система также дополнительно содержит фабрику классификаторов, расширяемый набор классификаторов и локальную фабрику классификаторов, а обновляемая база данных известных объектов (коллекция сверток) имеет вид коллекции коэффициентов классификаторов.

Кроме того, поставленная задача решается в полезной модели за счет того, что в ней в качестве классифицируемого объекта используется файл, область диска или процесс в памяти.

Ни из патентно-технической литературы, ни из практики конструирования систем антивирусного анализа не известно о ее конструкции и, в частности, методе генерации, хранения и сравнения коэффициентов, полученных путем классификации специальным образом подобранных N-грамм, идентичного с заявляемым в полезной модели. Правомерен вывод о соответствии заявленного технического решения критерию «новизна».

Совокупность новых и общих для прототипа и заявляемого технического решения существенных признаков может быть реализована множество раз. При этом достигается один и тот же эффект и решается главная задача, поставленная полезной моделью, указанная выше. Следует сделать правомерный вывод о соответствии заявленного решения критерию «промышленная применимость».

Сущность заявляемого технического решения поясняется схемой компонентов системы вероятностного антивирусного анализа. Система состоит из коллекции известных вредоносных объектов 1, коллекции известных легитимных объектов 2, генератора N-грамм 3, фабрики классификаторов 4, коллекции коэффициентов классификаторов известных объектов 5, локальной коллекции коэффициентов классификаторов известных объектов 7, локального средства анализа неизвестных объектов 8, локального генератора N-грамм 9, локальной фабрики классификаторов 10 и средства лечения и удаления вредоносных объектов 11. Дополнительно на схеме обозначены среда, средства и методы обновления 6, выражающие совокупность средств и методов регулярного обновления данных локальной коллекции коэффициентов классификаторов известных объектов 7 за счет новых данных из коллекции коэффициентов классификаторов известных объектов 5, как входящих в состав системы, так и внешних по отношению к системе. Кроме того, на схеме обозначены примеры классификаторов, используемых фабрикой классификаторов 4: дерево принятия решений 12, нейронная сеть 13, SVM (Support Vector Machine - машина поддерживающих векторов) 14 и другие возможные типы классификаторов 15.

Система вероятностного антивирусного анализа работает следующим образом. Генератор N-грамм 3 переводит объекты, содержащиеся в коллекции известных вредоносных объектов 1 и коллекции известных легитимных объектов 2 в последовательности N-грамм. После этого генератор N-грамм ставит в соответствие каждому из упомянутых выше объектов К наиболее важных для объекта с информационной и статистической точек зрения N-грамм. Информационная и статистическая значимость N-грамма для объекта определяется разнообразными методами, такими как вычисление прироста информации или усредненной взаимной информации, метрикой TF*IDF и другими. Каждому объекту ставится в соответствие вектор характеристик, состоящий из всех присутствующих во всех объектах обеих коллекций наиболее характерных N-грамм, при этом характеристикой является бинарный факт присутствия или отсутствия заданной N-граммы в заданном объекте.

Фабрика классификаторов 4 производит обучение каждого из подключенных к ней классификаторов 12-15 на образовавшемся массиве векторов характеристик объектов, при этом каждый из классификаторов обучается относить объект к одному из двух классов: С1 (вредоносные объекты) и С2 (легитимные объекты). Затем фабрика классификаторов производит тестирование подобранных в процессе обучения коэффициентов классификаторов путем разделения коллекций известных вредоносных и легитимных объектов на обучающее и проверочное множества с тем, чтобы: 1) Выявить вклад каждого из классификаторов в правильное разделение объектов на классы и присвоить каждому из классификаторов соответствующий коэффициент; 2) Подобрать наилучшие с точки зрения точности классификации величины К и N. Получившиеся в результате этого процесса набор обученных коэффициентов каждого из классификаторов, набор коэффициентов вклада классификаторов, а также величины К и N образуют коллекцию коэффициентов классификаторов известных объектов 5.

Коллекция коэффициентов классификаторов известных объектов 5 средствами сети Интернет, интранет, переносных хранилищ информации и других методов, а также с привлечением всех необходимых внешних и внутренних средств проверки, генерации, передачи, приемки и обработки обновлений переносится на компьютеры и серверы конечных пользователей. Итогом данного процесса становится обновленная локальная коллекция коэффициентов классификаторов известных объектов 7.

Локальное средство анализа неизвестных объектов 8 получает очередной неизвестный объект и передает его в локальный генератор N-грамм 9. Локальный генератор N-грамм преобразует проверяемый объект в последовательность N-грамм, выделяет К наиболее характерных для объекта N-грамм и преобразует их в вектор характеристик тем же способом, которым аналогичную операцию с известными объектами ранее выполнял генератор N-грамм 3. Затем локальная фабрика классификаторов 10, используя коэффициенты из локальной коллекции коэффициентов классификаторов известных объектов, а также характеристический вектор неизвестного объекта, относит неизвестный объект к классу вредоносных или легитимных объектов, с помощью операции, обратной операции машинного обучения, которая была произведена фабрикой классификаторов 4. В случае, если неизвестный объект был отнесен к классу вредоносных объектов, он направляется в средство лечения и удаления вредоносных объектов 11.

Следует отметить, что указанный выше принцип работы может быть применен не только к двум, но и к большему количеству разных классов классифицируемых объектов. Например, возможна реализация системы, в которой фабрика классификаторов определяет принадлежность объекта к классу, выражающему конкретное семейство вредоносных объектов.

Кроме того, подобная система может быть применена не только для выявления вредоносных объектов в задачах компьютерной безопасности, но и в широком круге других практических задач, как связанных, так и не связанных с компьютерной безопасностью. Например, подобная система может быть применена для диагностики заболеваний, для классификации изображений по заранее заданным признакам, и т.д.

Одним из важных свойств системы является тот факт, что коллекция коэффициентов классификаторов известных объектов, передаваемая от места анализа известных объектов к месту классификации неизвестных объектов во многих случаях может обладать существенно большей информационной плотностью (и как результат - меньшим объемом), чем исходная коллекция известных объектов, или же производная от нее коллекция сверток или сигнатур. Этот факт позволяет использовать подобную систему в задачах компрессирования данных и передачи сжатой информации.

Предлагаемое решение более эффективно, чем прототип, так как, во-первых, обладает существенно меньшей зависимостью от частоты обновлений антивирусных баз, а во-вторых, обеспечивает возможность раннего обнаружения и борьбы с неизвестными вредоносными программами еще до того, как они станут доступны вирусным аналитикам. Кроме того, предлагаемая система вероятностного антивирусного анализа позволяет уменьшить объем передаваемой и хранимой информации о вредоносных программах, что в конечном итоге повышает производительность и надежность системы безопасности и работы компьютера в целом.

Источники информации:

[1] - US Patent 6,738,932 «Method and system for identifying software revisions from memory images», МПК G06F 11/00, публ. 2004 г.

[2] - Патент РФ 101223, МПК G06F 11/00, G06F 21/00, публ. 2010 г.

1. Система вероятностного антивирусного анализа объектов, содержащая средство хранения коллекции известных объектов, средство подсчета коэффициентов классификаторов, средство хранения коллекции коэффициентов классификаторов для известных объектов, локальное средство обновления коэффициентов классификаторов, локальное средство хранения коэффициентов классификаторов для известных объектов, локальное средство сравнения, локальное средство подсчета коэффициентов классификаторов, локальное средство анализа неизвестных объектов, отличающаяся тем, что она дополнительно содержит средство хранения известных легитимных объектов, генератор N-грамм, локальный генератор N-грамм, средство лечения и удаления вредоносных объектов, фабрику классификаторов, расширяемый набор классификаторов, локальную фабрику классификаторов и обновляемую базу данных известных объектов в виде коллекции коэффициентов классификаторов.

2. Система по п.1, отличающаяся тем, что в качестве классифицируемого объекта используется файл, область диска или процесс в памяти.

Съемный носитель информации // 102139

Система обеспечения информационной безопасности грид-сети при распределении ресурсов между различными пользователями // 128745

Средства информационной безопасности и система комплексной (в том числе, технической) защиты территориально-распределенных объектов от утечки информации по техническим каналам за счет побочных электромагнитных излучений и наводок // 132288

Средства информационной безопасности относятся к радиотехнике и могут быть использованы для обеспечения комплексной (в том числе, технической) защиты территориально-распределенных объектов информатизации от утечки информации по техническим каналам за счет побочных электромагнитных излучений и наводок (ПЭМИН) в диапазоне частот 10 кГц-1,8 ГГц.

Схема блока индикации и управления, включающая устройство для организации систем информационной безопасности на предприятии // 137144

Бортовой комплекс для систем сопровождения и управления наземными транспортными средствами // 109945

Устройство для обнаружения и идентификации информационных атак на ресурсы автоматизированных систем военного назначения // 120792

Информационная система мониторинга информационного развития региона // 118777

Система определения показателя эффективности управления безопасностью для оптимизации настройки безопасности операционных систем // 101300

Автоматизированная система "монитор руководителя" информационной и аналитической поддержки принятия решений в сфере авиаперевозок // 133632

Полезная модель относится к области информационно-аналитических систем, предназначенных для сбора, обработки, анализа, структурирования и визуализации информации из разнородных источников

Моделирующее устройство оценки состояния защищенности информационной системы от внутреннего злоумышленника // 131217

Полезная модель относится к системам обработки данных, специально предназначенных для различных целей, а именно для оценки защищенности объектов информационной системы от деструктивного воздействия

Единая система классификации и кодирования органа исполнительной власти // 108179

Устройство обнаружения средств скрытого информационного воздействия на информационные системы // 122502

Система выявления и минимизации риска ложных срабатываний // 101224