"Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works)

Опыт участия в
Microsoft Malware Classiﬁcation Challenge
Трофимов Михаил
Machine Learning Works
13 августа 2016 года
Трофимов Михаил Опыт участия в Microsoft Malware Classiﬁcation Challenge

Задача
Данные
≈ 200 GB вирусов (10k примеров в обучение, 10k в тест).
Каждый сэмпл представлен в 2 видах: сырые байты и вывод
дизассемблера.
Задача
Классификация на 10 фиксированных семейств
Метрика
Логарифмические потери (LogLoss)

Команда
Дмитрий Ульянов Станислав Семенов Михаил Трофимов

Данные (1/2)
В виде сырых байт:

Данные (2/2)
В виде вывода дизассемблера:

Признаки
Размеры файлов
Байты и ассемблерные операторы
Распределение, биграммы...
Распределение энтропии в скользящем окне
Степень сжимаемости
Наличие ключевых слов
Системные вызовы (grep by "__stdcall")
Ключевые слова (loadlibrary, HKEY_LOCAL_MACHINE,...)
Строки бинарника
Распределение длин
Наличие характерных строк
... и другие

Поверхностный анализ
Файлов много, хочется быстро в них заглянуть
Загружать в python – много кода
ls, cat/head/tail, grep
Просемплировать строчки
awk ’NR == 1 || NR % 3 == 0’ input.ﬁle > output.ﬁle
Найти строки в бинарнике
strings input.bin

Обработка файлов
Задача
Нужно считывать и обработывать ≈ 104
× 106
строк. Многократно.
Проблема
CPython медленный для этого.
Варианты?
Cython
PyPy
Numba

Сравнение
Таблица: Сравнение способов ускорения python
Либа Установка Использование Комментарий
Cython pip Переписать код Стандартное решение
PyPy pip pypy script.py Проблема с пакетами
Numba conda @jit Использует LLVM
Сравнение в цифрах: https://pybenchmarks.org

PyPy vs CPython (http://speed.pypy.org/)

Чтение с диска
Задача
Нужно считывать и обработывать ≈ 200 GB. Многократно.
Проблема
Диск медленный, фрагментированный, места не хватает

Чтение с диска
Задача
Нужно считывать и обработывать ≈ 200 GB. Многократно.
Проблема
Диск медленный, фрагментированный, места не хватает
Возможное решение
Читать сразу из .gz файла

Сохранение промежуточных результатов
Задача
Нужно многократно дампить и поднимать большие питоновские
структуры (словари, numpy-массивы)
Проблема
joblib / pickle∗
работают неприлично долго
Возможное решение
hickle

https://github.com/telegraphic/hickle
Hickle быстрее pickle, использует HDF5, поддерживает компрессию

Промежуточные результаты

Байты как текст
2-grams: 2562
= 65536
4-grams: 2564
= 4.2 × 109
10-grams: 25610
= 1.2 × 1024

2-grams
2-grams: 2562
= 65536 фичей
Собираем с каждого файла словарь вида 2-gram -> частота
Аггрегируем все файлы в разреженную матрицу
Требует O(nnz) памяти, где nnz – число ненулевых
элементов
Реализация в scipy.sparse

4-grams
Аналогично:
4-grams: 2564
= 4.2 × 109
фичей
В чем подвох?

4-grams
10-grams: 2564
= 4.2 × 109
фичей
4-грамм (строк из 8 символов) много
Большой оверхед по памяти на создание и поддержание
словаря
Замапим 4-граммы(строки) на id(числа) [обратимая
операция]
Получим словарь вида id->частота

10-grams
4-grams: 25610
≈ 1024
фичей
Собираем с каждого файла словарь вида id -> частота
Матрица получится чудовищной
Так ли нужна обратимость отображения 10-грамм(строк)
на id(числа)?
Hash-trick!
id = hash(10-gram) % 2b
, b = 28
В итоге 2 × 108
фичей

Отбор признаков: 4-грамы

Отбор признаков: 10-грамы

Снижение размерности
RF(NMF(X)) был лучше, чем RF(PCA(X))

Итоговое решение
Усреднение множества xgboost’ов
Разные подмножества признаков
Semi-supervised trick
top14 на публичном лидерборде
top3 на приватном лидерборде

Полезные штуки
PyPy / Numba / Cython
HDF5 / Hickle
"Fast Non-Standard Data Structures for Python"by Mike Korobov
Трюк с хэшированием
Разреженные матрицы
LinearSVC(L1) для обора признаков

Финальный слайд
Вопросы?
Спасибо за внимание!

"Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to "Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works)

Similar to "Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works) (20)

More from AvitoTech

More from AvitoTech (20)

"Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works)