Detecting logged in user's abnormal activityArvids Godjuks
Detection of abnormal user's activity is currently not performed in most popular Intrusion Detection Systems (IDS). However, it's not so rare when one user credentials are used by another user (for example, when password was stolen or watched). Also there are more and more sensitive data available through Internet.
To prevent this type of attacks we've developed an algorithm of building preferences based user behavior model.
It is using Markov chains to represent user behavioral information. For the time being, an experimental system that allows to analyze such method efficiency and detect irregular access to medical data is under development.
Since systems protected are a set of webservices, popular open source tools such as PHP, MySQL, GraphML, and Flare were used to implent it.
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
Доклад посвящен современным средствам обработки текстов на основе машинного обучения, применяемым для некоторых задач поиска в проектах Rambler&Co (портал, ЖЖ). Докладчик делится опытом разработки решений на основе векторного представления word2vec и нейронных сетей, обучаемых на реальных данных. Будут рассмотрены примеры использования библиотек fastText, Keras и Tensorflow.
Подписывайтесь на мой Telegram-канал: http://t.me/ai_review
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...yaevents
Александр Петренко, ИСП РАН
Профессор, доктор физико-математических наук, заведующий отделом технологий программирования Института системного программирования (ИСП РАН), профессор ВМК МГУ. Основные работы в областях: формализация требований, генерация тестов на основе формализованных требований и формальных моделей (model based testing – MBT). Приложения: тестирование операционных систем и распределенных систем, тестирование компиляторов, верификация дизайна микропроцессоров, формализация стандартов на API операционных систем и телекоммуникационных протоколов. Сопредседатель оргкомитетов International MBT workshop (http://www.mbrworkshop.org/), Spring Young Researcher Colloquium on Software Engineering – SYRCoSE (http://syrocose.ispras.ru), городского семинара по технологиям разработки и анализа программ ТРАП/SDAT (http://sdat.ispras.ru/).
Тема доклада
Модели в профессиональной инженерии и тестировании программ.
Тезисы
Model Based Software Engineering (MBSE) является расширением подхода к разработке программ на основе моделей. В MBSE в отличие, например, от MDA (Model Driver Architecture) существенное внимание уделяется не только задачам собственно проектирования и разработки кода, но и задачам других фаз жизненного цикла – анализу требований, верификации и валидации, управлению требованиями на всех фазах жизненного цикла. Model Based Testing (MBT) хронологически возник гораздо раньше, чем MBSE и MDA, однако его место в разработке программ в полной мере раскрылось вместе с развитием MBSE. По этой причине MBT и MBSE следует рассматривать в тесной связке. В докладе будут рассмотрены концепции MBSE-MDA-MBT, основные источники и виды моделей, которые используются в этих подходах, методы генерации тестов на основе моделей, известные инструменты для
Detecting logged in user's abnormal activityArvids Godjuks
Detection of abnormal user's activity is currently not performed in most popular Intrusion Detection Systems (IDS). However, it's not so rare when one user credentials are used by another user (for example, when password was stolen or watched). Also there are more and more sensitive data available through Internet.
To prevent this type of attacks we've developed an algorithm of building preferences based user behavior model.
It is using Markov chains to represent user behavioral information. For the time being, an experimental system that allows to analyze such method efficiency and detect irregular access to medical data is under development.
Since systems protected are a set of webservices, popular open source tools such as PHP, MySQL, GraphML, and Flare were used to implent it.
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
Доклад посвящен современным средствам обработки текстов на основе машинного обучения, применяемым для некоторых задач поиска в проектах Rambler&Co (портал, ЖЖ). Докладчик делится опытом разработки решений на основе векторного представления word2vec и нейронных сетей, обучаемых на реальных данных. Будут рассмотрены примеры использования библиотек fastText, Keras и Tensorflow.
Подписывайтесь на мой Telegram-канал: http://t.me/ai_review
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...yaevents
Александр Петренко, ИСП РАН
Профессор, доктор физико-математических наук, заведующий отделом технологий программирования Института системного программирования (ИСП РАН), профессор ВМК МГУ. Основные работы в областях: формализация требований, генерация тестов на основе формализованных требований и формальных моделей (model based testing – MBT). Приложения: тестирование операционных систем и распределенных систем, тестирование компиляторов, верификация дизайна микропроцессоров, формализация стандартов на API операционных систем и телекоммуникационных протоколов. Сопредседатель оргкомитетов International MBT workshop (http://www.mbrworkshop.org/), Spring Young Researcher Colloquium on Software Engineering – SYRCoSE (http://syrocose.ispras.ru), городского семинара по технологиям разработки и анализа программ ТРАП/SDAT (http://sdat.ispras.ru/).
Тема доклада
Модели в профессиональной инженерии и тестировании программ.
Тезисы
Model Based Software Engineering (MBSE) является расширением подхода к разработке программ на основе моделей. В MBSE в отличие, например, от MDA (Model Driver Architecture) существенное внимание уделяется не только задачам собственно проектирования и разработки кода, но и задачам других фаз жизненного цикла – анализу требований, верификации и валидации, управлению требованиями на всех фазах жизненного цикла. Model Based Testing (MBT) хронологически возник гораздо раньше, чем MBSE и MDA, однако его место в разработке программ в полной мере раскрылось вместе с развитием MBSE. По этой причине MBT и MBSE следует рассматривать в тесной связке. В докладе будут рассмотрены концепции MBSE-MDA-MBT, основные источники и виды моделей, которые используются в этих подходах, методы генерации тестов на основе моделей, известные инструменты для
Когда говорят о машинном обучении, обычно рассматривают его в контексте создания спам-фильтров, рекомендательных систем, распознавания текста, лиц и голоса. В данном докладе машинное обучение будет рассмотрено применительно к фармацевтике, а именно drug discovery. Доклад условно разделён на 3 части. В первой части Андрей на реальном примере рассмотрит реализацию и основные стадии пайплайна, который используется в drug discovery. Во второй части доклада применительно к C++ будут рассмотрены возможности, которые можно использовать для организации параллельных вычислений. В третьей части Андрей расскажет, как можно использовать распределённые вычисления для масштабирования существующего решения, когда нежелательно или невозможно поменять существующую кодовую базу.
Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области
1. Использование поисковых машин и
ресурсов Интернет для отбора
терминов предметной области
Выполнил:
Бондаренко Игорь Владимирович
Научный руководитель:
к.ф.-м.н.,с.н.с. НИВЦ МГУ Лукашевич Н.В.
ВМиК, кафедра Алгоритмических Языков, 2009 год
2. Отбор терминов предметной
области
• Термин – слово (или сочетание слов), являющееся
точным обозначением определенного понятия
какой-либо специальной области науки, техники,
искусства, общественной жизни и т.п.
(Лингвистический словарь)
• Потребность в выделении терминов :
- в библиотечном деле
- в обработке документов
- в информационном поиске
- для автоматического формирования тезаурусов
• На практике при автоматическом извлечении
терминов используются разные признаки
(статистические, лингвистические)
2
3. Задача работы
• Создать программную систему, которая :
- Автоматически получает сниппеты поисковой машины
- Обрабатывает сниппеты для получения значений
характеристик словосочетания
- На основе полученных значений характеристик
переупорядочивает список словосочетаний по мере их
терминологичности
• Оценить качество работы программной системы
Сниппет - это краткий фрагмент документа, отображаемый
поисковой машиной в выдаче результатов поиска
МАГНИТНЫЕ ПОЛЯ ЧЕЛОВЕКА. Кроме того, при наложении внешнего
магнитного поля проявляются неоднородности восприимчивости
различных органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается появлением
3
электрического...
4. Предметная область и исходные
данные
• Исследование проводится на базе терминологии
в области математических и естественных наук
(математика, физика, химия, геология)
• Произведена обработка специальными
процедурами автоматического извлечения
терминоподобных словосочетаний
• Исходные данные: список извлеченных
словосочетаний (именных групп), упорядоченный
по частотности
- программа образования : 8817
- решение задачи : 4867
- магнитное поле : 4590
- случайная величина : 3944
- международная соросовская программа : 2204
-…
4
6. Характеристики словосочетаний -1
Использовалась информация о частотности
словосочетаний в коллекции
• Freq Частотность словосочетания в коллекции
• С-Value C-Value=
{ log2|a|*Freq(a)
log2|a|*Freq(a) -
, если не вложено
1
* ∑ Freq(b)
P(Ta) b∈Ta
Tа – множество словосочетаний, которые содержат a,
P(Tа) – количество словосочетаний, содержащих a.
• TF*IDF Freq(a)* ln[ (N - Da) / Da]
N – количество документов в 1/12 базе Яндекс
Da – число документов базы, содержащих более редкое
слово словосочетания
• Freq/Freqmore min (1, Freq/max Freq(Та) )
Та 6
7. Характеристики словосочетаний -2
Использовалась выдача поисковой машины (сниппеты)
• nWords Общее количество слов в сниппетах
• maxbool
Наибольшее количество совпадающих слов
• nMarkers Количество маркеров определений в
сниппетах (это, являться, определение…)
• nColloc Количество словосочетаний запроса в
сниппетах
Кроме того, при наложении внешнего магнитного поля
проявляются неоднородности восприимчивости различных
органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается
7
появлением ...
8. Принципы оценки качества
сортировки алгоритма
• Для многих словосочетаний имеется ручная
оценка, является ли данное словосочетание
термином – сопоставление с Онтологией по
естественным наукам и технологиям (ОЕНТ)
• Оценка качества термина – сумма синонимов и
отношений соответствующего концепта
• Мера оценки для упорядоченных списков – Mean
Average Precision (MAP) – среднее значение
точности для всех значений полноты
- : 1 : программа образования
+: 2 : магнитное поле
МАР=(1/2+2/3)/2=0.583
+: 3 : земная кора
8
9. Оценка значений МАР для отдельных
характеристик
Характеристика МАР возрастание/ зависит от выдачи
убывание
Freq 0.624212 возр. НЕТ
C-Value 0.627686 возр. НЕТ
TF*IDF 0.672341 возр. НЕТ
Freq/Freqmore 0.531458 убыв. НЕТ
nWords 0.691461 возр. ДА
maxbool 0.690145 возр. ДА
nMarkets 0.690805 возр. ДА
nColloc 0.759548 возр. ДА
всего 19 характеристик
9
10. Методы комбинирования характеристик-1
Метод перебора
i i
Имеется : (c1,…,c19) значений характеристик для ∀
словосочетания
Требуется: найти (х1,…,х19): сортировка списка по убыванию
<c,x> дает наибольшую точность (MAP)
F(x) ; R 19 ->R ; F(x) >0; F(c0*x)=F(x), c0>0
1.max F(0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ai,x,..,x,aj,x,..,x)
i,j i j i j
ai∈{-1,1} aj∈[-5;5]
2.max F(0,..,0,ak,0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ak,x,..,x,ai,x,..,x,aj,x,.,x)
k ∉ {i,j} k i j k i j
ak∈[-5;5]
Методы МАР
Перебор, 19 хар. 0.794155
Перебор, 4 хар. 0.687054
10
nColloc 0.759545
11. Методы комбинирования характеристик-2
Использование программы Weka
Зависимая переменная : терминологичность словосочетания, {yes, no}
Выдача: ((<c,x>) > c0 ) => (term = yes)
Методы МАР
Бинарная Логистическая 0.793953
Регрессия
Зависимая переменная : качество термина , Z+
Выдача: term_qual=<c,x>
Методы МАР
Линейная Регрессия 0.745476
Медиан-Медианная Регрессия
0.783717
Метод Опорных Векторов
0.783726
Методы МАР
Перебора, 19 хар. 0.794155
11
nColloc 0.759545
12. Заключение
• Создана программная система, упорядочивающая
список словосочетаний по мере их терминологичности
на основе выдачи поисковой машины
• Было использовано 19 характеристик употребления
словосочетаний
• Для оптимального комбинирования весов
характеристик было использовано 3 метода (перебора,
автоматической классификации, регрессии)
• Показано улучшение сортировки списка
словосочетаний:
- на 15.6% по сравнению с оптимальной комбинацией
характеристик, не зависящих от выдачи
- на 4.6% по сравнению с наилучшей характеристикой
12