SlideShare a Scribd company logo
1 of 19
XII международная конференция
CEE-SECR / РАЗРАБОТКА ПО
28 - 29 октября, Москва
Панков Иван
Titanic.csv – Как заметить макушку айсберга в
океане багов?
Как заметить макушку айсберга в океане
багов?
Знать, что такое айсберг
Подключать профессионалов
Настраивать свои инструменты
2
Что такое Баг с разных точек зрения
Что видно в метаданных
Что видно в описании дефекта
Что известно из отзывов пользователей
Тайное знание разработчиков
3
Взгляд на Баг с точки зрения Text Mining
Заголовки
Описания
Переписки и приложенные файлы
Программный код
4
Взгляд на Баг с точки зрения Text Mining
Описание бага
Связанные дефекты и документы
Инциденты у клиентов
Программный код
Отчеты о падениях, логи
5
С чего начать приёмку?
В первую очередь обращают внимание на уже
известные характеристики – размер, скорость,
категория риска.
Но что, если они обманчивы?
6
Как сопоставлять:
Сопоставление с другими примерами может
выявить закономерности
7
Как сопоставлять:
Скоринговые модели …похоже на Индию
8
Человек ошибается!
Впрочем, как и машины
Как сопоставлять: Подход исторический
9
Как сопоставлять: Подход исторический
10
Как использовать сакральное знание на
практике: Структура
Phase 1
Collect
texts
Phase 3
Profit
Phase 2
Machine
Learning
11
Как использовать сакральное знание на
практике. Phase 1: Сбор текстов
• Сам сбор текстов – заголовки, описания,
национальный корпус и корпоративный
• Препроцессинг – переводы, нормальная
форма, цензура, разбиение на смысловые
части
• Векторизация – статистика, нормализация,
добавление оптимизируемых параметров
12
Текстовые
данные
Предметные
Словари
Национальный
корпус
Как использовать сакральное знание на
практике. Phase 1: Сбор текстов
13
Заголовки
Описания
Переписки и
приложенные
файлы
Как использовать сакральное знание на
практике. Phase 1: Препроцессинг
Препроцессинг
Тексты
Модальность 1
Модальность 2
Модальность ...
Модальность N
Нормализация текстов
Стемминг
Переводы
Построение коллокаций
Удаление стоп слов
Чистые
тексты
14
Как использовать сакральное знание на
практике. Phase 1: Векторизация
15
Векторизация
Модальность 2
Токен 1
Токен 2
Токен ...
Токен N
Частотный учет
Нормализация
Чистые
тексты
Модальность 1
Модальность ...
Стат. меры: tf-idf
Применение
взвешивания
Фильтрация
Вектор
признаков
Как использовать сакральное знание на
практике. Phase 2: Machine Learning
Наши тексты теперь являются просто набором цифр, значит
применяем стандартный арсенал Машинного обучения.
Возможные шаги:
• Линейная регрессия
• Классификация методом ближайших соседей
• Наивный байесовский классификатор
• SVM
• etc.
16
Как использовать сакральное знание на
практике. Phase 3: Profit
• Учет при очередности выполнения заданий по приёмочному
тестированию
• Внедрение в системы поддержки принятия решений
• Поиск скрытых угроз по запросу или событию
17
Направления развития
• Учет семантики предложения
• Автоматический поиск синонимии несловарных терминов
• Увеличение числа модальностей
• Учет времени и эволюционных процессов
18
Спасибо за внимание
Контакты
Email: pankov.i.d@gmail.com
Facebook: www.facebook.com/ivan.pankov.7
19

More Related Content

Viewers also liked

Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedIn
Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedInБыстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedIn
Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedInCEE-SEC(R)
 
Разработчик всегда прав
Разработчик всегда правРазработчик всегда прав
Разработчик всегда правCEE-SEC(R)
 
«Знак качества» как инструмент анализа восприятия продукта клиентами
«Знак качества» как инструмент анализа восприятия продукта клиентами«Знак качества» как инструмент анализа восприятия продукта клиентами
«Знак качества» как инструмент анализа восприятия продукта клиентамиCEE-SEC(R)
 
Как развить отдел тестирования от палки-копалки до CI
Как развить отдел тестирования от палки-копалки до CIКак развить отдел тестирования от палки-копалки до CI
Как развить отдел тестирования от палки-копалки до CICEE-SEC(R)
 
Теория и практика сокращения релизного цикла
Теория и практика сокращения релизного циклаТеория и практика сокращения релизного цикла
Теория и практика сокращения релизного циклаSQALab
 
Человеческий фактор 3D: выбор оптимального метода разработки требований
Человеческий фактор 3D: выбор оптимального метода разработки требованийЧеловеческий фактор 3D: выбор оптимального метода разработки требований
Человеческий фактор 3D: выбор оптимального метода разработки требованийCEE-SEC(R)
 
Проектный офис и аналитик
Проектный офис и аналитикПроектный офис и аналитик
Проектный офис и аналитикCEE-SEC(R)
 
Частые ошибки в коммуникациях на проектах: называем, исправляем
Частые ошибки в коммуникациях на проектах: называем, исправляемЧастые ошибки в коммуникациях на проектах: называем, исправляем
Частые ошибки в коммуникациях на проектах: называем, исправляемCEE-SEC(R)
 
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.CEE-SEC(R)
 
Измеряем неизмеримое: навыки, знания и компетенции
Измеряем неизмеримое: навыки, знания и компетенцииИзмеряем неизмеримое: навыки, знания и компетенции
Измеряем неизмеримое: навыки, знания и компетенцииCEE-SEC(R)
 
Кейс Agile трансформации корпоративной культуры в МТС
Кейс Agile трансформации корпоративной культуры в МТСКейс Agile трансформации корпоративной культуры в МТС
Кейс Agile трансформации корпоративной культуры в МТСCEE-SEC(R)
 
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...CEE-SEC(R)
 
Работа аналитика в распределенной команде: проблемы и решения
Работа аналитика в распределенной команде: проблемы и решенияРабота аналитика в распределенной команде: проблемы и решения
Работа аналитика в распределенной команде: проблемы и решенияCEE-SEC(R)
 
Discovery Kanban для управления беклогом Scrum-команды
Discovery Kanban для управления беклогом Scrum-командыDiscovery Kanban для управления беклогом Scrum-команды
Discovery Kanban для управления беклогом Scrum-командыCEE-SEC(R)
 
Применение ТОС подхода на Agile проектах
Применение ТОС подхода на Agile проектахПрименение ТОС подхода на Agile проектах
Применение ТОС подхода на Agile проектахCEE-SEC(R)
 
Как 3 тестировщика играючи тестируют приложение для 10млн пользователей
Как 3 тестировщика играючи тестируют приложение для 10млн пользователейКак 3 тестировщика играючи тестируют приложение для 10млн пользователей
Как 3 тестировщика играючи тестируют приложение для 10млн пользователейSQALab
 
Who Needs Documentation Anyway?
Who Needs Documentation Anyway?Who Needs Documentation Anyway?
Who Needs Documentation Anyway?CEE-SEC(R)
 
Почему Agile больше не работает
Почему Agile больше не работаетПочему Agile больше не работает
Почему Agile больше не работаетCEE-SEC(R)
 
В чём заблуждаются аналитики, зачем и как с этим бороться?
В чём заблуждаются аналитики, зачем и как с этим бороться?В чём заблуждаются аналитики, зачем и как с этим бороться?
В чём заблуждаются аналитики, зачем и как с этим бороться?CEE-SEC(R)
 
Проблемы процесса разработки с точки зрения тестирования
Проблемы процесса разработки с точки зрения тестированияПроблемы процесса разработки с точки зрения тестирования
Проблемы процесса разработки с точки зрения тестированияCEE-SEC(R)
 

Viewers also liked (20)

Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedIn
Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedInБыстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedIn
Быстрый онлайн-доступ к огромному количеству оффлайн-данных в LinkedIn
 
Разработчик всегда прав
Разработчик всегда правРазработчик всегда прав
Разработчик всегда прав
 
«Знак качества» как инструмент анализа восприятия продукта клиентами
«Знак качества» как инструмент анализа восприятия продукта клиентами«Знак качества» как инструмент анализа восприятия продукта клиентами
«Знак качества» как инструмент анализа восприятия продукта клиентами
 
Как развить отдел тестирования от палки-копалки до CI
Как развить отдел тестирования от палки-копалки до CIКак развить отдел тестирования от палки-копалки до CI
Как развить отдел тестирования от палки-копалки до CI
 
Теория и практика сокращения релизного цикла
Теория и практика сокращения релизного циклаТеория и практика сокращения релизного цикла
Теория и практика сокращения релизного цикла
 
Человеческий фактор 3D: выбор оптимального метода разработки требований
Человеческий фактор 3D: выбор оптимального метода разработки требованийЧеловеческий фактор 3D: выбор оптимального метода разработки требований
Человеческий фактор 3D: выбор оптимального метода разработки требований
 
Проектный офис и аналитик
Проектный офис и аналитикПроектный офис и аналитик
Проектный офис и аналитик
 
Частые ошибки в коммуникациях на проектах: называем, исправляем
Частые ошибки в коммуникациях на проектах: называем, исправляемЧастые ошибки в коммуникациях на проектах: называем, исправляем
Частые ошибки в коммуникациях на проектах: называем, исправляем
 
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.
Сопротивление изменениям. Как помочь команде пережить процессную трансформацию.
 
Измеряем неизмеримое: навыки, знания и компетенции
Измеряем неизмеримое: навыки, знания и компетенцииИзмеряем неизмеримое: навыки, знания и компетенции
Измеряем неизмеримое: навыки, знания и компетенции
 
Кейс Agile трансформации корпоративной культуры в МТС
Кейс Agile трансформации корпоративной культуры в МТСКейс Agile трансформации корпоративной культуры в МТС
Кейс Agile трансформации корпоративной культуры в МТС
 
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...
Как не налететь на рифы в море преимуществ Scrum: организация и оптимизация т...
 
Работа аналитика в распределенной команде: проблемы и решения
Работа аналитика в распределенной команде: проблемы и решенияРабота аналитика в распределенной команде: проблемы и решения
Работа аналитика в распределенной команде: проблемы и решения
 
Discovery Kanban для управления беклогом Scrum-команды
Discovery Kanban для управления беклогом Scrum-командыDiscovery Kanban для управления беклогом Scrum-команды
Discovery Kanban для управления беклогом Scrum-команды
 
Применение ТОС подхода на Agile проектах
Применение ТОС подхода на Agile проектахПрименение ТОС подхода на Agile проектах
Применение ТОС подхода на Agile проектах
 
Как 3 тестировщика играючи тестируют приложение для 10млн пользователей
Как 3 тестировщика играючи тестируют приложение для 10млн пользователейКак 3 тестировщика играючи тестируют приложение для 10млн пользователей
Как 3 тестировщика играючи тестируют приложение для 10млн пользователей
 
Who Needs Documentation Anyway?
Who Needs Documentation Anyway?Who Needs Documentation Anyway?
Who Needs Documentation Anyway?
 
Почему Agile больше не работает
Почему Agile больше не работаетПочему Agile больше не работает
Почему Agile больше не работает
 
В чём заблуждаются аналитики, зачем и как с этим бороться?
В чём заблуждаются аналитики, зачем и как с этим бороться?В чём заблуждаются аналитики, зачем и как с этим бороться?
В чём заблуждаются аналитики, зачем и как с этим бороться?
 
Проблемы процесса разработки с точки зрения тестирования
Проблемы процесса разработки с точки зрения тестированияПроблемы процесса разработки с точки зрения тестирования
Проблемы процесса разработки с точки зрения тестирования
 

Similar to Titanic.csv – Как заметить макушку айсберга в океане багов?

Проектирование программных систем. Занятие 8
Проектирование программных систем. Занятие 8Проектирование программных систем. Занятие 8
Проектирование программных систем. Занятие 8Dima Dzuba
 
Выявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхВыявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхPavel Grushetzky
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4 Valeriy Titov
 
Software craftsmanship meetup #9. Логирование, мониторинг, оповещение
Software craftsmanship meetup #9. Логирование, мониторинг, оповещениеSoftware craftsmanship meetup #9. Логирование, мониторинг, оповещение
Software craftsmanship meetup #9. Логирование, мониторинг, оповещениеPavel Veinik
 
Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Victor Agroskin
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаSkillsWiki
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаgeekfamilyrussia
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаGoSharp
 
Как спроектировать хороший API и почему это так важно
Как спроектировать хороший API и почему это так важноКак спроектировать хороший API и почему это так важно
Как спроектировать хороший API и почему это так важноBubon Makabra
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Rideroit-people
 
MainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxMainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxKama74
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...Iosif Itkin
 

Similar to Titanic.csv – Как заметить макушку айсберга в океане багов? (20)

Проектирование программных систем. Занятие 8
Проектирование программных систем. Занятие 8Проектирование программных систем. Занятие 8
Проектирование программных систем. Занятие 8
 
C# programming
C# programmingC# programming
C# programming
 
Выявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхВыявление неполадок в Java приложениях
Выявление неполадок в Java приложениях
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4
 
Software craftsmanship meetup #9. Логирование, мониторинг, оповещение
Software craftsmanship meetup #9. Логирование, мониторинг, оповещениеSoftware craftsmanship meetup #9. Логирование, мониторинг, оповещение
Software craftsmanship meetup #9. Логирование, мониторинг, оповещение
 
Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных.
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчика
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчика
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 
1
11
1
 
Авиком
АвикомАвиком
Авиком
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
 
Рейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчикаРейтинг навыков .NET-разработчика
Рейтинг навыков .NET-разработчика
 
Как спроектировать хороший API и почему это так важно
Как спроектировать хороший API и почему это так важноКак спроектировать хороший API и почему это так важно
Как спроектировать хороший API и почему это так важно
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
 
MainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxMainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptx
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...
TMPA-2015: Standards and Standartization in Program Engineering. Why Would Yo...
 

More from CEE-SEC(R)

Подбор и адаптация методологий разработки ПО под различные типы производствен...
Подбор и адаптация методологий разработки ПО под различные типы производствен...Подбор и адаптация методологий разработки ПО под различные типы производствен...
Подбор и адаптация методологий разработки ПО под различные типы производствен...CEE-SEC(R)
 
Онлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсамОнлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсамCEE-SEC(R)
 
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...CEE-SEC(R)
 
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...CEE-SEC(R)
 
Машинное обучение на каждый день
Машинное обучение на каждый деньМашинное обучение на каждый день
Машинное обучение на каждый деньCEE-SEC(R)
 
Process и Case Management в информационной системе:
Process и Case Management в информационной системе: Process и Case Management в информационной системе:
Process и Case Management в информационной системе: CEE-SEC(R)
 
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...CEE-SEC(R)
 
Ай-трекинг в UX исследованиях
Ай-трекинг в UX исследованияхАй-трекинг в UX исследованиях
Ай-трекинг в UX исследованияхCEE-SEC(R)
 
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...CEE-SEC(R)
 
Технологичный подход к повышению продуктивности – кейсы и исследования
Технологичный подход к повышению продуктивности – кейсы и исследованияТехнологичный подход к повышению продуктивности – кейсы и исследования
Технологичный подход к повышению продуктивности – кейсы и исследованияCEE-SEC(R)
 
Субъектно-ориентированные информационные системы на предприятиях
Субъектно-ориентированные информационные системы на предприятияхСубъектно-ориентированные информационные системы на предприятиях
Субъектно-ориентированные информационные системы на предприятияхCEE-SEC(R)
 
Шаблоны контейнеров в Virtuozzo
Шаблоны контейнеров в VirtuozzoШаблоны контейнеров в Virtuozzo
Шаблоны контейнеров в VirtuozzoCEE-SEC(R)
 
Apache Storm: от простого приложения до подробностей реализации
Apache Storm: от простого приложения до подробностей реализацииApache Storm: от простого приложения до подробностей реализации
Apache Storm: от простого приложения до подробностей реализацииCEE-SEC(R)
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
Разработка требований для противоречащих законодательств
Разработка требований для противоречащих законодательствРазработка требований для противоречащих законодательств
Разработка требований для противоречащих законодательствCEE-SEC(R)
 
IT-Лаборатория: кузница кадров и стартапов
IT-Лаборатория: кузница кадров и стартаповIT-Лаборатория: кузница кадров и стартапов
IT-Лаборатория: кузница кадров и стартаповCEE-SEC(R)
 
Технология предметно ориентированного программирования гетерогенных многоядер...
Технология предметно ориентированного программирования гетерогенных многоядер...Технология предметно ориентированного программирования гетерогенных многоядер...
Технология предметно ориентированного программирования гетерогенных многоядер...CEE-SEC(R)
 
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...Разработка системы автоматизированного тестирования при помощи фреймворка Pro...
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...CEE-SEC(R)
 
SysML в качестве платформы интеграции для моделирования ко-симуляций
SysML в качестве платформы интеграции для моделирования ко-симуляцийSysML в качестве платформы интеграции для моделирования ко-симуляций
SysML в качестве платформы интеграции для моделирования ко-симуляцийCEE-SEC(R)
 
Эволюция нагрузочного тестирования – от простой автоматизации до BDD
Эволюция нагрузочного тестирования – от простой автоматизации до BDDЭволюция нагрузочного тестирования – от простой автоматизации до BDD
Эволюция нагрузочного тестирования – от простой автоматизации до BDDCEE-SEC(R)
 

More from CEE-SEC(R) (20)

Подбор и адаптация методологий разработки ПО под различные типы производствен...
Подбор и адаптация методологий разработки ПО под различные типы производствен...Подбор и адаптация методологий разработки ПО под различные типы производствен...
Подбор и адаптация методологий разработки ПО под различные типы производствен...
 
Онлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсамОнлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсам
 
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...
Массовый параллелизм для гетерогенных вычислений на C++ для беспилотных автом...
 
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...
Как компании с вузами вместе ИТ специалиста готовили или Чем ИТ компания може...
 
Машинное обучение на каждый день
Машинное обучение на каждый деньМашинное обучение на каждый день
Машинное обучение на каждый день
 
Process и Case Management в информационной системе:
Process и Case Management в информационной системе: Process и Case Management в информационной системе:
Process и Case Management в информационной системе:
 
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...
Как ЧПУ станку в домашней мастерской не превратиться в мульт героев “двое из ...
 
Ай-трекинг в UX исследованиях
Ай-трекинг в UX исследованияхАй-трекинг в UX исследованиях
Ай-трекинг в UX исследованиях
 
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...
Настоящее и будущее решений для разработки кросс-платформенных мобильных гибр...
 
Технологичный подход к повышению продуктивности – кейсы и исследования
Технологичный подход к повышению продуктивности – кейсы и исследованияТехнологичный подход к повышению продуктивности – кейсы и исследования
Технологичный подход к повышению продуктивности – кейсы и исследования
 
Субъектно-ориентированные информационные системы на предприятиях
Субъектно-ориентированные информационные системы на предприятияхСубъектно-ориентированные информационные системы на предприятиях
Субъектно-ориентированные информационные системы на предприятиях
 
Шаблоны контейнеров в Virtuozzo
Шаблоны контейнеров в VirtuozzoШаблоны контейнеров в Virtuozzo
Шаблоны контейнеров в Virtuozzo
 
Apache Storm: от простого приложения до подробностей реализации
Apache Storm: от простого приложения до подробностей реализацииApache Storm: от простого приложения до подробностей реализации
Apache Storm: от простого приложения до подробностей реализации
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
Разработка требований для противоречащих законодательств
Разработка требований для противоречащих законодательствРазработка требований для противоречащих законодательств
Разработка требований для противоречащих законодательств
 
IT-Лаборатория: кузница кадров и стартапов
IT-Лаборатория: кузница кадров и стартаповIT-Лаборатория: кузница кадров и стартапов
IT-Лаборатория: кузница кадров и стартапов
 
Технология предметно ориентированного программирования гетерогенных многоядер...
Технология предметно ориентированного программирования гетерогенных многоядер...Технология предметно ориентированного программирования гетерогенных многоядер...
Технология предметно ориентированного программирования гетерогенных многоядер...
 
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...Разработка системы автоматизированного тестирования при помощи фреймворка Pro...
Разработка системы автоматизированного тестирования при помощи фреймворка Pro...
 
SysML в качестве платформы интеграции для моделирования ко-симуляций
SysML в качестве платформы интеграции для моделирования ко-симуляцийSysML в качестве платформы интеграции для моделирования ко-симуляций
SysML в качестве платформы интеграции для моделирования ко-симуляций
 
Эволюция нагрузочного тестирования – от простой автоматизации до BDD
Эволюция нагрузочного тестирования – от простой автоматизации до BDDЭволюция нагрузочного тестирования – от простой автоматизации до BDD
Эволюция нагрузочного тестирования – от простой автоматизации до BDD
 

Titanic.csv – Как заметить макушку айсберга в океане багов?

  • 1. XII международная конференция CEE-SECR / РАЗРАБОТКА ПО 28 - 29 октября, Москва Панков Иван Titanic.csv – Как заметить макушку айсберга в океане багов?
  • 2. Как заметить макушку айсберга в океане багов? Знать, что такое айсберг Подключать профессионалов Настраивать свои инструменты 2
  • 3. Что такое Баг с разных точек зрения Что видно в метаданных Что видно в описании дефекта Что известно из отзывов пользователей Тайное знание разработчиков 3
  • 4. Взгляд на Баг с точки зрения Text Mining Заголовки Описания Переписки и приложенные файлы Программный код 4
  • 5. Взгляд на Баг с точки зрения Text Mining Описание бага Связанные дефекты и документы Инциденты у клиентов Программный код Отчеты о падениях, логи 5
  • 6. С чего начать приёмку? В первую очередь обращают внимание на уже известные характеристики – размер, скорость, категория риска. Но что, если они обманчивы? 6
  • 7. Как сопоставлять: Сопоставление с другими примерами может выявить закономерности 7
  • 8. Как сопоставлять: Скоринговые модели …похоже на Индию 8 Человек ошибается! Впрочем, как и машины
  • 10. Как сопоставлять: Подход исторический 10
  • 11. Как использовать сакральное знание на практике: Структура Phase 1 Collect texts Phase 3 Profit Phase 2 Machine Learning 11
  • 12. Как использовать сакральное знание на практике. Phase 1: Сбор текстов • Сам сбор текстов – заголовки, описания, национальный корпус и корпоративный • Препроцессинг – переводы, нормальная форма, цензура, разбиение на смысловые части • Векторизация – статистика, нормализация, добавление оптимизируемых параметров 12
  • 13. Текстовые данные Предметные Словари Национальный корпус Как использовать сакральное знание на практике. Phase 1: Сбор текстов 13 Заголовки Описания Переписки и приложенные файлы
  • 14. Как использовать сакральное знание на практике. Phase 1: Препроцессинг Препроцессинг Тексты Модальность 1 Модальность 2 Модальность ... Модальность N Нормализация текстов Стемминг Переводы Построение коллокаций Удаление стоп слов Чистые тексты 14
  • 15. Как использовать сакральное знание на практике. Phase 1: Векторизация 15 Векторизация Модальность 2 Токен 1 Токен 2 Токен ... Токен N Частотный учет Нормализация Чистые тексты Модальность 1 Модальность ... Стат. меры: tf-idf Применение взвешивания Фильтрация Вектор признаков
  • 16. Как использовать сакральное знание на практике. Phase 2: Machine Learning Наши тексты теперь являются просто набором цифр, значит применяем стандартный арсенал Машинного обучения. Возможные шаги: • Линейная регрессия • Классификация методом ближайших соседей • Наивный байесовский классификатор • SVM • etc. 16
  • 17. Как использовать сакральное знание на практике. Phase 3: Profit • Учет при очередности выполнения заданий по приёмочному тестированию • Внедрение в системы поддержки принятия решений • Поиск скрытых угроз по запросу или событию 17
  • 18. Направления развития • Учет семантики предложения • Автоматический поиск синонимии несловарных терминов • Увеличение числа модальностей • Учет времени и эволюционных процессов 18
  • 19. Спасибо за внимание Контакты Email: pankov.i.d@gmail.com Facebook: www.facebook.com/ivan.pankov.7 19