SlideShare a Scribd company logo
1 of 14
КУЛЬТУРА РАБОТЫ
С ДАННЫМИ
Андрей Котов
Пример №1 Качество категоризации
Продолжительность проекта =Х
Прибыль проекта =Y
Пример №1 Качество категоризации
Продолжительность проекта =Х+1%
Прибыль проекта =Y-1%
Пример №1 Качество категоризации
Продолжительность проекта =Х+2%
Прибыль проекта =Y-3%
Пример №1 Качество категоризации
Продолжительность проекта =Х+3%
Прибыль проекта =Y-5%
Пример №1 Качество категоризации
Продолжительность проекта =Х+10%
Прибыль проекта =Y-15%
Пример №2 Описание товара
Пример №2 Описание товара
- Зеленый
- Зеленый
- Зеленый
- Зеленый
- Зеленый
Пример №2 «Какого цвета платье?»
1. Отсутствие единого стандарта
2. Дублирование
3. Противоречия
4. Ошибки
5. Нехватка информации
6. Избыточная информация
6 проблем качества данных:
1) если вы заказчик, вы должны знать об уровне качества данных внутри вашей
компании. И понимать, что то что вам продают может не сработать только
потому, что кто-то записывает название товара с ошибками. И следовательно
относится к предложениям критически.
2) если вы консультант или датамайнер, то вы должны видеть эти данные
своими глазами, знать как они формировались, очистить их и главное —
ПРИВИТЬ дальнейшую культуру работы с ними клиенту.
3) если вы простой аналитик, нужно начать с себя и записывать данные
аккуратно, выполнять основные заповеди, подобно заповедям Дзен-Pythonа
Как с этим жить?
o Красота лучше уродства.
o Ясность лучше неясности.
o Простота лучше сложности.
o Сложность лучше запутанности.
o Плоскость лучше вложенности.
o Разведенность лучше концентрированности.
o Читаемость ценится высоко (!!!)
o + Одинаково лучше, чем «эффективное»
o + Однозначное лучше, чем короткое
o Особые случаи не настолько особы, чтобы ради них нарушать правила.
o Хотя практичность выше опрятности.
o Ошибки не должны проходить незамеченными.
o Если ошибка не в незаметности.
o Перед лицом неопределенности лучше отказаться от попыток угадать
o Должен быть один — и было бы идеально, если только один — очевидный способ решить проблему.
o Хотя на первый взгляд этот способ может и не казатся очевидным, особенно если вы — голландец.
o + Если откладываешь проблему, то сделай так, что бы потом, ее мог решить не только ты.
o Однако, сейчас лучше, чем никогда.
o Хотя зачастую никогда лучше, чем прямо сейчас.
o Если структуру непросто объяснить — то это плохая идея.
o Если структуру просто объяснить, это может быть хорошей идеей.
Дзен Python работы с данными:
Пример №3 Столкновение с реальностью
Данные качественные
Модель отличная
Внедрение гладкое
Рост прибыли
May the Patience be with you!
Андрей Котов
+7(916)807-56-89
Да прибудет с тобой терпение!

More Related Content

Viewers also liked

HSE{SUN}: День 4. Сергей Голубев
HSE{SUN}: День 4. Сергей ГолубевHSE{SUN}: День 4. Сергей Голубев
HSE{SUN}: День 4. Сергей ГолубевBusiness incubator HSE
 
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Newprolab
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Newprolab
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Newprolab
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Newprolab
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Newprolab
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Newprolab
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Newprolab
 
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...Newprolab
 
Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015rusbase
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. SberbankNewprolab
 
Big data and public transport
Big data and public transportBig data and public transport
Big data and public transportTristan Wiggill
 

Viewers also liked (13)

HSE{SUN}: День 4. Сергей Голубев
HSE{SUN}: День 4. Сергей ГолубевHSE{SUN}: День 4. Сергей Голубев
HSE{SUN}: День 4. Сергей Голубев
 
М. Нальский: Как влюбить клиента в b2b-продукт?
М. Нальский: Как влюбить клиента в b2b-продукт?М. Нальский: Как влюбить клиента в b2b-продукт?
М. Нальский: Как влюбить клиента в b2b-продукт?
 
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
 
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
 
Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 
Big data and public transport
Big data and public transportBig data and public transport
Big data and public transport
 

Similar to Data Science Week 2016. GlowByte, "Культура работы с данными"

Dima - Bulbacon Talk 2018
Dima - Bulbacon Talk 2018Dima - Bulbacon Talk 2018
Dima - Bulbacon Talk 2018Dima Korolev
 
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...Lviv Startup Club
 
10 историй моих неудач
10 историй моих неудач10 историй моих неудач
10 историй моих неудачEvgeniy Labunskiy
 
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...CodeFest
 
Алексей Минкевич. Искусство проведения интервью
Алексей Минкевич. Искусство проведения интервьюАлексей Минкевич. Искусство проведения интервью
Алексей Минкевич. Искусство проведения интервьюIT Spring
 
собеседование тестировщиков что спросить и как ответить
собеседование тестировщиков   что спросить и как ответитьсобеседование тестировщиков   что спросить и как ответить
собеседование тестировщиков что спросить и как ответитьAlex Baranouski
 
Собеседование тестировщиков: что спросить и как ответить
Собеседование тестировщиков: что спросить и как ответитьСобеседование тестировщиков: что спросить и как ответить
Собеседование тестировщиков: что спросить и как ответитьSQALab
 
Азбука вежливости
Азбука вежливостиАзбука вежливости
Азбука вежливостиPyNSK
 
Карьера UI/UX-дизайнера
Карьера UI/UX-дизайнераКарьера UI/UX-дизайнера
Карьера UI/UX-дизайнераEugen Savitsky
 

Similar to Data Science Week 2016. GlowByte, "Культура работы с данными" (9)

Dima - Bulbacon Talk 2018
Dima - Bulbacon Talk 2018Dima - Bulbacon Talk 2018
Dima - Bulbacon Talk 2018
 
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...
Володимир Железняк & Дмитро Снісарь: “Я не випущу поганий код, тому дайте мен...
 
10 историй моих неудач
10 историй моих неудач10 историй моих неудач
10 историй моих неудач
 
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...
CodeFest 2013. Кудрявцев Г. — Как продакту найти язык с разработчиками. В чем...
 
Алексей Минкевич. Искусство проведения интервью
Алексей Минкевич. Искусство проведения интервьюАлексей Минкевич. Искусство проведения интервью
Алексей Минкевич. Искусство проведения интервью
 
собеседование тестировщиков что спросить и как ответить
собеседование тестировщиков   что спросить и как ответитьсобеседование тестировщиков   что спросить и как ответить
собеседование тестировщиков что спросить и как ответить
 
Собеседование тестировщиков: что спросить и как ответить
Собеседование тестировщиков: что спросить и как ответитьСобеседование тестировщиков: что спросить и как ответить
Собеседование тестировщиков: что спросить и как ответить
 
Азбука вежливости
Азбука вежливостиАзбука вежливости
Азбука вежливости
 
Карьера UI/UX-дизайнера
Карьера UI/UX-дизайнераКарьера UI/UX-дизайнера
Карьера UI/UX-дизайнера
 

More from Newprolab

Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данныхData Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данныхNewprolab
 
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Newprolab
 
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Newprolab
 
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanData Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanNewprolab
 
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Newprolab
 
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Newprolab
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Newprolab
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыNewprolab
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системеNewprolab
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...Newprolab
 

More from Newprolab (10)

Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данныхData Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
 
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
 
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
 
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanData Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
 
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
 
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
 

Data Science Week 2016. GlowByte, "Культура работы с данными"

  • 2. Пример №1 Качество категоризации Продолжительность проекта =Х Прибыль проекта =Y
  • 3. Пример №1 Качество категоризации Продолжительность проекта =Х+1% Прибыль проекта =Y-1%
  • 4. Пример №1 Качество категоризации Продолжительность проекта =Х+2% Прибыль проекта =Y-3%
  • 5. Пример №1 Качество категоризации Продолжительность проекта =Х+3% Прибыль проекта =Y-5%
  • 6. Пример №1 Качество категоризации Продолжительность проекта =Х+10% Прибыль проекта =Y-15%
  • 8. Пример №2 Описание товара - Зеленый - Зеленый - Зеленый - Зеленый - Зеленый
  • 9. Пример №2 «Какого цвета платье?»
  • 10. 1. Отсутствие единого стандарта 2. Дублирование 3. Противоречия 4. Ошибки 5. Нехватка информации 6. Избыточная информация 6 проблем качества данных:
  • 11. 1) если вы заказчик, вы должны знать об уровне качества данных внутри вашей компании. И понимать, что то что вам продают может не сработать только потому, что кто-то записывает название товара с ошибками. И следовательно относится к предложениям критически. 2) если вы консультант или датамайнер, то вы должны видеть эти данные своими глазами, знать как они формировались, очистить их и главное — ПРИВИТЬ дальнейшую культуру работы с ними клиенту. 3) если вы простой аналитик, нужно начать с себя и записывать данные аккуратно, выполнять основные заповеди, подобно заповедям Дзен-Pythonа Как с этим жить?
  • 12. o Красота лучше уродства. o Ясность лучше неясности. o Простота лучше сложности. o Сложность лучше запутанности. o Плоскость лучше вложенности. o Разведенность лучше концентрированности. o Читаемость ценится высоко (!!!) o + Одинаково лучше, чем «эффективное» o + Однозначное лучше, чем короткое o Особые случаи не настолько особы, чтобы ради них нарушать правила. o Хотя практичность выше опрятности. o Ошибки не должны проходить незамеченными. o Если ошибка не в незаметности. o Перед лицом неопределенности лучше отказаться от попыток угадать o Должен быть один — и было бы идеально, если только один — очевидный способ решить проблему. o Хотя на первый взгляд этот способ может и не казатся очевидным, особенно если вы — голландец. o + Если откладываешь проблему, то сделай так, что бы потом, ее мог решить не только ты. o Однако, сейчас лучше, чем никогда. o Хотя зачастую никогда лучше, чем прямо сейчас. o Если структуру непросто объяснить — то это плохая идея. o Если структуру просто объяснить, это может быть хорошей идеей. Дзен Python работы с данными:
  • 13. Пример №3 Столкновение с реальностью Данные качественные Модель отличная Внедрение гладкое Рост прибыли
  • 14. May the Patience be with you! Андрей Котов +7(916)807-56-89 Да прибудет с тобой терпение!