5 мифов о производительности баз данных и Python

@maxmaxmaxmaxМАКСИМ КЛИМИШИН
CTO GVMachines Inc.
Базы данных,python
и пять заблуждений о
производительности

Сегодня поговоримо
Topic
‣ Python
‣ Почему XнебыстрееY
‣ Оптимизации вбазахданных
‣ Оптимизации и Python

БазыданныхиPython
При чем тут Python
‣ Надохранитьплоскиеданные
‣ Связанныеданные
‣ Графы
‣ Состояния
‣ Следитьнаконсистентностью
‣ Совершать выборки

Нашаплатформа
‣ CouchDB
‣ Solr
‣ Redis

‣ Уперлись вскоростьсозданияиндекса
CouchDB
‣ Постепенно мигрируемс CouchDBвRedis
‣ АктивноиспользуемRedisдля очередей
‣ АктивноиспользуемдляPub/Sub
Нашопыт

Заблуждение №1:
База X быстрее базы Y

Алгоритмы
База X быстрее Y
‣ B-tree– O(logn)/mostof DBs
‣ Hash– O(1)– O(n)/mostof DBs
‣ Log-structuredmerge-tree– O(logn)/Cassandra
‣ K-Dtree –O(logn)–O(n)/ Postgres/graphDBs
‣ Boyer–Moorestringsearchalgorithm– O(n)

Есликоротко,товыше
головынепрыгнешь

Тем не менее,полнымперебором возможно
воспользоватьсясдискретнойдетерминированной
системой,состояниякотороймогутбытьлегко
проанализированы
https://ru.wikipedia.org/wiki/Полный_перебор

Проверенная временем–
значит быстрая

Базовые алгоритмыпоиска
неменялись.
Новая – значит говно

1961–QuickSort
1968 – BinaryTree
1972– B-Tree
Новая – значит говно

В памяти – значит
быстрая

Хочунапомнить,чтоRAM–
этооченькруто!
SSD

Всеупираетсяв
ограничения:
В памяти – значит быстро
‣ CPUspeed
‣ RAMspeed
‣ Diskspeed

Аименно
‣ CPUspeed– scheduledbyOS,dependsonLA
‣ RAMspeed– fragmentation
‣ Storagespeed– fragmentation,latency,depends
ontypeandLA

Серьезный прирост производительности
in-memoryбаз данныхпроисходит
потому,чтовы убираете целое
измерение при работе сданными

Больше железа – все
будет быстрее

Невсетак просто
Железо и все дела
‣ Частотаодногоядра CPU ограниченасверху
‣ Скорость памятиограниченатипом
‣ Скорость дискаограниченатипом

Представим,чтодоступк
одному юнитуравен 1ms

‣ дляизвлечения1000записейпонадобится1s,
нормас
‣ 100K –100s,долго
‣ 1M–~16m!!!

16 долбанныхминут,Карл!

Распределенная –
значит быстрая

Серьезныйприрост
производительности in-memoryбаз
данных происходитпотому,что
убирается целоеизмерение
Шардим и лала

Падение производительности
распределеных базданных
происходит потому,чтодобавляется
новое,ненадежноеизмерение при
работес данными.

Чтовлечетза собой
ряд проблем
‣ Consistencyoravailability
‣ Split-brainscenarios
‣ Conflictsresolution/merging(optimistic
replication)
‣ Quorum-basedreads/writes
‣ Manual/autoshardingconfigurationetc.

Вчастностис репликацией
‣ Будутвозникатьконфликты
‣ Вопростольковтом
1. Когдаихразруливать
2. Ктоихбудетразруливать

Например
‣ AmazonDynamoразруливаетнаэтапечтенияи
предоставляетэтоприложению
‣ АApacheCouchDBнаэтапе записииlastwrite
win+отложенныймеханизмразруливания
конфликтов

Какрешаетсявопроссчтением
Оптимизации
‣ Построениеиндекса призаписи(Postgres,
Redisсхранимыми процедурами)
‣ Устаревшие результаты(stale)
‣ Асинхронноесоздание/предвычисление
индекса(вариант staleсвнешниминдексером)
‣ Шардинг,множественный запроскнодам
шард

Какрешаетсявопросс
записью
‣ контроль надсистемнымвызовомfsync
дляпроцессаБД
‣ Отложенноесозданиеиндекса до
первогочтения(CouchDB)
‣ Отложенноесозданиеиндекса до
(commit явноили потаймауту,Solr)

Оптимизациив
Python-е

чтением
‣ Read onwrites (SQLAlchemy)
‣ Кешированиеответов БД
‣ АсинхронныезапросыкБД
‣ Асинхронноекеширование

‣ Py3x– yieldfrom,asyncio
‣ Py2x– gevent,threads pool
‣ Forboth – solid C implementations

Проблемас чтениемвосновном
связанас внутреннейорганизацией
структур данныхPython и
множества прослоекпопутимежду
чистым запросомичистымответом

записью
‣ Read onwrites (SQLAlchemy)
‣ Pub/subиасинхроннаязапись/
очереди
‣ Прямая запись вБДсотложенным/
асинхроннымсозданиеминдекса
(CouchDB)

Спасибо.
Thanks!
@maxmaxmaxmax

5 мифов о производительности баз данных и Python

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (9)

Similar to 5 мифов о производительности баз данных и Python

Similar to 5 мифов о производительности баз данных и Python (20)

More from Max Klymyshyn

More from Max Klymyshyn (20)

5 мифов о производительности баз данных и Python