Андрей Гупанов
Ведущий системный консультант
Hitachi Data Systems
21.10.2015
Современные флэш-
технологии – от концепции
к преимуществам
использования
Flash технологии –
будущее систем
хранения данных
 Moore’s Law
– Processor speed has increased dramatically
– Disk drive speed has show minimal improvement
 Server Virtualization (the I/O Blender)
– Multiple overlapping workloads randomizes I/O and destroys locality of
reference (LOR) logic
Эволюция вычислительных компонентов и дисков
Проблемы использования механических дисков
Одна операция ввода вывода в определенный момент времени
Дисковая очередь – убийца CPU (CPU WAIT)
Флэш диски – решение проблем с производительностью
Forecast: Storage Media Bit Cost Erosion
Yokohama Research Lab, Hitachi Ltd.
BD-R: Blu-ray Disc Recordable, DRAM: Dynamic Random Access Memory, HDD: Hard Disk Drive, MLC: Multi Level Cell, PRAM: Phase change
Random Access Memory, SLC: Single Level Cell, SSD: Solid State Drive
0.001
0.01
0.1
1
10
100
'08 '09 '10 '11 '12 '13 '14 '15 '16 '17 '18 '19 '20
Flash SSD (SLC and
alternative MLC)
High perf HDD
Optical disc
(BD-R single layer)
Tape
Optical disc (hologram)
Large fat HDD
DRAM(chip element)
Flash SSD (MLC)
Bitcost($/GB)
PRAM(chip element)
Tipping Point
Как устроены и
работают флэш
диски?
Performance challenges for MLC
- Low Write speed
- Write performance degradation as the
capacity usage increases. (SLC has the
same problem)
- Long LDEV format time because of large
capacity and low write performance
# Category item SLC MLC
1 Basic Process 2x nm 2x nm
2 Capacity/Chip 32GB 64GB
3 Page size 8KB 8KB
4 Block size 1MB 2MB
5 Performance Read 50us 75 us
6 Write 0.3 ms 1.3 ms
7 Erase 0.7 ms 3 ms
8 Write system Log structured write
9 Reliability Date Retention 10 Year 1 Year
10 W/E Endurance 60K 3K
11 ECC
Requirement
8bit/512B 24bit/1KB
Comparison of SLC with MLC Technical challenges for MLC
Endurance challenges for MLC
- Short Retention time
- Lower number of Write-Erase cycles
Сравнение SLC и MLC flash memory
Из чего состоит флэш чип (Pages and Blocks)
Block 0
Page 6
Page 7
Page 4
Page 5
Page 2
Page 3
Page 0
Page 1
Block 1
Page 6
Page 7
Page 4
Page 5
Page 2
Page 3
Page 0
Page 1
Block 2
Page 6
Page 7
Page 4
Page 5
Page 2
Page 3
Page 0
Page 1
Block 3
Page 6
Page 7
Page 4
Page 5
Page 2
Page 3
Page 0
Page 1
Flash Memory Chip
Что такое Write Cliff ?
 As a flash device gets full,
background tasks reduce peak
performance
 Traditional SSD processor has
limited power and connectivity
to the flash array
 Host I/Os are held off while
garbage collection goes on
 Freshly erased blocks must be
freed for new write I/Os
Emptydevice
DatasheetSPECs
Emptydevice
DatasheetSPECs
Emptydevice
DatasheetSPECs
RealperformanceRealperformanceRealperformance
SOURCE: NERSC
Garbage Collection
 Because you can’t erase a page or small block “in place”, SSDs
need to write the contents of an LBA in a new physical location
each time it is written by the host.
Output
buffer
Data collection for garbage
collection
New pages
New data written
by user
Erased Blocks
• We saw where constant erase/write cycles effectively degrades a flash cell.
• If a single block is written and erased many more than all the others, it will become
unusable long before the rest. (think Windows Page File)
• The flash controller monitors the number of erasures per block to avoid over-using one.
The threshold
of the number
of erase write
cycles per cell
Numberoferase/writecycles
Block number
Some blocks could be written
more than others (swap page,
for instance).
Without Wear-Leveling
Numberoferase/writecycles
Block number
Flash controller ensures that one
block doesn’t get written more than
all the others.
With Wear-Leveling
Wear-Leveling
Архитектура FMD
X8 PCIe PHYs
PCIe Root Complex
X32
Flash PHYs
X16
Flash Controllers
ARM9
CPU
ARM9
CPU
ARM9
CPU
ARM9
CPU
DDR3
Misc.
Interfaces
To/From
DDR
UART, UI2C,
Ethernet
Flash Memory
interface
PCIe 2.0
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
Flash
Chip
SAS Target Mode
Interface Controller
SAS
128 Flash
memory chips
8 lanes PCIe 2.0
32 path to flash
4 порта
ввода/вывода
A Paradigm Shift In Performance
Traditional Disk Drives Solid State Capacity
Capacity
Drives
Performance
Drives
Commodity
SSD
Hitachi
Accelerated
Flash storage
IOPS 80 150-180 5,000 100,000
Resp
Time
(milliseco
nds)
6 3-4 0.2 0.2
Approximate Per-Device Performance Potential
Новые решения на
базе Flash-накопителей
от Hitachi
Производительность FMD нового поколения
Высочайшая плотность размещения Flash-
емкости в СХД: 76,8ТБ в одной полке высотой 2U!
Время
10:00 10:309:30
Изменение числа обращений к странице
Tier1 Tier2Tier2
Числообращений
(IOPS)
Уровень
хранения
Время
10:00 10:309:30
Изменение числа обращений к странице
Прогнозируемая
нагрузка
Непрогнозируемая высокая
нагрузка
Tier2 Tier2 (or 1)Tier2
Числообращений
(IOPS)
Уровень
хранения
HDT HAF
 HDT перемещает страницы на основе анализа нагрузки за «продолжительный» период от 30 минут
до 24 часов.
 HAF увеличивает прирост производительности путём переноса на Tier1 высоконагружаемых в
данный момент времени страниц.
 HAF осуществляет синхронный перенос страниц в дополнение к асинхронному выполняемому HDT.
Promotion
to tier 1
Demotion to
tier 2
Hitachi Data Mobility
Hitachi Active Flash (Real-time Tiering)
Цель флэш кэширования – максимально быстро перенести (или
скопировать) ставшие «горячими» данные с медленных механических
дисков на быстрые флэш диски для повышения производительности
доступа к данным. При «остывании» данных на флэш уровне они
переносятся (синхронизируются) обратно на механические диски.
Преимущества функционала Active Flash, который является частью
Hitachi Dynamic Tiering (для VSP Gx00/1000):
 Практически мгновенное перемещение данных с SAS/NL-SAS на
SSD/FMD уровень
 Дисковая ёмкость флэш уровня добавляется к полезной ёмкости
системы хранения данных, а не является копией данных, находящихся
на механических дисках
 Не требует отдельной лицензии (входит в HDT лицензию)
 Не требует специализированных или монопольно выделенных флэш
дисков/модулей
 Поддержка до 4ПБ данных (Максимальный размер уровня хранения
HDT пула)
Сравнение с флеш-кэшированием
Где в настоящий момент используются флэш решения?
SERVER ATTACHED
STORAGE SYSTEM
SERVER ATTACHED
Non-converged approaches to flash
HYBRID
ARRAYS
FLASH
ONLY
ARRAYS
Non-converged flash strategies create silos
“HYBRID” ARRAYS FLASH ONLY ARRAYS
PERFORMANCE
LIMITATIONS
The “WRITE CLIFF” restriction
PERFORMANCE
STRENGTHS
Built for extreme IOPS / throughput
< 1 ms response times
FUNCTIONALITY
STRENGTHS
QOS controls, replication, auto-tiering,
multi-protocol storage, virtualization …
FUNCTIONALITY
LIMITATIONS
Limited and incompatible feature set
Non-converged approaches to flash
2
HYBRID
ARRAY
FLASH
ONLY ARRAY
Great
Functionality!
Great
Performance!
Производительность
флэш дисков
Производительность на реальных тестах
VSP
24шт FMD
Конфигурация 1
Более полумиллиона IOPS на
24шт FMD дисков
Throughput: 602K iops
Overall Response Time: 0.72 ms
VSP G1000
64шт FMD
Конфигурация 2
Два миллиона операций в
секунду при времени отклика
менее 1мс
Throughput: 2M iops
Overall Response Time: 0.96ms
Цифры производительности HUS-VM и VSP Gx00
 VSP Gx00 универсальный массив с блочным и файловым доступом
 VSP Gx00 оптимизирован и для работы с флэшами и для механических
дисков
 VSP Gx00 собственный продукт HDS, эволюционно развивающийся
более 10лет
 Управление VSP Gx00 и другими решениями HDS осуществляется из
единого интерфейса HCS
 У VSP Gx00 будут результаты открытого перфоманс тестирования
 VSP Gx00 это СХД с микрокодом энтерпрайз массива с функционалом
– GAD, 3DC multi-target replication capabilities
– NDM, Cache Partitioning, тиринг, виртуализация и т.д.
 Масштабируемость (internally and externally)
– 8.6PB (6TB, 7200RPM, HDD)
– 2.6PB (1.8TB, 10K RPM, HDD)
– 1.8PB (3.2TB, FMD) – Hitachi Accelerated Flash (HAF)
– 64PB (incl. internal & external virtualized capacity)
Наши преимущества
Истории успеха
Банк «ABC»
 Среднее время отклика дисковой
системы снизилось в 10 раз
 Обработка транзакций ускорилась в
1,5 раза
 Время формирования отчетности и
процедур завершения операционного
дня сократилось в 3 раза
 Энергопотребление снизилось на 25
кВт
 Высвободилось пять дорогостоящих
стойко-мест в ЦОДе
 Окупаемость проекта будет
обеспечена менее чем за один год
Hitachi Unified Storage VM All Flash
Российский оператор мобильной связи
 Время формирования отчетности
сократилось в 15 раз
 Время на разработку ландшафта дисковой
подсистемы сократилось в 8 раз (HDT)
 Не потребовалось дополнительного стойко-
места в ЦОДе
 Энергопотребление увеличилось менее чем
на 25%
Hitachi Virtual Storage
Platform
c Hitachi Accelerated Flash
Спасибо за
внимание!

Современные флэш-технологии – от концепции к преимуществам использования // Андрей Андрей Гупанов (Hitachi Data Systems) на InterLab Forum 2015

  • 1.
    Андрей Гупанов Ведущий системныйконсультант Hitachi Data Systems 21.10.2015 Современные флэш- технологии – от концепции к преимуществам использования
  • 2.
    Flash технологии – будущеесистем хранения данных
  • 3.
     Moore’s Law –Processor speed has increased dramatically – Disk drive speed has show minimal improvement  Server Virtualization (the I/O Blender) – Multiple overlapping workloads randomizes I/O and destroys locality of reference (LOR) logic Эволюция вычислительных компонентов и дисков
  • 4.
    Проблемы использования механическихдисков Одна операция ввода вывода в определенный момент времени Дисковая очередь – убийца CPU (CPU WAIT)
  • 5.
    Флэш диски –решение проблем с производительностью
  • 6.
    Forecast: Storage MediaBit Cost Erosion Yokohama Research Lab, Hitachi Ltd. BD-R: Blu-ray Disc Recordable, DRAM: Dynamic Random Access Memory, HDD: Hard Disk Drive, MLC: Multi Level Cell, PRAM: Phase change Random Access Memory, SLC: Single Level Cell, SSD: Solid State Drive 0.001 0.01 0.1 1 10 100 '08 '09 '10 '11 '12 '13 '14 '15 '16 '17 '18 '19 '20 Flash SSD (SLC and alternative MLC) High perf HDD Optical disc (BD-R single layer) Tape Optical disc (hologram) Large fat HDD DRAM(chip element) Flash SSD (MLC) Bitcost($/GB) PRAM(chip element) Tipping Point
  • 7.
  • 8.
    Performance challenges forMLC - Low Write speed - Write performance degradation as the capacity usage increases. (SLC has the same problem) - Long LDEV format time because of large capacity and low write performance # Category item SLC MLC 1 Basic Process 2x nm 2x nm 2 Capacity/Chip 32GB 64GB 3 Page size 8KB 8KB 4 Block size 1MB 2MB 5 Performance Read 50us 75 us 6 Write 0.3 ms 1.3 ms 7 Erase 0.7 ms 3 ms 8 Write system Log structured write 9 Reliability Date Retention 10 Year 1 Year 10 W/E Endurance 60K 3K 11 ECC Requirement 8bit/512B 24bit/1KB Comparison of SLC with MLC Technical challenges for MLC Endurance challenges for MLC - Short Retention time - Lower number of Write-Erase cycles Сравнение SLC и MLC flash memory
  • 9.
    Из чего состоитфлэш чип (Pages and Blocks) Block 0 Page 6 Page 7 Page 4 Page 5 Page 2 Page 3 Page 0 Page 1 Block 1 Page 6 Page 7 Page 4 Page 5 Page 2 Page 3 Page 0 Page 1 Block 2 Page 6 Page 7 Page 4 Page 5 Page 2 Page 3 Page 0 Page 1 Block 3 Page 6 Page 7 Page 4 Page 5 Page 2 Page 3 Page 0 Page 1 Flash Memory Chip
  • 10.
    Что такое WriteCliff ?  As a flash device gets full, background tasks reduce peak performance  Traditional SSD processor has limited power and connectivity to the flash array  Host I/Os are held off while garbage collection goes on  Freshly erased blocks must be freed for new write I/Os Emptydevice DatasheetSPECs Emptydevice DatasheetSPECs Emptydevice DatasheetSPECs RealperformanceRealperformanceRealperformance SOURCE: NERSC
  • 11.
    Garbage Collection  Becauseyou can’t erase a page or small block “in place”, SSDs need to write the contents of an LBA in a new physical location each time it is written by the host. Output buffer Data collection for garbage collection New pages New data written by user Erased Blocks
  • 12.
    • We sawwhere constant erase/write cycles effectively degrades a flash cell. • If a single block is written and erased many more than all the others, it will become unusable long before the rest. (think Windows Page File) • The flash controller monitors the number of erasures per block to avoid over-using one. The threshold of the number of erase write cycles per cell Numberoferase/writecycles Block number Some blocks could be written more than others (swap page, for instance). Without Wear-Leveling Numberoferase/writecycles Block number Flash controller ensures that one block doesn’t get written more than all the others. With Wear-Leveling Wear-Leveling
  • 13.
    Архитектура FMD X8 PCIePHYs PCIe Root Complex X32 Flash PHYs X16 Flash Controllers ARM9 CPU ARM9 CPU ARM9 CPU ARM9 CPU DDR3 Misc. Interfaces To/From DDR UART, UI2C, Ethernet Flash Memory interface PCIe 2.0 Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip Flash Chip SAS Target Mode Interface Controller SAS 128 Flash memory chips 8 lanes PCIe 2.0 32 path to flash 4 порта ввода/вывода
  • 14.
    A Paradigm ShiftIn Performance Traditional Disk Drives Solid State Capacity Capacity Drives Performance Drives Commodity SSD Hitachi Accelerated Flash storage IOPS 80 150-180 5,000 100,000 Resp Time (milliseco nds) 6 3-4 0.2 0.2 Approximate Per-Device Performance Potential
  • 15.
    Новые решения на базеFlash-накопителей от Hitachi
  • 16.
    Производительность FMD новогопоколения Высочайшая плотность размещения Flash- емкости в СХД: 76,8ТБ в одной полке высотой 2U!
  • 17.
    Время 10:00 10:309:30 Изменение числаобращений к странице Tier1 Tier2Tier2 Числообращений (IOPS) Уровень хранения Время 10:00 10:309:30 Изменение числа обращений к странице Прогнозируемая нагрузка Непрогнозируемая высокая нагрузка Tier2 Tier2 (or 1)Tier2 Числообращений (IOPS) Уровень хранения HDT HAF  HDT перемещает страницы на основе анализа нагрузки за «продолжительный» период от 30 минут до 24 часов.  HAF увеличивает прирост производительности путём переноса на Tier1 высоконагружаемых в данный момент времени страниц.  HAF осуществляет синхронный перенос страниц в дополнение к асинхронному выполняемому HDT. Promotion to tier 1 Demotion to tier 2 Hitachi Data Mobility Hitachi Active Flash (Real-time Tiering)
  • 18.
    Цель флэш кэширования– максимально быстро перенести (или скопировать) ставшие «горячими» данные с медленных механических дисков на быстрые флэш диски для повышения производительности доступа к данным. При «остывании» данных на флэш уровне они переносятся (синхронизируются) обратно на механические диски. Преимущества функционала Active Flash, который является частью Hitachi Dynamic Tiering (для VSP Gx00/1000):  Практически мгновенное перемещение данных с SAS/NL-SAS на SSD/FMD уровень  Дисковая ёмкость флэш уровня добавляется к полезной ёмкости системы хранения данных, а не является копией данных, находящихся на механических дисках  Не требует отдельной лицензии (входит в HDT лицензию)  Не требует специализированных или монопольно выделенных флэш дисков/модулей  Поддержка до 4ПБ данных (Максимальный размер уровня хранения HDT пула) Сравнение с флеш-кэшированием
  • 19.
    Где в настоящиймомент используются флэш решения? SERVER ATTACHED STORAGE SYSTEM
  • 20.
    SERVER ATTACHED Non-converged approachesto flash HYBRID ARRAYS FLASH ONLY ARRAYS
  • 21.
    Non-converged flash strategiescreate silos “HYBRID” ARRAYS FLASH ONLY ARRAYS PERFORMANCE LIMITATIONS The “WRITE CLIFF” restriction PERFORMANCE STRENGTHS Built for extreme IOPS / throughput < 1 ms response times FUNCTIONALITY STRENGTHS QOS controls, replication, auto-tiering, multi-protocol storage, virtualization … FUNCTIONALITY LIMITATIONS Limited and incompatible feature set
  • 22.
    Non-converged approaches toflash 2 HYBRID ARRAY FLASH ONLY ARRAY Great Functionality! Great Performance!
  • 23.
  • 24.
    Производительность на реальныхтестах VSP 24шт FMD Конфигурация 1 Более полумиллиона IOPS на 24шт FMD дисков Throughput: 602K iops Overall Response Time: 0.72 ms VSP G1000 64шт FMD Конфигурация 2 Два миллиона операций в секунду при времени отклика менее 1мс Throughput: 2M iops Overall Response Time: 0.96ms
  • 25.
  • 26.
     VSP Gx00универсальный массив с блочным и файловым доступом  VSP Gx00 оптимизирован и для работы с флэшами и для механических дисков  VSP Gx00 собственный продукт HDS, эволюционно развивающийся более 10лет  Управление VSP Gx00 и другими решениями HDS осуществляется из единого интерфейса HCS  У VSP Gx00 будут результаты открытого перфоманс тестирования  VSP Gx00 это СХД с микрокодом энтерпрайз массива с функционалом – GAD, 3DC multi-target replication capabilities – NDM, Cache Partitioning, тиринг, виртуализация и т.д.  Масштабируемость (internally and externally) – 8.6PB (6TB, 7200RPM, HDD) – 2.6PB (1.8TB, 10K RPM, HDD) – 1.8PB (3.2TB, FMD) – Hitachi Accelerated Flash (HAF) – 64PB (incl. internal & external virtualized capacity) Наши преимущества
  • 27.
  • 28.
    Банк «ABC»  Среднеевремя отклика дисковой системы снизилось в 10 раз  Обработка транзакций ускорилась в 1,5 раза  Время формирования отчетности и процедур завершения операционного дня сократилось в 3 раза  Энергопотребление снизилось на 25 кВт  Высвободилось пять дорогостоящих стойко-мест в ЦОДе  Окупаемость проекта будет обеспечена менее чем за один год Hitachi Unified Storage VM All Flash
  • 29.
    Российский оператор мобильнойсвязи  Время формирования отчетности сократилось в 15 раз  Время на разработку ландшафта дисковой подсистемы сократилось в 8 раз (HDT)  Не потребовалось дополнительного стойко- места в ЦОДе  Энергопотребление увеличилось менее чем на 25% Hitachi Virtual Storage Platform c Hitachi Accelerated Flash
  • 30.