High Performance ComputingПринципы проектирования сетиДмитрий Смирнов, Системный инженер                         © 2012 Ex...
Вертикали ЦОДHigh Performance Computing         Точки обмена трафика                                   Хостинг, Облако    ...
High Performance Computing (HPC)    High Performance Computing кластер состоит из набора соединѐнных    между собой компью...
Требования к HPC      Задержка                           Емкость                                    Надежность• Системная ...
Вызов №1. Что такое задержка?• Задержка = P + N + S + I + AP – P = Время передачи – отправка битов по проводу – N = Обрабо...
Вызов №1. Как победить задержку? Анализ.               Сервер #1                                                          ...
Вызов №1. Как победить задержку? Классификация               Сервер #1                                                    ...
Вызов №1. Как победить задержку? Методы• 1000 байт на скорости 1Гб/с  – 1000км = 10.1мс  – 100км = 1.2мс  – 10км = 303µс  ...
Вызов №1. Как победить задержку? Выбор пути.                                                                • Значительные...
Вызов №1. Как победить задержку. Топология                                                                                ...
Вызов №1. Как победить задержку? Железо.                          Узел 2                           40G                    ...
Вызов №1. Как победить задержку. Железо.                                         CPU                                      ...
Вызов №1. Как победить задержку. Железо.• Общая практика – Не использовать гипервизор. Никогда. – Использовать ОС с лучшим...
Вызов №1. Как победить задержку? NIC.       Kernel TCP/IP                        User space TCP/IP                        ...
Требования к HPC      Задержка                           Емкость                                    Надежность• Системная ...
Вызов №2. Емкость. Устарелая архитектура                                                                      Архитектура ...
Вызов #2 – Емкость. Современная архитектура                        Фабрик модуль     I/O модули                           ...
Требования к HPC      Задержка                           Емкость                                     Надежность• Системная...
Вызов №3. Надежность. Аппаратная надежность.     Возможность горячей замены любого из     компонентов     Питание      – О...
Вызов №3. Надежность. Топология                                              ЦОД №2  EAPS G.8032      MLAG                ...
Вызов №3. Надежность. Операционная система                         Инновации Extreme Networks®• Модульность = Надежность  ...
Принципы на практике. Что есть на рынке                                                                                   ...
Коммутатор X670Summit® X670V-48x– 48-портовый 1 /10 GbE коммутатор– Разъем для расширения VIM4-40G-4X  предоставляет:     ...
X670 – Высокоскоростное стекирование – 320Гб/c     Summit® X670V     Summit X670V     Summit X670V     Summit X670V     Su...
BlackDiamond X8. Вид спереди                Модули управленияБлоки                                                        ...
BlackDiamond X8. Вид спереди                                                                      Управляющий модуль      ...
BlackDiamond X8. Ввид сзади                                      Питание             A       B                            ...
BlackDiamond X8. Производительность.                              320G на слот x 8 = 2.56T                                ...
BlackDiamond X8. Поддержка оптики     QSFP+                                                                             40...
Пример – HPC для нефтяной компании• HPC cluster is based on three main components: – Cluster servers with 10G NICs. Vendor...
Пример – Топология                                                EXTREME NETWORKS                                        ...
Пример – HPC для нефтяной компании• Почему EthernetКомпания запросили решение на Ethernet потому, что:  – a.   Ethernet мо...
Спасибо за внимание33                © 2012 Extreme Networks, Inc. All rights reserved.
Upcoming SlideShare
Loading in …5
×

Extreme networks - network design principles for hpc @ hpcday 2012 kiev

1,149 views
1,052 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,149
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • 5micro sec per KM..
  • Front Configuration:
  • Extreme networks - network design principles for hpc @ hpcday 2012 kiev

    1. 1. High Performance ComputingПринципы проектирования сетиДмитрий Смирнов, Системный инженер © 2012 Extreme Networks, Inc. All rights reserved.
    2. 2. Вертикали ЦОДHigh Performance Computing Точки обмена трафика Хостинг, Облако BDX-8 ISP BDX-8 BDX-8 ISP CUSTOMER B CUSTOMER A CUSTOMER C 10Gb 10Gb ISP ISP BDX-8 40Gb LAG DWDM ISP ISP 40Gb 40Gb i ISP ISP X670 S C S CUSTOMER B I CUSTOMER C CUSTOMER A2 © 2012 Extreme Networks, Inc. All rights reserved.
    3. 3. High Performance Computing (HPC) High Performance Computing кластер состоит из набора соединѐнных между собой компьютерных систем, которые работают сообща, таким образов можно считать, что это единая система. BDX-8 Физические 10Gb Нефть и газ симуляции Прогноз Молекулярное Квантовая Климатические моделировани исследования погоды физика е 40Gb iSCSI3 © 2012 Extreme Networks, Inc. All rights reserved.
    4. 4. Требования к HPC Задержка Емкость Надежность• Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для фабрики(в Tbps) для управления, коммутаци микросекунд и и питания o Порты10/40/100 GbE обработки трафика o Компоненты с горячей без переподписки o Большая пропускная заменой способность на слот o Бесшовная для будущего роста отказоустойчивость и обновления ПО4 © 2012 Extreme Networks, Inc. All rights reserved.
    5. 5. Вызов №1. Что такое задержка?• Задержка = P + N + S + I + AP – P = Время передачи – отправка битов по проводу – N = Обработка пакета сетевым железом – коммутация, маршрутизация – S = время сериализации – отправка битов “в провод” – I = время обработки прерывания – прием пакета на сервере – AP = время обработки сообщения приложением• Обмен данными между двумя система: – ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2• Категоризация задержки: – Расстояние: P – Инфраструктура: I, N, S – Приложение: AP 5 © 2012 Extreme Networks, Inc. All rights reserved.
    6. 6. Вызов №1. Как победить задержку? Анализ. Сервер #1 Сервер #2 User space UDP пакеты Программа Программа отбрасываются Программа Программа здесь, когда память AP1 ограничена AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 Обмен данными между двумя системами: ЗАДЕРЖКА = AP1 + I1 + S1 + N1 + P + N2 + S2 + I2 + AP2 S1 S2 N1 N2 P6 © 2012 Extreme Networks, Inc. All rights reserved.
    7. 7. Вызов №1. Как победить задержку? Классификация Сервер #1 Сервер #2 User space Программа Программа Программа Программа AP1 AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 S1 РАССТОЯНИЕ S2 N1 N2 P7 © 2012 Extreme Networks, Inc. All rights reserved.
    8. 8. Вызов №1. Как победить задержку? Методы• 1000 байт на скорости 1Гб/с – 1000км = 10.1мс – 100км = 1.2мс – 10км = 303µс – 1км= 213µс – 0км = 203µс• Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором. – 10Мб/с = 566µс – 100Мб/с = 56µс – 1Гб/с = 5.7µс – 10Гб/с=0.57µс• Общая лучшая практика – Правильный выбор провайдера оптической связи – Выбор более скоростного интерфейса для быстрой сериализации – Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3) – Оптимальный выбор сетевого оборудования (cut-through коммутаторы) – Создать план для обработки microbursts – Управлять DROP и DISCARD, чтобы уменьшить JITTER 8 © 2012 Extreme Networks, Inc. All rights reserved.
    9. 9. Вызов №1. Как победить задержку? Выбор пути. • Значительные различия в задержках у различных операторов – Зависит от маршрута – Кол-во сетевых HOP – Наличие необходимой пропускной способности • Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика – DWDM предпочтительнее MPLS Путь Расстояние Задержка – Рассмотреть использование Москва-Киев 850км 4,25мс высокоскоростной WAN технологии, например растянутые Москва-Киев 999км 4,99мс VLAN9 © 2012 Extreme Networks, Inc. All rights reserved.
    10. 10. Вызов №1. Как победить задержку. Топология ЦОД #3• Топологические нюансы – Растянутый VLAN = WAN коммутация на уровне 2 – Создает единую подсеть – Может использоваться для геокластеризации и удобства получения multicast трафика. – Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree. – Использовать traffic shaping на управления microbursts. ЦОД #1 – Использовать одни и те же физические каналы для ЦОД #2 маршрутизируемых VLAN. 10 © 2012 Extreme Networks, Inc. All rights reserved.
    11. 11. Вызов №1. Как победить задержку? Железо. Узел 2 40G 40G Шасси коммутатора Чип #1 Чип #2 10G 10G 10G 10G 10G 10G Узел 1 Узел 4 Узел 3 Store & forward Cut-through11 © 2012 Extreme Networks, Inc. All rights reserved.
    12. 12. Вызов №1. Как победить задержку. Железо. CPU ASIC12 © 2012 Extreme Networks, Inc. All rights reserved.
    13. 13. Вызов №1. Как победить задержку. Железо.• Общая практика – Не использовать гипервизор. Никогда. – Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows – Использовать самые быстрые процессоры – ОС заточены по умолчанию на пропускную. Перенастроить для минимизации задержки. – Перенастроить TCP/IP стек или обходить его – TCP offload / bypass – Никогда не запускать X сервер – Выключить iptables, ip6tables, yum-updates, sendmail, bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs• Диск I/O – Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметическое.= – Можно посмотреть в сторону OCFS32, HSF2, BTRFS• LINUX runlevel – По умолчанию установить RUN LEVEL 3• Тонировать QoS / Scheduling• Тонировать сетевой стек• Тонировать уровень приложений 13 © 2012 Extreme Networks, Inc. All rights reserved.
    14. 14. Вызов №1. Как победить задержку? NIC. Kernel TCP/IP User space TCP/IP Bypass TCP/IP 1G Linux 48µS RTT OpenOnLoad OFED 10G Linux 16µS RTT 10µS RTT 2µS RTT • Общая правила для тонировки NIC. – Будьте избирательны в выборе NIC. Есть большая разница в характеристиках задержки и DROP, которые зависят от железа и драйвера. – Проанализируйте сетевой стек – Тонировать NIC драйвер – Тонировать TCP/IP стек – Обмен – уменьшая latency, Вы грузите CPU14 © 2012 Extreme Networks, Inc. All rights reserved.
    15. 15. Требования к HPC Задержка Емкость Надежность• Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для управления, фабрики(в Tbps) для коммутации и питания микросекунд o Компоненты с горячей o Порты10/40/100 GbE обработки трафика заменой без переподписки o Большая пропускная o Бесшовная способность на слот отказоустойчивость и для будущего роста обновления ПО15 © 2012 Extreme Networks, Inc. All rights reserved.
    16. 16. Вызов №2. Емкость. Устарелая архитектура Архитектура • Соединяет все компоненты в шасси с одной стороны. Общая плата (Back-Plane) • Медные провода соединяют все модули вместе • Архитектура основана на шинеBus based architecture with parallel connectorsИнтерфейсные Медные провода • Различные пути для контрольной модули сигнализации, передачи данных и питания Модули • Active or Passive types управления Ограничения Фабрик • Ограниченная пропускная модули способность • Ограничение на подачу питания • Ассиметричное расположение модулей • Проблемы с общей платой • Front-to-back поток воздуха требует большого шасси 16 © 2012 Extreme Networks, Inc. All rights reserved.
    17. 17. Вызов #2 – Емкость. Современная архитектура Фабрик модуль I/O модули Подключается нарямую Фабрик модуль I/O модуль © 2012 Extreme Networks, Inc. All rights reserved.17
    18. 18. Требования к HPC Задержка Емкость Надежность• Системная задержка • Total system capacity • System fault tolerance to handle existing and to maximize up time future traffic growth• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для микросекунд фабрики(в Tbps) для управления, коммут o Порты10/40/100 GbE обработки трафика ации и питания без переподписки o Большая пропускная o Компоненты с способность на слот горячей заменой для будущего роста o Бесшовная отказоустойчивость и обновления ПО18 © 2012 Extreme Networks, Inc. All rights reserved.
    19. 19. Вызов №3. Надежность. Аппаратная надежность. Возможность горячей замены любого из компонентов Питание – Отказоустойчивость по схеме N+1 или N+N Охлаждение – Отказоустойчивость по схеме N+1 или N+N Коммутация – Отказоустойчивость фабрик модулей по схеме N+1 Управление – Отказоустойчивость управляющих модулей по схеме N+1 * Future availability.19 © 2012 Extreme Networks, Inc. All rights reserved.
    20. 20. Вызов №3. Надежность. Топология ЦОД №2 EAPS G.8032 MLAG SW #1 SW #2 50% TCP MLAG MLAG STACK SW “A” SW “B” SW “C” SW “D” 50% TCPDual-homing 20 © 2012 Extreme Networks, Inc. All rights reserved.
    21. 21. Вызов №3. Надежность. Операционная система Инновации Extreme Networks®• Модульность = Надежность Configuration Management• Без модульности…. (CLI/SNMP/XML/Scripts) – Process failed = перезапуск ОС ExtremeXOS Application Modules – Установка модуля = перезапуск ОС sFlow SSH2 OSPF VRRP STP EAPS ESRP• С модульностью ExtremeXOS® …. 802.1x – Автоматический перезапуск процесса ExtremeXOS Kernel-Loadable Modules – Динамическая установка модулей ExtremeXOS Kernel• Унифицированная ОС для всего Hardware Abstraction Layerоборудования Hardware – От 10/100M до 100G решений ExtremeXOS• ExtremeXOS Modular Operating System – Поставляется с 2003Page © 2012 Extreme Networks, Inc. All rights reserved.21
    22. 22. Принципы на практике. Что есть на рынке 24x40G Modules 4x40G Uplink 48 x 10G Access Summit® X670 BlackDiamond X8 Top-of-Rack End-of-Row/Aggregation 1G/10G Access 10G Access/Aggregation 10G/40G Uplinks 40G Aggregation Data Center Bridging M-LAG Direct Attach™ / VEPA XNV™ OpenFlow ExtremeXOS®22 © 2012 Extreme Networks, Inc. All rights reserved. * Future availability.
    23. 23. Коммутатор X670Summit® X670V-48x– 48-портовый 1 /10 GbE коммутатор– Разъем для расширения VIM4-40G-4X предоставляет: • 4-порта 40 GbE • 16-портов 10 GbE со сплиттером • 64-порта 10 GbE максимум • SummitStack™-V320 два 40 GbE порта Двунаправленные блоки вентиляторов – SummitStack-V через два 10 GbE порта Блоки питания AC/DC с горячей заменойSummit X670-48x– 48-портовый 1 /10 GbE коммутатор– SummitStack-V через два 10 GbE порта * Future availability.23 © 2012 Extreme Networks, Inc. All rights reserved.
    24. 24. X670 – Высокоскоростное стекирование – 320Гб/c Summit® X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X460/480 Summit X460/480 Summit X460/48024 © 2012 Extreme Networks, Inc. All rights reserved.
    25. 25. BlackDiamond X8. Вид спереди Модули управленияБлоки Форм-факторпитания • 19’’стойка A 1 2 3 4 • 14.5RU высота, 30” глубина B 5 6 7 8 Передняя конфигурация A B • 8 слотов для питания 1 • 2 слотов для управления • 8 слотов для I/O 2 14.5 RU Варианты для управления 3 • 1+1 управление 4 Варианты I/O карт 5 • 48 x 10GbE SFP+ 6 • 12 x 40GbE QSFP+ 7 • 24 x 40GbE QSFP+ 8 Варианты питания • 2500W AC источникиИнтерфейсные • N+1 с 5 источникамимодули • N+N с 8 источниками © 2012 Extreme Networks, Inc. All rights reserved.
    26. 26. BlackDiamond X8. Вид спереди Управляющий модуль 48-портовый 10GbE модуль 12-портовый 40GbE модуль 24-портовый 40GbE модуль © 2012 Extreme Networks, Inc. All rights reserved.
    27. 27. BlackDiamond X8. Ввид сзади Питание A B Конфигурация сзади 1 2 3 4 5 6 7 8 • 4 фабрик слота • 5 вентиляторных блоков • 8 блоков питания Фабрик модули • Ортогональное соединение с фабрикой • 3+1 фабрик модулей • 20.48Тб/c коммутационной мощности • 2.56Тб/с пропускной способности на слот Охлаждение • Поток спереди назад • Отсутствие midplane • 5 вентиляторных блоков • 5+1 вентиляторов на блок, 30 всего 1 2 3 4 • Динамическая скорость Фабрик модули вращения 1 2 3 4 5 Вентиляторы © 2012 Extreme Networks, Inc. All rights reserved.
    28. 28. BlackDiamond X8. Производительность. 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 1.28 Тб/c 1.28 Тб/c 10.24 б/c 1.28 Тб/c В одну 1.28 Тб/c сторону 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c © 2012 Extreme Networks, Inc. All rights reserved.
    29. 29. BlackDiamond X8. Поддержка оптики QSFP+ 40GBASE-SR4 сплиттер QSFP+ оптика 10GBASE-SR LC коннектор MTP 40GBASE-SR4 40GbE QSFP+ порт До 100 метров29 © 2012 Extreme Networks, Inc. All rights reserved.
    30. 30. Пример – HPC для нефтяной компании• HPC cluster is based on three main components: – Cluster servers with 10G NICs. Vendors – HP, IBM & DELL – High performance storage with 10G & 40G. Vendors DDN & Panasas – Networks switches with 10G & 40G. Vendors – Extreme Networks• Requirements for platforms – Storage must support both Infiniband for legacy connectivity and Ethernet – Server platform Intel/Linux & 7200TB storage – 10G/40G Ethernet• Purpose of HPC – Must support a connectivity of large storage subsystems – To be used for seismic data processing30 © 2012 Extreme Networks, Inc. All rights reserved.
    31. 31. Пример – Топология EXTREME NETWORKS DDN Storage Servers HP Cluster Servers BLACK DIAMOND X8 10G 40G 228 ports 128 ports 10G 16 ports LAN 3rd party network vendor31 © 2012 Extreme Networks, Inc. All rights reserved.
    32. 32. Пример – HPC для нефтяной компании• Почему EthernetКомпания запросили решение на Ethernet потому, что: – a. Ethernet может передавать 40G, но IB может 40G и 56G – b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX – c. Ethernet дешевле в поддержке. Низкий OPEX – d. У Ethernet будет вскоре 100G – E. За Ethernet стоят тяжеловесные производители сетевого оборудования 32 © 2012 Extreme Networks, Inc. All rights reserved.
    33. 33. Спасибо за внимание33 © 2012 Extreme Networks, Inc. All rights reserved.

    ×