• Save
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
Upcoming SlideShare
Loading in...5
×
 

Extreme networks - network design principles for hpc @ hpcday 2012 kiev

on

  • 1,101 views

 

Statistics

Views

Total Views
1,101
Views on SlideShare
740
Embed Views
361

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 361

http://supercomputers.kiev.ua 361

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • 5micro sec per KM..
  • Front Configuration:

Extreme networks - network design principles for hpc @ hpcday 2012 kiev Extreme networks - network design principles for hpc @ hpcday 2012 kiev Presentation Transcript

  • High Performance ComputingПринципы проектирования сетиДмитрий Смирнов, Системный инженер © 2012 Extreme Networks, Inc. All rights reserved.
  • Вертикали ЦОДHigh Performance Computing Точки обмена трафика Хостинг, Облако BDX-8 ISP BDX-8 BDX-8 ISP CUSTOMER B CUSTOMER A CUSTOMER C 10Gb 10Gb ISP ISP BDX-8 40Gb LAG DWDM ISP ISP 40Gb 40Gb i ISP ISP X670 S C S CUSTOMER B I CUSTOMER C CUSTOMER A2 © 2012 Extreme Networks, Inc. All rights reserved.
  • High Performance Computing (HPC) High Performance Computing кластер состоит из набора соединѐнных между собой компьютерных систем, которые работают сообща, таким образов можно считать, что это единая система. BDX-8 Физические 10Gb Нефть и газ симуляции Прогноз Молекулярное Квантовая Климатические моделировани исследования погоды физика е 40Gb iSCSI3 © 2012 Extreme Networks, Inc. All rights reserved.
  • Требования к HPC Задержка Емкость Надежность• Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для фабрики(в Tbps) для управления, коммутаци микросекунд и и питания o Порты10/40/100 GbE обработки трафика o Компоненты с горячей без переподписки o Большая пропускная заменой способность на слот o Бесшовная для будущего роста отказоустойчивость и обновления ПО4 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Что такое задержка?• Задержка = P + N + S + I + AP – P = Время передачи – отправка битов по проводу – N = Обработка пакета сетевым железом – коммутация, маршрутизация – S = время сериализации – отправка битов “в провод” – I = время обработки прерывания – прием пакета на сервере – AP = время обработки сообщения приложением• Обмен данными между двумя система: – ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2• Категоризация задержки: – Расстояние: P – Инфраструктура: I, N, S – Приложение: AP 5 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? Анализ. Сервер #1 Сервер #2 User space UDP пакеты Программа Программа отбрасываются Программа Программа здесь, когда память AP1 ограничена AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 Обмен данными между двумя системами: ЗАДЕРЖКА = AP1 + I1 + S1 + N1 + P + N2 + S2 + I2 + AP2 S1 S2 N1 N2 P6 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? Классификация Сервер #1 Сервер #2 User space Программа Программа Программа Программа AP1 AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 S1 РАССТОЯНИЕ S2 N1 N2 P7 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? Методы• 1000 байт на скорости 1Гб/с – 1000км = 10.1мс – 100км = 1.2мс – 10км = 303µс – 1км= 213µс – 0км = 203µс• Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором. – 10Мб/с = 566µс – 100Мб/с = 56µс – 1Гб/с = 5.7µс – 10Гб/с=0.57µс• Общая лучшая практика – Правильный выбор провайдера оптической связи – Выбор более скоростного интерфейса для быстрой сериализации – Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3) – Оптимальный выбор сетевого оборудования (cut-through коммутаторы) – Создать план для обработки microbursts – Управлять DROP и DISCARD, чтобы уменьшить JITTER 8 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? Выбор пути. • Значительные различия в задержках у различных операторов – Зависит от маршрута – Кол-во сетевых HOP – Наличие необходимой пропускной способности • Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика – DWDM предпочтительнее MPLS Путь Расстояние Задержка – Рассмотреть использование Москва-Киев 850км 4,25мс высокоскоростной WAN технологии, например растянутые Москва-Киев 999км 4,99мс VLAN9 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку. Топология ЦОД #3• Топологические нюансы – Растянутый VLAN = WAN коммутация на уровне 2 – Создает единую подсеть – Может использоваться для геокластеризации и удобства получения multicast трафика. – Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree. – Использовать traffic shaping на управления microbursts. ЦОД #1 – Использовать одни и те же физические каналы для ЦОД #2 маршрутизируемых VLAN. 10 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? Железо. Узел 2 40G 40G Шасси коммутатора Чип #1 Чип #2 10G 10G 10G 10G 10G 10G Узел 1 Узел 4 Узел 3 Store & forward Cut-through11 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку. Железо. CPU ASIC12 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку. Железо.• Общая практика – Не использовать гипервизор. Никогда. – Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows – Использовать самые быстрые процессоры – ОС заточены по умолчанию на пропускную. Перенастроить для минимизации задержки. – Перенастроить TCP/IP стек или обходить его – TCP offload / bypass – Никогда не запускать X сервер – Выключить iptables, ip6tables, yum-updates, sendmail, bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs• Диск I/O – Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметическое.= – Можно посмотреть в сторону OCFS32, HSF2, BTRFS• LINUX runlevel – По умолчанию установить RUN LEVEL 3• Тонировать QoS / Scheduling• Тонировать сетевой стек• Тонировать уровень приложений 13 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №1. Как победить задержку? NIC. Kernel TCP/IP User space TCP/IP Bypass TCP/IP 1G Linux 48µS RTT OpenOnLoad OFED 10G Linux 16µS RTT 10µS RTT 2µS RTT • Общая правила для тонировки NIC. – Будьте избирательны в выборе NIC. Есть большая разница в характеристиках задержки и DROP, которые зависят от железа и драйвера. – Проанализируйте сетевой стек – Тонировать NIC драйвер – Тонировать TCP/IP стек – Обмен – уменьшая latency, Вы грузите CPU14 © 2012 Extreme Networks, Inc. All rights reserved.
  • Требования к HPC Задержка Емкость Надежность• Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для управления, фабрики(в Tbps) для коммутации и питания микросекунд o Компоненты с горячей o Порты10/40/100 GbE обработки трафика заменой без переподписки o Большая пропускная o Бесшовная способность на слот отказоустойчивость и для будущего роста обновления ПО15 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №2. Емкость. Устарелая архитектура Архитектура • Соединяет все компоненты в шасси с одной стороны. Общая плата (Back-Plane) • Медные провода соединяют все модули вместе • Архитектура основана на шинеBus based architecture with parallel connectorsИнтерфейсные Медные провода • Различные пути для контрольной модули сигнализации, передачи данных и питания Модули • Active or Passive types управления Ограничения Фабрик • Ограниченная пропускная модули способность • Ограничение на подачу питания • Ассиметричное расположение модулей • Проблемы с общей платой • Front-to-back поток воздуха требует большого шасси 16 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов #2 – Емкость. Современная архитектура Фабрик модуль I/O модули Подключается нарямую Фабрик модуль I/O модуль © 2012 Extreme Networks, Inc. All rights reserved.17
  • Требования к HPC Задержка Емкость Надежность• Системная задержка • Total system capacity • System fault tolerance to handle existing and to maximize up time future traffic growth• Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для микросекунд фабрики(в Tbps) для управления, коммут o Порты10/40/100 GbE обработки трафика ации и питания без переподписки o Большая пропускная o Компоненты с способность на слот горячей заменой для будущего роста o Бесшовная отказоустойчивость и обновления ПО18 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №3. Надежность. Аппаратная надежность. Возможность горячей замены любого из компонентов Питание – Отказоустойчивость по схеме N+1 или N+N Охлаждение – Отказоустойчивость по схеме N+1 или N+N Коммутация – Отказоустойчивость фабрик модулей по схеме N+1 Управление – Отказоустойчивость управляющих модулей по схеме N+1 * Future availability.19 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №3. Надежность. Топология ЦОД №2 EAPS G.8032 MLAG SW #1 SW #2 50% TCP MLAG MLAG STACK SW “A” SW “B” SW “C” SW “D” 50% TCPDual-homing 20 © 2012 Extreme Networks, Inc. All rights reserved.
  • Вызов №3. Надежность. Операционная система Инновации Extreme Networks®• Модульность = Надежность Configuration Management• Без модульности…. (CLI/SNMP/XML/Scripts) – Process failed = перезапуск ОС ExtremeXOS Application Modules – Установка модуля = перезапуск ОС sFlow SSH2 OSPF VRRP STP EAPS ESRP• С модульностью ExtremeXOS® …. 802.1x – Автоматический перезапуск процесса ExtremeXOS Kernel-Loadable Modules – Динамическая установка модулей ExtremeXOS Kernel• Унифицированная ОС для всего Hardware Abstraction Layerоборудования Hardware – От 10/100M до 100G решений ExtremeXOS• ExtremeXOS Modular Operating System – Поставляется с 2003Page © 2012 Extreme Networks, Inc. All rights reserved.21
  • Принципы на практике. Что есть на рынке 24x40G Modules 4x40G Uplink 48 x 10G Access Summit® X670 BlackDiamond X8 Top-of-Rack End-of-Row/Aggregation 1G/10G Access 10G Access/Aggregation 10G/40G Uplinks 40G Aggregation Data Center Bridging M-LAG Direct Attach™ / VEPA XNV™ OpenFlow ExtremeXOS®22 © 2012 Extreme Networks, Inc. All rights reserved. * Future availability.
  • Коммутатор X670Summit® X670V-48x– 48-портовый 1 /10 GbE коммутатор– Разъем для расширения VIM4-40G-4X предоставляет: • 4-порта 40 GbE • 16-портов 10 GbE со сплиттером • 64-порта 10 GbE максимум • SummitStack™-V320 два 40 GbE порта Двунаправленные блоки вентиляторов – SummitStack-V через два 10 GbE порта Блоки питания AC/DC с горячей заменойSummit X670-48x– 48-портовый 1 /10 GbE коммутатор– SummitStack-V через два 10 GbE порта * Future availability.23 © 2012 Extreme Networks, Inc. All rights reserved.
  • X670 – Высокоскоростное стекирование – 320Гб/c Summit® X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X460/480 Summit X460/480 Summit X460/48024 © 2012 Extreme Networks, Inc. All rights reserved.
  • BlackDiamond X8. Вид спереди Модули управленияБлоки Форм-факторпитания • 19’’стойка A 1 2 3 4 • 14.5RU высота, 30” глубина B 5 6 7 8 Передняя конфигурация A B • 8 слотов для питания 1 • 2 слотов для управления • 8 слотов для I/O 2 14.5 RU Варианты для управления 3 • 1+1 управление 4 Варианты I/O карт 5 • 48 x 10GbE SFP+ 6 • 12 x 40GbE QSFP+ 7 • 24 x 40GbE QSFP+ 8 Варианты питания • 2500W AC источникиИнтерфейсные • N+1 с 5 источникамимодули • N+N с 8 источниками © 2012 Extreme Networks, Inc. All rights reserved.
  • BlackDiamond X8. Вид спереди Управляющий модуль 48-портовый 10GbE модуль 12-портовый 40GbE модуль 24-портовый 40GbE модуль © 2012 Extreme Networks, Inc. All rights reserved.
  • BlackDiamond X8. Ввид сзади Питание A B Конфигурация сзади 1 2 3 4 5 6 7 8 • 4 фабрик слота • 5 вентиляторных блоков • 8 блоков питания Фабрик модули • Ортогональное соединение с фабрикой • 3+1 фабрик модулей • 20.48Тб/c коммутационной мощности • 2.56Тб/с пропускной способности на слот Охлаждение • Поток спереди назад • Отсутствие midplane • 5 вентиляторных блоков • 5+1 вентиляторов на блок, 30 всего 1 2 3 4 • Динамическая скорость Фабрик модули вращения 1 2 3 4 5 Вентиляторы © 2012 Extreme Networks, Inc. All rights reserved.
  • BlackDiamond X8. Производительность. 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 1.28 Тб/c 1.28 Тб/c 10.24 б/c 1.28 Тб/c В одну 1.28 Тб/c сторону 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c © 2012 Extreme Networks, Inc. All rights reserved.
  • BlackDiamond X8. Поддержка оптики QSFP+ 40GBASE-SR4 сплиттер QSFP+ оптика 10GBASE-SR LC коннектор MTP 40GBASE-SR4 40GbE QSFP+ порт До 100 метров29 © 2012 Extreme Networks, Inc. All rights reserved.
  • Пример – HPC для нефтяной компании• HPC cluster is based on three main components: – Cluster servers with 10G NICs. Vendors – HP, IBM & DELL – High performance storage with 10G & 40G. Vendors DDN & Panasas – Networks switches with 10G & 40G. Vendors – Extreme Networks• Requirements for platforms – Storage must support both Infiniband for legacy connectivity and Ethernet – Server platform Intel/Linux & 7200TB storage – 10G/40G Ethernet• Purpose of HPC – Must support a connectivity of large storage subsystems – To be used for seismic data processing30 © 2012 Extreme Networks, Inc. All rights reserved.
  • Пример – Топология EXTREME NETWORKS DDN Storage Servers HP Cluster Servers BLACK DIAMOND X8 10G 40G 228 ports 128 ports 10G 16 ports LAN 3rd party network vendor31 © 2012 Extreme Networks, Inc. All rights reserved.
  • Пример – HPC для нефтяной компании• Почему EthernetКомпания запросили решение на Ethernet потому, что: – a. Ethernet может передавать 40G, но IB может 40G и 56G – b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX – c. Ethernet дешевле в поддержке. Низкий OPEX – d. У Ethernet будет вскоре 100G – E. За Ethernet стоят тяжеловесные производители сетевого оборудования 32 © 2012 Extreme Networks, Inc. All rights reserved.
  • Спасибо за внимание33 © 2012 Extreme Networks, Inc. All rights reserved.