SlideShare a Scribd company logo
1 of 36
Download to read offline
E = (DC)2
czyli jak można pracować w oparciu
o dwa lub więcej centra danych
Tadeusz.Knapik@portal.onet.pl
Agenda:
• Rys historyczny
• Rozwój i problemy sieci
• Nowa struktura
• Podsumowanie
• 1996 – nowa marka na rynku
Internet głównie na uczelniach, w firmach i domach – modemy
• jedna lokalizacja, jedno połączenie z Internetem
Start
Rozwój 1996 - 1999
• kolejne zmiany lokalizacji, podyktowane wzrostem
zapotrzebowania na miejsce dla ludzi i serwerów
• zasilanie - 12 kVA
• wzrost ruchu, kolejne łącza operatorskie
Pierwsza dedykowana
serwerownia – AD 1999
• 10 szaf serwerowych
• 32 kVA mocy
• ponad 100 serwerów
• kolejne setki Mbps
• znów mało miejsca
• SPOF?
Dalszy rozwój…
• 2002: wchodzimy do nowo
wybudowanej serwerowni
• większe bezpieczeństwo
• więcej miejsca (dla ponad
tysiąca serwerów)
• 320 kVA mocy
• rozwój usług, coraz większe
przepustowości, usługi video
• więcej sprzętu, coraz większe
zapełnienie serwerowni
• 2006 – pierwsze kolokacje
Onet.pl do AD 2008:
• dwie własne
serwerownie
• więcej urządzeń w
kolokacji niż „u siebie”
• budynek biurowy z
serwerownią backoffice
• dodatkowe biura w
Krakowie i Warszawie
• 1500 serwerów
• 8 dużych routerów,
kilkadziesiąt switchy
rackowych i drugie tyle
w paczkach blade
Agenda:
• Rys historyczny
• Rozwój i problemy sieci
• Nowa struktura
• Podsumowanie
Rozwój sieci
AD 1999/2000:
• dwa VLANy
• niewielkie farmy serwerów
• jedna serwerownia
A później:
• coraz większe farmy
serwerów
• setki współzależnych
aplikacji
• kolejne lokalizacje
• kolejne łącza na świat
L2/L3?
l w jednej serwerowni – nie ma problemu
l w dwóch serwerowniach – rozciągnięcie L2 jest
najbezpieczniejszym sposobem na wejście do
drugiej serwerowni, potem L2 także daje radę
• miejscami pojawia się L3
• globalna zmiana na L3 jest trudna, ponieważ wymaga
dużych zmian po stronie aplikacyjnej – łatwiej dokładać,
niż modernizować
l kolokacje i kolejne DC – tu zaczynają się schody
10
Problemy…
Rozrastanie się L2 i problemy skali:
• zmiany maski podsieci dla przyjęcia kolejnych serwerów
• sztormy broadcastowe
• MAC aging…
 L2: zbyt dużo segmentów LAN – nie skaluje się na kolejne DC
• tworzenie nowych usług w osobnych VLANach (L3) po
pewnym czasie doprowadza do powstawania zbyt wielu
VLANów (brak instancji Spanning Tree na niektórych
switchach po przekroczeniu 128)
Oraz inne:
• Routery LAN – routerami WAN, awaria jednego urządzenia
powoduje jednoczesne problemy z podawaniem się na
zewnątrz oraz z ruchem wewnętrznym
• Rozwój Internetu - 256 tysięcy wpisów w tablicy routingu
przestaje wystarczać
Problemy…
Co dalej?
Zmiany…
Idea modułów - założenia
• autonomiczne systemy, mające od
kilku do kilkudziesięciu urządzeń,
obsługujące pewną pulę usług
• redundantne połączenia do warstwy
agregacji
• komunikacja po L3, z wykorzystaniem
routingu dynamicznego (czyli
obsługiwane adresy IP mogą się
zmieniać)
• samowystarczalne – możliwość pracy po utracie łączności z
resztą sieci firmy (przy zachowaniu łączności ze światem),
przy zachowaniu maksimum możliwej funkcjonalności
• możliwość przejęcia usług innego modułu
Zmiany do AD 2008…
1. Zmniejszanie liczby VLANów, między innymi przez
stosowanie Private VLAN (jednocześnie odzyskujemy
adresy L3)
3. Zwiększanie niezawodności L2/L3 – pełna redundancja
ścieżek, przejście na Rapid Spanning Tree, HSRP w
zdecydowanej większości VLANów
5. Wprowadzanie OSPF (równolegle do EIGRP)
7. Wyraźna migracja w kierunku L3 – wdrażanie zarysowanej
wcześniej idei klocków (modułów)
.١ Upgrade sprzętu:
nowe Supervisory do
dużych Catalystów,
w produkcji wszędzie
porty 1Gbps
6. Przeniesienie
peeringów BGP na
osobne routery -
wdrożenie Juniperów
Zmiany cd…
l Ściślejsze definiowanie
funkcji poszczególnych
serwerów i lepsze
rozkładanie zadań
(unikanie serwerów
wielozadaniowych,
tworzenia SPOFów)
l Położenie większego
nacisku na procedury DRP
l Monitoring 24x7 –
Administratorzy Pierwszej
Linii Wsparcia (A1LW)
l Testy w labie 
Zmiany…
Agenda:
• Rys historyczny
• Rozwój i problemy sieci
• Nowa struktura
• Podsumowanie
Ewolucja
?
2009
2006
2002
2009: Onet Data Center
• trzy komory – trzy osobne serwerownie,
połączone betonem i zasilaniem
• miejsce na pięć tysięcy serwerów
• ponad 2000 kVA mocy IT
• 5 MW mocy maksymalnej, normalny pobór
to ponad 3 MW
• to mniej więcej tyle, ile 7000 domów jednorodzinnych
Jak dobrze wykorzystać kilka DCs?
Czego chcieliśmy?
• pełna redundancja wewnątrz każdej z serwerowni
brak SPOFów spowodowanych wyjątkową rolą jednego z urządzeń
• łatwe przenoszenie usług/serwisów zarówno w ramach
jednej serwerowni, jak i poza nią
sterowanie obciążeniem systemów podających content
• wykorzystanie w normalnej pracy wszystkich wyjść na
świat
optymalne wykorzystanie łączy
• pełna redundancja serwerowni – skoro mamy peering BGP
w każdej z nich, w przypadku dużej awarii każda z nich
powinna móc serwować ruch samodzielnie
Jak dobrze wykorzystać kilka DCs?
• skalowalność: integracja z Onet Data Center i
możliwość dołączania w przyszłości kolejnych DC
Jak dobrze wykorzystać kilka DCs?
Projekt i wdrożenie - 2008/2009
• 2008 Q4 – 2009 Q1: 30 nocek w ciągu pięciu miesięcy
• mam nadzieję, że nie zauważyliście… ;)
Zmiany 2008/2009
• upgrade’y - software, karty, łącza
• reorganizacja L2 – maksymalne ograniczenie rozciągania
L2, zejście z VTP do poziomu lokalizacji
• readresacja L3: każda lokalizacja ma własne pule adresowe
• całkowite przejście z routingiem wewnętrznym na OSPF
• zejście z routingiem do poziomu klocków: agregacja
rozmawia z modułami po OSPFie, to od modułów zależy
który z nich podaje daną usługę (może podać ją także z
innej lokalizacji, jeśli mamy do niej połączenie)
Zmiany 2008/2009 cd.
• rekonfiguracja BGP: konfederacje i route-reflectory
• rozgłaszanie do peerów BGP podsieci zamiast całej puli AS
(w przypadku rozłączenia DCs każda lokalizacja będzie
widziana w sieci osobno)
• pełne tablice BGP jedynie na routerach brzegowych
• testy niezawodności
wdrażanych rozwiązań –
symulacje awarii
BGP w Onet.pl SA
• pełen sukces ;)
2009 Q2: startup ODC
• drugie co do wielkości Data Center w
Polsce
• referencja Cisco jako pierwsza w Polsce
kompletna architektura Data Center
zbudowana na platformie Nexus
• w ODC współpracują ze sobą urządzenia
sieciowe Cisco, Juniper, HP, Nortel,
IBM…
• pod podłogami leży ponad 250 km kabli
ODC = 10GE
Agenda:
• Rys historyczny
• Rozwój i problemy sieci
• Nowa struktura
• Podsumowanie
W czym wiele DCs jest lepszych od 1 lub 2?
• 1 DC: najtaniej, ale spore ryzyko:
• problem z modernizacjami w obiekcie
• większy błąd ludzki – solidny downtime
• utrata serwerowni to katastrofa
• 2 DCs: minimum bezpieczeństwa
• łatwiej modernizować
• pożar to spory problem, ale nie zostawia nas bez niczego
• dobra konfiguracja pozwala skracać ewentualny downtime
• możemy rozkładać zasoby i sterować zapełnieniem obiektów
• wiele DCs – podobne zalety jak 2 DCs, a dodatkowo:
• lepsze rozłożenie zasobów (zapełnienie obiektów, dywersyfikacja usług)
• odporność na trwałą niedostępność jednego DC
• większa elastyczność w dostępie do operatorów
Checklista
• połączenia między DCs (kosztują)
• wykorzystanie potencjału kilku DCs na co dzień –
architektura sieci oraz aplikacje, które są tego świadome
• plan na wypadek całkowitej utraty lokalizacji i danych w
niej zgromadzonych
• obsługa serwerowni: podłączenia, system przeciwpożarowy,
dojazdy
ODC: zespół A1LW (16 osób), zdalnie A2LW (24 osoby)
Pozostałe serwerownie: bezobsługowe
Gdzie jesteśmy teraz?
• nawet na znakach drogowych ;)
• tankuje u nas content 12.5 miliona
użytkowników w 3.5 mld odsłon
miesięcznie
• serwujemy streaming, zarówno off-line
jak i relacje na żywo
• podajemy na świat gigabity ruchu na
sekundę - z trzech serwerowni, do
kilkunastu peerów BGP
• przesyłamy dużo więcej danych
wewnątrz korzystając z wydajnej,
redundantnej struktury
• śpimy spokojniej ;)
• patrzymy w przyszłość
Pytania?
Dziękuję za uwagę.
Tadeusz.Knapik@portal.onet.pl

More Related Content

Similar to PLNOG 3: Tadeusz Knapik - E = (DC)2 czyli jak można pracować w oparciu o dwa lub więcej centra danych

PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura?
PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura? PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura?
PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura? PROIDEA
 
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój PROIDEA
 
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...PROIDEA
 
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFX
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFXPLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFX
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFXPROIDEA
 
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)PROIDEA
 
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMax
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMaxPLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMax
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMaxPROIDEA
 
Prezentacja witruallizacja dc 1.3
Prezentacja witruallizacja dc 1.3Prezentacja witruallizacja dc 1.3
Prezentacja witruallizacja dc 1.3Marta Pacyga
 
PLNOG15: Virtualization and automation of network and security services in Da...
PLNOG15: Virtualization and automation of network and security services in Da...PLNOG15: Virtualization and automation of network and security services in Da...
PLNOG15: Virtualization and automation of network and security services in Da...PROIDEA
 
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury PROIDEA
 
Złam zasady i stwórz wydajny stos IP przy użyciu DPDK
Złam zasady i stwórz wydajny stos IP przy użyciu DPDKZłam zasady i stwórz wydajny stos IP przy użyciu DPDK
Złam zasady i stwórz wydajny stos IP przy użyciu DPDKSemihalf
 
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...PROIDEA
 
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...PROIDEA
 
Hyper converged - overview
Hyper converged - overviewHyper converged - overview
Hyper converged - overviewPawel Serwan
 
[PLCUG] Hyper converged - overview (PL)
[PLCUG] Hyper converged - overview (PL)[PLCUG] Hyper converged - overview (PL)
[PLCUG] Hyper converged - overview (PL)Jaroslaw Sobel
 
Espol Plnog7 WiMax
Espol Plnog7 WiMaxEspol Plnog7 WiMax
Espol Plnog7 WiMaxespol
 
Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurzenubitech
 
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...PROIDEA
 
Topologia sieci
Topologia sieciTopologia sieci
Topologia siecisebastos92
 
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...PROIDEA
 

Similar to PLNOG 3: Tadeusz Knapik - E = (DC)2 czyli jak można pracować w oparciu o dwa lub więcej centra danych (20)

PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura?
PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura? PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura?
PLNOG 9: Maciej Nabożny, Miłosz Zdybał - Jak powstaje chmura?
 
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój
PLNOG 9: Daniel Fenert - nazwa.pl - nieustanny rozwój
 
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...
PLNOG 18 - Bartek Raszczyk - London calling! Wnioski z wdrażania architektury...
 
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFX
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFXPLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFX
PLNOG 17 - Sławomir Janukowicz - NFV – using Juniper vMX, vSRX and NFX
 
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)
PLNOG 21: Alek Cesarz, Piotr Misiak - Petabajty_z_kosmosu_(serio)
 
Kolokacja - prezentacja z PLNOG20
Kolokacja - prezentacja z PLNOG20Kolokacja - prezentacja z PLNOG20
Kolokacja - prezentacja z PLNOG20
 
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMax
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMaxPLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMax
PLNOG 7: Jerzy Kosiedowski, Wojciech Kozicki - WiMax
 
Prezentacja witruallizacja dc 1.3
Prezentacja witruallizacja dc 1.3Prezentacja witruallizacja dc 1.3
Prezentacja witruallizacja dc 1.3
 
PLNOG15: Virtualization and automation of network and security services in Da...
PLNOG15: Virtualization and automation of network and security services in Da...PLNOG15: Virtualization and automation of network and security services in Da...
PLNOG15: Virtualization and automation of network and security services in Da...
 
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury
PLNOG 8: Tomaz Kozar - UCaaS jako usługa z chmury
 
Złam zasady i stwórz wydajny stos IP przy użyciu DPDK
Złam zasady i stwórz wydajny stos IP przy użyciu DPDKZłam zasady i stwórz wydajny stos IP przy użyciu DPDK
Złam zasady i stwórz wydajny stos IP przy użyciu DPDK
 
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...
PLNOG16: Budowa DC Świadczenie usług dla klientów, Łukasz Bromirski, Piotr ...
 
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...
PLNOG 3: Krzysztof Góźdź - Petabajtowe systemy przechowywania danych dla dost...
 
Hyper converged - overview
Hyper converged - overviewHyper converged - overview
Hyper converged - overview
 
[PLCUG] Hyper converged - overview (PL)
[PLCUG] Hyper converged - overview (PL)[PLCUG] Hyper converged - overview (PL)
[PLCUG] Hyper converged - overview (PL)
 
Espol Plnog7 WiMax
Espol Plnog7 WiMaxEspol Plnog7 WiMax
Espol Plnog7 WiMax
 
Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurze
 
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...
PLNOG16: Jak wykorzystać BRAS/BNG na platformach Cisco w celu świadczenia dod...
 
Topologia sieci
Topologia sieciTopologia sieci
Topologia sieci
 
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...
PLNOG14: Active Networks miały być fundamentem nowego podejścia do sieci zw...
 

PLNOG 3: Tadeusz Knapik - E = (DC)2 czyli jak można pracować w oparciu o dwa lub więcej centra danych

  • 1. E = (DC)2 czyli jak można pracować w oparciu o dwa lub więcej centra danych Tadeusz.Knapik@portal.onet.pl
  • 2. Agenda: • Rys historyczny • Rozwój i problemy sieci • Nowa struktura • Podsumowanie
  • 3. • 1996 – nowa marka na rynku Internet głównie na uczelniach, w firmach i domach – modemy • jedna lokalizacja, jedno połączenie z Internetem Start
  • 4. Rozwój 1996 - 1999 • kolejne zmiany lokalizacji, podyktowane wzrostem zapotrzebowania na miejsce dla ludzi i serwerów • zasilanie - 12 kVA • wzrost ruchu, kolejne łącza operatorskie
  • 5. Pierwsza dedykowana serwerownia – AD 1999 • 10 szaf serwerowych • 32 kVA mocy • ponad 100 serwerów • kolejne setki Mbps • znów mało miejsca • SPOF?
  • 6. Dalszy rozwój… • 2002: wchodzimy do nowo wybudowanej serwerowni • większe bezpieczeństwo • więcej miejsca (dla ponad tysiąca serwerów) • 320 kVA mocy • rozwój usług, coraz większe przepustowości, usługi video • więcej sprzętu, coraz większe zapełnienie serwerowni • 2006 – pierwsze kolokacje
  • 7. Onet.pl do AD 2008: • dwie własne serwerownie • więcej urządzeń w kolokacji niż „u siebie” • budynek biurowy z serwerownią backoffice • dodatkowe biura w Krakowie i Warszawie • 1500 serwerów • 8 dużych routerów, kilkadziesiąt switchy rackowych i drugie tyle w paczkach blade
  • 8. Agenda: • Rys historyczny • Rozwój i problemy sieci • Nowa struktura • Podsumowanie
  • 9. Rozwój sieci AD 1999/2000: • dwa VLANy • niewielkie farmy serwerów • jedna serwerownia A później: • coraz większe farmy serwerów • setki współzależnych aplikacji • kolejne lokalizacje • kolejne łącza na świat
  • 10. L2/L3? l w jednej serwerowni – nie ma problemu l w dwóch serwerowniach – rozciągnięcie L2 jest najbezpieczniejszym sposobem na wejście do drugiej serwerowni, potem L2 także daje radę • miejscami pojawia się L3 • globalna zmiana na L3 jest trudna, ponieważ wymaga dużych zmian po stronie aplikacyjnej – łatwiej dokładać, niż modernizować l kolokacje i kolejne DC – tu zaczynają się schody 10
  • 11. Problemy… Rozrastanie się L2 i problemy skali: • zmiany maski podsieci dla przyjęcia kolejnych serwerów • sztormy broadcastowe • MAC aging…
  • 12.  L2: zbyt dużo segmentów LAN – nie skaluje się na kolejne DC
  • 13. • tworzenie nowych usług w osobnych VLANach (L3) po pewnym czasie doprowadza do powstawania zbyt wielu VLANów (brak instancji Spanning Tree na niektórych switchach po przekroczeniu 128) Oraz inne: • Routery LAN – routerami WAN, awaria jednego urządzenia powoduje jednoczesne problemy z podawaniem się na zewnątrz oraz z ruchem wewnętrznym • Rozwój Internetu - 256 tysięcy wpisów w tablicy routingu przestaje wystarczać Problemy…
  • 15. Idea modułów - założenia • autonomiczne systemy, mające od kilku do kilkudziesięciu urządzeń, obsługujące pewną pulę usług • redundantne połączenia do warstwy agregacji • komunikacja po L3, z wykorzystaniem routingu dynamicznego (czyli obsługiwane adresy IP mogą się zmieniać) • samowystarczalne – możliwość pracy po utracie łączności z resztą sieci firmy (przy zachowaniu łączności ze światem), przy zachowaniu maksimum możliwej funkcjonalności • możliwość przejęcia usług innego modułu
  • 16. Zmiany do AD 2008… 1. Zmniejszanie liczby VLANów, między innymi przez stosowanie Private VLAN (jednocześnie odzyskujemy adresy L3) 3. Zwiększanie niezawodności L2/L3 – pełna redundancja ścieżek, przejście na Rapid Spanning Tree, HSRP w zdecydowanej większości VLANów 5. Wprowadzanie OSPF (równolegle do EIGRP) 7. Wyraźna migracja w kierunku L3 – wdrażanie zarysowanej wcześniej idei klocków (modułów)
  • 17. .١ Upgrade sprzętu: nowe Supervisory do dużych Catalystów, w produkcji wszędzie porty 1Gbps 6. Przeniesienie peeringów BGP na osobne routery - wdrożenie Juniperów Zmiany cd…
  • 18. l Ściślejsze definiowanie funkcji poszczególnych serwerów i lepsze rozkładanie zadań (unikanie serwerów wielozadaniowych, tworzenia SPOFów) l Położenie większego nacisku na procedury DRP l Monitoring 24x7 – Administratorzy Pierwszej Linii Wsparcia (A1LW) l Testy w labie  Zmiany…
  • 19. Agenda: • Rys historyczny • Rozwój i problemy sieci • Nowa struktura • Podsumowanie
  • 21. 2009: Onet Data Center • trzy komory – trzy osobne serwerownie, połączone betonem i zasilaniem • miejsce na pięć tysięcy serwerów • ponad 2000 kVA mocy IT • 5 MW mocy maksymalnej, normalny pobór to ponad 3 MW • to mniej więcej tyle, ile 7000 domów jednorodzinnych
  • 22. Jak dobrze wykorzystać kilka DCs? Czego chcieliśmy? • pełna redundancja wewnątrz każdej z serwerowni brak SPOFów spowodowanych wyjątkową rolą jednego z urządzeń • łatwe przenoszenie usług/serwisów zarówno w ramach jednej serwerowni, jak i poza nią sterowanie obciążeniem systemów podających content • wykorzystanie w normalnej pracy wszystkich wyjść na świat optymalne wykorzystanie łączy
  • 23. • pełna redundancja serwerowni – skoro mamy peering BGP w każdej z nich, w przypadku dużej awarii każda z nich powinna móc serwować ruch samodzielnie Jak dobrze wykorzystać kilka DCs?
  • 24. • skalowalność: integracja z Onet Data Center i możliwość dołączania w przyszłości kolejnych DC Jak dobrze wykorzystać kilka DCs?
  • 25. Projekt i wdrożenie - 2008/2009 • 2008 Q4 – 2009 Q1: 30 nocek w ciągu pięciu miesięcy • mam nadzieję, że nie zauważyliście… ;)
  • 26. Zmiany 2008/2009 • upgrade’y - software, karty, łącza • reorganizacja L2 – maksymalne ograniczenie rozciągania L2, zejście z VTP do poziomu lokalizacji • readresacja L3: każda lokalizacja ma własne pule adresowe • całkowite przejście z routingiem wewnętrznym na OSPF • zejście z routingiem do poziomu klocków: agregacja rozmawia z modułami po OSPFie, to od modułów zależy który z nich podaje daną usługę (może podać ją także z innej lokalizacji, jeśli mamy do niej połączenie)
  • 27. Zmiany 2008/2009 cd. • rekonfiguracja BGP: konfederacje i route-reflectory • rozgłaszanie do peerów BGP podsieci zamiast całej puli AS (w przypadku rozłączenia DCs każda lokalizacja będzie widziana w sieci osobno) • pełne tablice BGP jedynie na routerach brzegowych • testy niezawodności wdrażanych rozwiązań – symulacje awarii
  • 28. BGP w Onet.pl SA • pełen sukces ;)
  • 29. 2009 Q2: startup ODC • drugie co do wielkości Data Center w Polsce • referencja Cisco jako pierwsza w Polsce kompletna architektura Data Center zbudowana na platformie Nexus • w ODC współpracują ze sobą urządzenia sieciowe Cisco, Juniper, HP, Nortel, IBM… • pod podłogami leży ponad 250 km kabli
  • 31. Agenda: • Rys historyczny • Rozwój i problemy sieci • Nowa struktura • Podsumowanie
  • 32. W czym wiele DCs jest lepszych od 1 lub 2? • 1 DC: najtaniej, ale spore ryzyko: • problem z modernizacjami w obiekcie • większy błąd ludzki – solidny downtime • utrata serwerowni to katastrofa • 2 DCs: minimum bezpieczeństwa • łatwiej modernizować • pożar to spory problem, ale nie zostawia nas bez niczego • dobra konfiguracja pozwala skracać ewentualny downtime • możemy rozkładać zasoby i sterować zapełnieniem obiektów • wiele DCs – podobne zalety jak 2 DCs, a dodatkowo: • lepsze rozłożenie zasobów (zapełnienie obiektów, dywersyfikacja usług) • odporność na trwałą niedostępność jednego DC • większa elastyczność w dostępie do operatorów
  • 33. Checklista • połączenia między DCs (kosztują) • wykorzystanie potencjału kilku DCs na co dzień – architektura sieci oraz aplikacje, które są tego świadome • plan na wypadek całkowitej utraty lokalizacji i danych w niej zgromadzonych • obsługa serwerowni: podłączenia, system przeciwpożarowy, dojazdy ODC: zespół A1LW (16 osób), zdalnie A2LW (24 osoby) Pozostałe serwerownie: bezobsługowe
  • 34. Gdzie jesteśmy teraz? • nawet na znakach drogowych ;) • tankuje u nas content 12.5 miliona użytkowników w 3.5 mld odsłon miesięcznie • serwujemy streaming, zarówno off-line jak i relacje na żywo • podajemy na świat gigabity ruchu na sekundę - z trzech serwerowni, do kilkunastu peerów BGP • przesyłamy dużo więcej danych wewnątrz korzystając z wydajnej, redundantnej struktury • śpimy spokojniej ;) • patrzymy w przyszłość