PLNOG16: Ewolucja infrastruktury średniego ISP, czyli jak człowiek uczy się na błędach, Marcin Kuczera
1. PLNOG 16, Warszawa, 1 marca 2016
● o mnie
● dlaczego ten temat ?
Ewolucja infrastruktury średniego ISP.
Czyli
jak człowiek uczy się na błędach
2. PLNOG 16, Warszawa, 1 marca 2016
- Zbudowaliśmy sieć która miała mieć szeroki zasięg L2
- Pozbyliśmy się STP na rzecz protekcji w ringu
(prezentacja PLNOG 8)
Dawno dawno temu…
3. PLNOG 16, Warszawa, 1 marca 2016
Jakiś czas później…
1
2
3
Gliwice
`
Katowice
Rybnik
Jastrzębie
Wodzisław
Pszów
4. PLNOG 16, Warszawa, 1 marca 2016
Trochę o switchu centralnym z poprzedniego
slajdu..
● 2 x Summit x650 w stosie
● Każda “noga” ringu jest wpięta do innego “slotu”
● Obsługuje N x RING
Slot 1
Slot 2
Gliwice
Katowice
Rybnik
5. PLNOG 16, Warszawa, 1 marca 2016
Slot 1
Slot 2
Centralny przełącznik typu stos…
(przypadek 2x X650)
LinkGroup
6. PLNOG 16, Warszawa, 1 marca 2016
I jego właściwości…
1. Aktualizacja oprogramowania
TRZEBA AKTUALIZOWAĆ CAŁY STOS NA RAZ !
2. Synchronizacja pomiędzy slotami
Co jakiś czas zdarzały się dziwne rozjazdy…
3. Oba przełączniku MUSZĄ mieć tę samą
licencję !!
4. Problemy z obsługa ruchu w przypadku
LinkGroupy
7. PLNOG 16, Warszawa, 1 marca 2016
LinkGroup
Rozwiąnie ??
Stos to „samo zło” więc nie używamy stosu..
2x40G
8. PLNOG 16, Warszawa, 1 marca 2016
- Przykładowy X650 ma FDB na 32k MAC
ALE !!!!!!
- 32k to wartość maksymalna
- Zależna od trybu pracy switcha
- Algorytmu hashowania
Pojemność tablicy FDB
9. PLNOG 16, Warszawa, 1 marca 2016
Tablica FDB
Slot-1 SummitX650-KTW-PSE.1 # debug hal show fdb
TIG-24X SW FDB table:
Software-learned entries:
Buck Ent MAC VlanId Flags Port HIT L3 L2MC Phantom
==========================================================================
x000 0/0 00:01:42:27:73:60 795 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:01:63:93:70:1b 795 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:02:a5:4c:a8:cf 103 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:02:a5:4c:a8:cf 122 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:02:b3:63:20:4e 103 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:02:b3:63:20:4e 108 00000021 256:1 FALSE FALSE N -1 N
x000 0/0 00:02:b3:63:20:4e 122 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:03:32:68:3d:81 795 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:03:a0:11:63:78 103 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:03:a0:11:63:78 108 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:03:a0:11:63:78 122 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:04:23:d1:eb:f5 103 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:04:23:d1:eb:f5 108 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:04:23:d1:eb:f5 122 00000021 256:1 FALSE FALSE N -1 N
x001 0/0 00:04:96:18:4e:d1 1 00000021 256:3 FALSE FALSE N -1 N
x002 0/0 00:04:96:18:4e:d2 1 00000021 256:3 FALSE FALSE N -1 N
x002 0/0 00:04:96:18:52:54 1 00000021 256:3 FALSE FALSE N -1 N
x002 0/0 00:04:96:27:73:8d 1 00000021 256:3 TRUE FALSE N -1 N
x002 0/0 00:04:96:51:bd:39 795 00000021 256:1 FALSE FALSE N -1 N
…………..
10. PLNOG 16, Warszawa, 1 marca 2016
Co się dzieje jak braknie FDB ?
Niby nic, switch dalej przerzuca pakiety…
ALE !
- Wzrost ruchu UNKNOW UNICAST
- Wzrost obciążenia CPU i potencjalne „cuda”
11. PLNOG 16, Warszawa, 1 marca 2016
Jak to monitorować ?
Pojedynczy port (1G) w stanie „up” i mrtg/cacti
12. PLNOG 16, Warszawa, 1 marca 2016
Jak sobie z tym poradziliśmy ?
- Switche centralne (CORE) – wymienione na X670G2
pojemność FDB max 288k MAC
- Dodatkowo – podział sieci na dużo mniejszych
ringów - 4 x EAPS Ring + shared link 2x40G
- Na ringach mniejsze switche
- X450/X450a (16k FDB)
- X650 (32k FDB)
13. PLNOG 16, Warszawa, 1 marca 2016
LinkGroup
2x40G
X670G2
(loco1)
X670G2
(loco2)
Nowy CORE L2 ;)
14. PLNOG 16, Warszawa, 1 marca 2016
Ewolucja L3
- Fizycznie
- 2x Ericsson/Redback SE600
- Każdy z 1 kartą liniową
- Logicznie
- 3x BGP (2x AS13000 + AS49001)
- BRAS
- PIM
15. PLNOG 16, Warszawa, 1 marca 2016
Ewolucja L3
- Problemy
- (BRAS) - Pojedynczy crash karty liniowej
„wywalał” wszystkich abonentów
- (BGP) – dziwne rozgłoszenie powodowało te same
zachowanie na obu fizycznych urządzeniach
- (BRAS + BGP) Ogólne spore obciążenie CPU
16. PLNOG 16, Warszawa, 1 marca 2016
Ewolucja L3
- Rozwiązania
Nie mieszajmy funkcji
- (BRAS) – dołożenie 2giej karty liniowej
(tryb pracy link-group access)
- (BGP) – dokupienie routera od innego
producenta (ASR9001)
- 2x BGP (różni producenci)
- BRAS z protekcją karty liniowej