GWINT: Przetwarzanie rozproszone z wykorzystaniem komunikacji asynchronicznej w grze online (PHPCon Poland 2016)

Krzysztof Sobczak, Software Engineer - Gwent Webservices

Przetwarzanie rozproszone z wykorzystaniem
komunikacji asynchronicznej w grze online

GWINT webservices – GOG
POKRYWAJĄ M.IN.:
• NAGRODY I OSIĄGNIĘCIA
• MIKROTRANSAKCJE
• ELEMENTY MULTIPLAYER
• PROFILE GRACZY
• KOLEKCJE KART

Synchroniczna komunikacja HTTP

Synchroniczna komunikacja HTTP – przykład 1

Synchroniczna komunikacja HTTP – przykład 2

Asynchroniczna komunikacja - przykład

Na które powiadomienia czekać?

Trwałe powiadomienia
A JEŚLI NIE DOSTARCZYMY POWIADOMIENIA OD RAZU?
• Http API dla niedostarczonych powiadomień
• Stanowią mechanizm zastępczy dla usługi socket’owej
• Kopia powiadomień w trwałym miejscu

System kolejkowy
KLUCZOWE ASPEKTY
• Potwierdzanie produkcji / konsumpcji wiadomości
• Wystarczająca wydajność
• Trwałość wiadomości
• Skalowalność

Rozszerzenie AMQP
/php-amqplib/php-amqplib /pdezwart/php-amqp
• Biblioteka implementująca
protokół AMQP
• Interfejs PHP dla
rozszerzenia librabbitmq
Napotkane problemy:
• Brak pełnego potwierdzania
wiadomości
• Słaba kontrola w przypadku
problemów z RabbitMq
Napotkane problemy:
• Brak pełnego potwierdzania
wiadomości
• Słaba kontrola w przypadku
problemów z RabbitMq

Potwierdzanie / wydajność
TEST NA KLASTRZE 3 NODE’ÓW
BEZ POTWIERDZANIA
KLIENT W LOKALNEJ SIECI
11000 / s
Z POTWIERDZANIEM
750 / s
// w trakcie badania
możliwych optymalizacji

Federation
OFICJALNE ROZSZERZENIE RABBITMQ
• Umożliwia przenoszenie wiadomości pomiędzy usługami (klastry, vhosty)
• Wymaga tej samej nazwy exchange zdalnego i lokalnego
• Mapowanie exchange’y poprzez wyrażenie regularne
• Konfiguracja poprzez panel RabbitMq lub API
• Automatyczne odbudowywanie powiązań w przypadku awarii

Case study: system powiadomień #1

• Kolejki tworzone po ustanowieniu połączenia z użytkownikiem
RABBITMQ
• Kolejka per użytkownik [~500k ]
• Kolejki usuwane po zerwaniu połączenia z użytkownikiem
PROBLEM?
• Restart Node.js oznacza ~500k kasowanych/tworzonych kolejek
• Za duże obciążenie Node.js w trakcie inicjalizacji
• Przy więcej niż jednym node w klastrze restart potrafi trwać nawet 30min!

• Kolejka per użytkownik [~500k]
REDIS
• Wydajność 10k połączeń / s po restarcie klastra
• Publikacja do wszystkich podłączonych klientów
• Utrzymuje bez problemów kilkaset tysięcy połączeń
• Mechanizm Publish / Subscribe
• Konsumuje zdecydowanie mniej zasobów niż RabbitMq

• Na potrzeby kompresji bufor ok. 4K per połączenie (kilkaset tysięcy)
PROBLEM #2 Z NODE.JS
• Ogromne zużycie pamięci sięgające 20GB
• Wystarczyło wyłączyć kompresję (wiadomości i tak są małe)
• Wycieki pamięci widoczne po dniach/tygodniach
• Nadal duże obciążenie w przypadku restartu Redis
PROBLEM #1 Z NODE.JS
• Trudność debugowania aplikacji w środowisku produkcyjnym

• Brak nadmiarowego obciążenia po restarcie Redis
• Brak problemów z pamięcią i procesorem
• Okazał się przystępniejszy w rozwijaniu niż Node.js
GOLANG
• Prostsze debugowanie na produkcji (np. podgląd goroutines)

Problem wersjonowania
WERSJA ???
WERSJA 1

Problem wersjonowania
• Możliwe, że wiadomość została rozpoczęta po stronie serwerowej –
wtedy brak informacji o wersji
• Propagacja informacji o wersji razem z wiadomością
• Możemy skorzystać z wersji ostatnio używanej przez użytkownika
ROZWIĄZANIE #2
ROZWIĄZANIE #1

Kontrola sesji użytkownika
W JAKI SPOSÓB MOŻNA ZAPEWNIĆ,
ŻE W DANEJ CHWILI
UŻYTKOWNIK MA TYLKO JEDNĄ SESJĘ GRY?

Kontrola sesji użytkownika - powiadomienia

Testy – integracyjne
KILKA ŚRODOWISK TESTOWYCH
TESTY API POPRZEZ KLIENTA HTTP
KLIENT POWIADOMIEŃ
Odizolowane, umożliwiające weryfikację
poprawnej integracji systemów
Niezależny klient odpytujący non-stop
wszystkie usługi i według scenariuszy
Niezależny klient powiązany z klientem
HTTP weryfikujący poprawność
otrzymywanych powiadomień

Testy – symulacyjne
• Analogiczny klient, ale pozbawiony UI
• Nie można uruchomić ich zbyt wiele z racji na wymagane zasoby
• Klient gry wyposażony w UI realizuje określone scenariusze
raportując błędne odpowiedzi webservices
• Można uruchomić ich dużo (bardzo) generując więcej
losowych, trudnych do przewidzenia sytuacji
BOTY – BEZ UI
BOTY – Z UI

Monitoring operacji asynchronicznych
CO MOŻEMY SPRAWDZAĆ
• Wyniki działania botów na produkcji
• Wypełnienie kolejek wiadomości
• Czas ostatniej przetworzonej wiadomości (per consumer)
• Metryki serwerowe (load, pamięć, zużycie dysk, IOPS)
• Metryki biznesowe np. Ilość przyznanych nagród w ciągu ostatniej doby

Podsumowanie
• Poprawić niezawodność usług
• Zwiększyć skalowalność aplikacji
• Jeszcze bardziej odseparować mikroserwisy
ASYNCHRONICZNOŚĆ POZWOLIŁA NAM:

1500+Gier w portfolio
5M+Unikalnych użytkowników / m-c
GOG.com – O NAS
Care about games. Care about gamers.
#1Alternatywa dla Steam’a

GWINT: Przetwarzanie rozproszone z wykorzystaniem komunikacji asynchronicznej w grze online (PHPCon Poland 2016)

Recommended

Recommended

More Related Content

Featured

Featured (20)

GWINT: Przetwarzanie rozproszone z wykorzystaniem komunikacji asynchronicznej w grze online (PHPCon Poland 2016)

Editor's Notes