Magvas gondolatok

Scheidler Balázs

“Magvas gondolatok”

Tartalom

•Párhuzamos programozás & SMP
•Memória & Cache
•Valós tapasztalatok
•Tipikus problém & trade-off
•Konkrét adatszerkezet gyorsítása

Párhuzamos programozás
•Több szálú futás
•Közös memória
•Közös állapottér
(nyitott fájlok, hálózati
kapcsolatok, stb)

•Szálak közötti ütemezés az
OS feladata

•Több CPU/core transzparens
használata

SMP

•SMP = Symmetric Multiprocessing
•Több CPU, közös memória, I/O tér
•Minden CPU/core azonos típusú, órajelűű
•Desktop gépekben, szervereken tipikus
•Lehetnek specializált CPU-k, más
rendszert futtatva

Memória

•Jelenlegi CPU-k órajele a GHz tartományban
•Egy utasítás végrehajtásához szükséges időő
nanoszekundum nagyságrend

•DRAM memória hozzáféréshez szükséges időő
mikroszekundum nagyságrend (1:1000)

•Ez megegyezik a memória/vinyó közti aránnyal!

Cache

DRAM lassú, az SRAM drága

Megoldás:

• kisebb, gyors cache memória

• nagy, lassú központi memória

• 1:1000 arány (méret és sebesség)

• L1, L2, L3 szintek

Cache II.

•A cache a CPU és a memória közti gyorsítótár
•CPU által automatikusan menedzselt, program
számára transzparens

•Asszociatív tárolás, 32 byte-os egységekben
(„cacheline”)

Cache Hatásai

Egy algoritmus lehet utasítás számban minimális

ÉS

Lassabb, mint a több utasításból álló, de a cache-t
hatékonyabban kihasználó változat.

Cache & SMP

•Egy SMP rendszerben minden CPU/core
külön cache-sel rendelkezik

•Memória mindegyik CPU/core számára
közös

•Ugyanazon memória cím eléréséhez a
CPU-k között kommunikációra van
szükség

CPU-k közti szinkronizáció

MESI protokoll M E
• Modiﬁed

• Exclusive

• Shared S I
• Invalid

local read local write
remote read remote write

Kommunikáció Hatásai

Egy látszólag egyszerűű műűvelethez
mögött komplex lépések történnek

A komplexitás időőbe kerül

Egy memória műűvelet:

• lehet 3 nagyságrenddel lassabb

• függhet a CPU-k számától!

Tipikus cache probléma
•2 processzor végez ugyanazon a
cacheline-on felváltva atomikus write
műűveletet (pl. egy lock)
sch

•A write műűvelet miatt mindkét CPU
memóriából húzza be a cacheline-t,
miközben a másik cache tartalmat
invalidálja.

•Aka. cache ping-pong

Valós tapasztalatok: syslog-ng

syslog-ng

•Naplózó szerver, üzeneteket
fogad TCP és UDP
csatornákon

•Egy üzenet egy sor
•Minden sor kb 3-500 byte
•~ ezer kapcsolat,
•~ néhány száz ezer msg/sec

Mérés, reprodukció

„Premature optimization is the root of
all evil.” - Donald Knuth

Mérés és a reprodukálható testcase
fontos!

• ne kezdjünk bele nélküle

• ismerjük meg az eszközeinket

• perf, cachegrind, gprof

syslog-ng műűködése

Bejövőő üzenetek feldolgozása:

• beolvasás, parse-olás, szűűrés/módosítás,
kiküldés egy outputra

Kimenőő üzenetek feldolgozása:

• üzenet megformázása, kiírás egy fájlba/
hálózati kapcsolatra

syslog-ng korábban

• 1 szál, poll() ciklus

• minden esemény kezelése aszinkron
callbackekkel

• kb 100k msg/sec

syslog-ng ma

•főő szál + worker threadek •Nonblocking I/O
•a főő szál ﬁgyeli az összes nyitott •Worker threadek száma
kapcsolatot (epoll), I/O esemény megegyezik a CPU-k
esetén annak teljes feldolgozását számával
átadja a worker threadnek
•Egy taszk 1-4 msec időő
•I/O események: alatt végez (1-4000
üzenet feldolgozása)
•input adat érkezett (fetch,
process, enqueue loop)

•output írhatóvá vált (dequeue,
format, write loop)

Szűűk keresztmetszetek, problémák

Thread váltás
Drága, mert:

• kihűűl a cache,

• scheduler,

• context switch: regiszterek, TLB

Elkerülés módja:

• kevés thread (=CPU-k száma),
nonblocking I/O

• egy feladat kb. egy időőszeletig
fut, se hosszabban, se
rövidebben

Késleltetés
A latency önmagában nem okoz CPU használatot, de

• egy feldolgozásba beépülve okozhatja annak
jelentőős lassulását

• 1 msec késleltetés önmagában nem sok, de 1000
tranzakció esetén már 1 mp-cel nyújtja az időőt!

Latency források:

• lockok és szinkronizációs primitívek

• OS események (epoll)

Dinamikus memória
malloc/free jelentős időrablás 500k/sec tranzakciónál
• threadek közti szinkronizáció
• láncolt listák
• tipikus: egyik szál lefoglal, másik felszabadít
Elkerülés módja:
• alloca() ill. ﬁxen méretezett változók
• per-thread allokációk, hosszú távon megőőrizve, igény
esetén növelve
• LogMessage adatszerkezet „tömörítése”, ideális esetben
1 malloc/msg

Lock contention
Tipikus cache ping-pong:
• N szál ugyanazt a mutexet lockolja, egymást váltva
• a reader-writer locknál és az atomikus referencia számlálónál is
előőfordul!
Cél:
• egy egység hasznos munkára esőő szinkronizációs időő csökkentése
Elkerülés módja:
• per-thread változók
• adatszerkezet módosítása, nagyobb felbontású mutexek használata
• több munkát végzünk egy lock védelme alatt,
ld. skálázható queue-k

A nem triviális költségek miatt egy szekvenciális
program párhuzamos változata gyakran lassabb
lesz elsőő alkalommal.

Tipikus trade-off-ok

Konzisztencia, sorrendiség vs. sebesség

• az abszolút sorrend sok szinkronizációt követel meg,
ezek közül nem mind fontos

Használt memória mennyiség vs. sebesség

• pl. per-thread változók, párhuzamos objektum
példányok

Skálázható queue

Az input és az output közti összekötést biztosítja:

• input taszkok (N): beteszik az eseményeket
• output taszk (1): kiveszi az eseményeket,
majd kiküldi

Mutex

...

Üzenetenként 4 szinkronizációt igénylőő
műűvelet (input/output x lock-unlock)

per-thread
input queue
...
Mutex
...
...
...

...

Konzisztencia/memória vs. performance
Atomikus műűveletek száma kb felezőődik.

per-thread
input queue
. Lockolatlan
.
. Mutex output queue
.
. ...
.
.
.
.
.
.
.
Atomikus műűveletek másik fele is
nagyságrendekkel csökken.

Lockless veszélyek
Compiler reordering
CPU reordering (cache és memória miatt)
Stale adatok jelenléte miatt:
• nehezen debuggolható, ritkán előőforduló hibák
Mielőtt ilyenbe kezdesz:
• memory ordering
• memory barriers
• compiler reordering barriers

Összefoglalás

•Párhuzamos programozás okozhat

Ʃ
meglepetéseket

•Egy algoritmus párhuzamosítása
gyakran lassulást eredményez elsőőre!

•Mérés & megértés

VÉGE

lwn.net/Articles/250967/
rdrop.com/users/paulmck/perfbook/perfbook.2011.08.28a.pdf

Magvas gondolatok

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Magvas gondolatok

Similar to Magvas gondolatok (20)

More from Open Academy

More from Open Academy (18)

Magvas gondolatok