AIXMOOC 2.5 - CPU e GPU per Machine Learning (Luca Benini)

AIXMOOC 2.5 luca benini
L’ESPLOSIONE
luca benini
#AIXMOOC
2.5 CPU E GPU
PER MACHINE LEARNING
mooc.uniurb.it/aixmooc
DELL’INTELLIGENZA
ARTIFICIALE

Intelligenza Artificiale Generativa

P(Tkk+1)
Tk[0..k]
W
Tk[k+1]
Large Language Models @[2022…today]
Weights & FLOPs
Weights (pesi) → 0.12, 0.04, …0.81
FLOPs → (+,*)

P(Tkk+1)
Tk[0..k]
W
Tk[k+1]
Weights & FLOPs

Training (Allenamento)
P(Tkk+1)
Tk[0..k]
Tk[k+1]
W
~54k GPUs (1st Top500)
~14k GPUs
~100k GPUs
#Weights ∝ Billions
#Flops ∝ Millions of Billions

Training Inferenza
P(Tkk+1)
Tk[0..k]
Tk[k+1]
W
~14k GPUs
~100k GPUs
~4-8 GPUs
70B Llama3.2

P(Tkk+1)
Tk[0..k]
Tk[k+1]
W
FLOPs == (+,*)
NVIDIA H100 GPU
• ~2 milioni di miliardi di (+,*) al secondo
• 700W (~1/2 Phon)
• ∝ 30K€ (~VW GOLF nuova)

Cos’é una (GP-) GPU Oggi?

≈900GB/s Bandwidth over 4096-bit bus
Cos’é una (GP-) GPU Oggi?

Ma per far cosa?
P(Tkk+1)
Tk[0..k]
Tk[k+1]
W
float W[d][s];
float vin[d], vout[s];
for(i=0;i<s;i++){
for(j=0;j<d;j++){
vout[i]+=W[i][j]*vin[j];
}
}
fld r1, [r2!]
fld r3, [r4!]
fma r5, r5, r1, r3
Prodotto vettore matrice
“linguaggio macchina”→ sequenza di istruzioni

Ma per far cosa?
float W[d][s];
for(i=0;i<s;i++){
for(j=0;j<d;j++){
}
}
fld r1, [r2!]
fld r3, [r4!]
fma r5, r5, r1, r3
Prodotto vettore matrice
“linguaggio macchina”→ sequenza di istruzioni

Una GPU contiene centinaia di “cluster di decine di processori” → migliaia di processori
GPU → Processore parallelo “estremo”

Memoria (sul chip e nel package)

float W[d][s];
for(i=0;i<s;i++){
for(j=0;j<d;j++){
}
}
fld r1, [r2!]
fld r3, [r4!]
fma r5, r5, r1, r3

Workload “estremamente parallelo” #Threads >> #Processori

Efficienza → Tutti I threads eseguono le stesse operazioni su dati diversi

Problema: Esecuzione di codice con condizioni

Problema: Esecuzione di codice con condizioni
Non ci sono condizioni nella moltiplicazione vettore matrice!

Problema: Accesso alla Memoria Esterna → 100+ cicli!

Problema: Accesso alla Memoria Esterna → 100+ cicli!
Maggiore la latenza, piu’ grande il numero di contesti per nasconderla!

Training Inferenza
P(Tkk+1)
Tk[0..k]
Tk[k+1]
W
~14k GPUs
~100k GPUs
~4-8 GPUs
70B Llama3.2
Chiudiamo: Intelligenza Artificiale Generativa

Sostenibilità AI Generativa - Inferenza

ChatGPT Statistics
- 123.5M Media giornaliera utenti
- 1B Media giornaliera query
(https://www.demandsage.com/chatgpt-statistics/)
- 121 Media giornaliera token uscita
(Da: Azure LLM inference trace 2024 - Conversation)
- ~121B Tokens/day
- @4J/Token (70B parameter)
- 2944GWh/year => 100x Energia Training Llama 405B
- @0.04J/Token (8B parameter)
- 29GWh/year => ∝ Energia Training Llama 405B
- Se 50B utenti (500x incremento)
- ~50000B Tokens/day
- @4J/Token (70B parameter)
- 136 GW ~1% Fabbisogno Energetico Mondiale (~15TW)
- @0.04J/Token (8B parameter)
- 1.36GW ~1/2 Consumi Elettrici Regione Emilia-Romagna

Modelli di Ragionamento
+ 571
Tokens
248
Tokens
deepseek-r1:8b
Tokens di Ragionamento
Reasoning Tokens
Token Risposta

https://arxiv.org/abs/2501.19393
https://arxiv.org/abs/2412.18547
Modelli di Ragionamento
~31x incremento output token con ragionamento
→ L’inferenza dominerà il costo dell’AI generativa !!!

#AIXMOOC
GRAZIE
mooc.uniurb.it/aixmooc

AIXMOOC 2.5 - CPU e GPU per Machine Learning (Luca Benini)

More Related Content

More from Alessandro Bogliolo

AIXMOOC 2.5 - CPU e GPU per Machine Learning (Luca Benini)