Max Throughput [tokens/sec - higher is better]
ModelPrecisionInput LengthOutput Length#HPUBatch SizeThroughput (tokens/sec)
LLaMA 3.1 8Bfp81281281153624535
LLaMA 3.1 8Bfp81282048176820705
LLaMA 3.1 8Bfp8204812812562857
LLaMA 3.1 8Bfp82048204812569168
LLaMA 3.1 70Bfp8128128220485473
LLaMA 3.1 70Bfp8128204824506614
LLaMA 3.1 70Bfp820481282223678
LLaMA 3.1 70Bfp82048204821753157
LLaMA 3.1 70Bfp81281288400018428
LLaMA 3.1 70Bfp81282048876821448
LLaMA 3.1 70Bfp8204812885122334
LLaMA 3.1 70Bfp820482048860011077
LLaMA 3.3 70Bfp81281288400018714
LLaMA 3.3 70Bfp81282048876821473
LLaMA 3.3 70Bfp8204812885122338
LLaMA 3.3 70Bfp820482048860010995