Max Throughput [tokens/sec - higher is better]
ModelPrecisionInput LengthOutput Length#HPUBatch SizeThroughput (tokens/sec)
LLaMA 3.1 8Bfp81281281153624198
LLaMA 3.1 8Bfp81282048176819854
LLaMA 3.1 8Bfp8204812812562853
LLaMA 3.1 8Bfp82048204812569139
LLaMA 3.1 70Bfp8128128220485486
LLaMA 3.1 70Bfp8128204824506576
LLaMA 3.1 70Bfp820481282223427
LLaMA 3.1 70Bfp82048204821752969
LLaMA 3.1 70Bfp81281288400018031
LLaMA 3.1 70Bfp81282048876821264
LLaMA 3.1 70Bfp8204812885122333
LLaMA 3.1 70Bfp820482048860010700
LLaMA 3.3 70Bfp81281288400018155
LLaMA 3.3 70Bfp81282048876821268
LLaMA 3.3 70Bfp8204812885122338
LLaMA 3.3 70Bfp820482048860010677