Max Throughput [tokens/sec - higher is better]
ModelPrecisionInput LengthOutput Length#HPUBatch SizeThroughput (tokens/sec)
LLaMA 3.1 8Bfp81281281153623922
LLaMA 3.1 8Bfp81282048176819242
LLaMA 3.1 8Bfp8204812812562751
LLaMA 3.1 8Bfp82048204812569040
LLaMA 3.1 70Bfp8128128220485303
LLaMA 3.1 70Bfp8128204824506514
LLaMA 3.1 70Bfp820481282223650
LLaMA 3.1 70Bfp82048204821753115
LLaMA 3.1 70Bfp81281288400016929
LLaMA 3.1 70Bfp81282048876821044
LLaMA 3.1 70Bfp8204812885122183
LLaMA 3.1 70Bfp820482048860010767
LLaMA 3.3 70Bfp81281288400016883
LLaMA 3.3 70Bfp81282048876820980
LLaMA 3.3 70Bfp8204812885122129
LLaMA 3.3 70Bfp820482048860010747