Max Throughput [tokens/sec - higher is better]
Model#HPUPrecisionInput LengthOutput LengthBatch SizeThroughput
LLaMA 3.1 8B1fp8128128281620265
LLaMA 3.1 8B1fp8128204851215078
LLaMA 3.1 8B1fp820481281792130
LLaMA 3.1 8B1fp8204820482566086
LLaMA 3.1 70B2fp812812817923405
LLaMA 3.1 70B2fp812820482563879
LLaMA 3.1 70B2fp82048128142359
LLaMA 3.1 70B2fp8204820481391456
LLaMA 3.1 70B8fp8128128400011500
LLaMA 3.1 70B8fp8128204876813838
LLaMA 3.1 70B8fp820481283831541
LLaMA 3.1 70B8fp8204820484767044
LLaMA 3.3 70B8fp8128128400011493
LLaMA 3.3 70B8fp8128204876813818
LLaMA 3.3 70B8fp820481283831541
LLaMA 3.3 70B8fp8204820484706884