Max Throughput [tokens/sec - higher is better]
Model#HPUPrecisionInput LengthOutput LengthBatch SizeThroughput
LLaMA 3.1 8B1fp8128128281620475
LLaMA 3.1 8B1fp8128204851215093
LLaMA 3.1 8B1fp820481281792150
LLaMA 3.1 8B1fp8204820482566090
LLaMA 3.1 70B2fp812812817923404
LLaMA 3.1 70B2fp812820482563844
LLaMA 3.1 70B2fp82048128142456
LLaMA 3.1 70B2fp8204820481391661
LLaMA 3.1 70B8fp8128128400011607
LLaMA 3.1 70B8fp8128204876813754
LLaMA 3.1 70B8fp820481283831567
LLaMA 3.1 70B8fp8204820484766772
LLaMA 3.3 70B8fp8128128400011623
LLaMA 3.3 70B8fp8128204876813765
LLaMA 3.3 70B8fp820481283831572
LLaMA 3.3 70B8fp8204820484766769