Max Throughput [tokens/sec - higher is better]
Model#HPUPrecisionInput LengthOutput LengthBatch SizeThroughput
LLaMA 3.1 8B1fp8128128281619873
LLaMA 3.1 8B1fp8128204851215054
LLaMA 3.1 8B1fp820481281792078
LLaMA 3.1 8B1fp8204820482566065
LLaMA 3.1 70B2fp812812817923422
LLaMA 3.1 70B2fp812820482563894
LLaMA 3.1 70B2fp82048128142358
LLaMA 3.1 70B2fp8204820481391837
LLaMA 3.1 70B8fp8128128400011519
LLaMA 3.1 70B8fp8128204876812681
LLaMA 3.1 70B8fp820481283831548
LLaMA 3.1 70B8fp8204820484766803
LLaMA 3.3 70B8fp8128128400011524
LLaMA 3.3 70B8fp8128204876813713
LLaMA 3.3 70B8fp820481283831488
LLaMA 3.3 70B8fp8204820484766893