vllm-project · mgoin · Jan 16, 2025 · Sep 20, 2024 · Jan 15, 2025 · Jan 15, 2025
@@ -276,7 +276,8 @@ def apply(self,
             input_scale=layer.input_scale,
             bias=bias,
             cutlass_fp8_supported=self.cutlass_fp8_supported,
-            use_per_token_if_dynamic=False)
+            # Default to using per_token quantization if cutalss fp8 is supported.
+            use_per_token_if_dynamic=self.cutlass_fp8_supported)
 
 
 class Fp8MoEMethod(FusedMoEMethodBase):