sgl-project · zhyncs · Jul 30, 2025 · Jul 29, 2025 · gemini-code-assist · Jul 29, 2025
@@ -209,7 +209,7 @@ def cutlass_fused_experts_fp8(
     )
 
     result = torch.empty((m, k), device=device, dtype=out_dtype)
-    apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
-    apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
+    apply_shuffle_mul_sum(c2, result, c_map, topk_weights.to(out_dtype))
-    apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
+    apply_shuffle_mul_sum(c2, result, c_map, topk_weights.to(out_dtype))
+    apply_shuffle_mul_sum(c2, result, c_map, topk_weights.to(out_dtype))
 TORCH_CHECK(factors_opt->dtype() == output_tensor.dtype(), "Factors must match output dtype"); 
 TORCH_CHECK(factors_opt->dtype() == output_tensor.dtype(), "Factors must match output dtype"); 
     return result