[tiny] Remove unsupported TRITON_MLA backend from batch invariance (#28832)

bwasti · yewentao256 · web-flow · commit 5f7209a793ec · 2025-11-22T21:00:50.000+08:00
Signed-off-by: Bram Wasti &lt;bwasti@meta.com&gt;
Signed-off-by: Bram Wasti &lt;bwasti@fb.com&gt;
Co-authored-by: Wentao Ye &lt;44945378+yewentao256@users.noreply.github.com&gt;
diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
@@ -805,11 +805,11 @@ def override_envs_for_invariance():
         "FLASH_ATTN",  # best supported backend
         "FLASHINFER",
         "FLASH_ATTN_MLA",
-        "TRITON_MLA",
         # Not yet supported MLA backends
         # "FLASHMLA",
         # "FLEX_ATTENTION", # IMA issue even if we disable batch invariance
         # "FLASHINFER_MLA", https://github.com/vllm-project/vllm/pull/28967
+        # "TRITON_MLA",
     ]
     if curr_attn_backend not in supported_backends:
         warning = (