Move mem_fraction_static adjustment for multimodal models to server_args.py & Fix session control & Other cleanups (sgl-project#7748)

merrymercy · chenxijun1029 · commit 0227fcf5204c · 2025-07-15T15:23:29.000+08:00
diff --git a/python/sglang/srt/hf_transformers_utils.py b/python/sglang/srt/hf_transformers_utils.py
@@ -42,7 +42,7 @@
 )
 from sglang.srt.configs.internvl import InternVLChatConfig
 from sglang.srt.connector import create_remote_connector
-from sglang.srt.utils import is_remote_url
+from sglang.srt.utils import is_remote_url, lru_cache_frozenset
 
 _CONFIG_REGISTRY: Dict[str, Type[PretrainedConfig]] = {
     ChatGLMConfig.model_type: ChatGLMConfig,
@@ -103,6 +103,7 @@ def get_hf_text_config(config: PretrainedConfig):
         return config
 
 
+@lru_cache_frozenset(maxsize=32)
 def get_config(
     model: str,
     trust_remote_code: bool,
diff --git a/python/sglang/srt/layers/activation.py b/python/sglang/srt/layers/activation.py
@@ -46,11 +46,11 @@
 if _is_cuda:
     from sgl_kernel import gelu_and_mul, gelu_tanh_and_mul, silu_and_mul
 
-logger = logging.getLogger(__name__)
-
 if is_npu():
     import torch_npu
 
+logger = logging.getLogger(__name__)
+
 
 class SiluAndMul(CustomOp):
     def forward_native(self, x: torch.Tensor) -> torch.Tensor:
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
@@ -39,6 +39,7 @@ class SessionParams:
     rid: Optional[str] = None
     offset: Optional[int] = None
     replace: Optional[bool] = None
+    drop_previous_output: Optional[bool] = None
 
 
 AudioDataItem = Union[str, Dict]
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
@@ -203,7 +203,7 @@ class MultimodalDataItem:
 
     # the real data, pixel_values or audio_features
     # data: Union[List[torch.Tensor], List[np.ndarray]]
-    pixel_values: Union[torch.Tensor, np.ndarray] = None
+    pixel_values: Union[torch.Tensor, np.ndarray, "PIL.Image"] = None
     audio_features: Union[torch.Tensor, np.ndarray] = None
     audio_feature_lens: Optional[List[torch.Tensor]] = None
     audio_offsets: Optional[List[Tuple[int, int]]] = None
@@ -244,15 +244,16 @@ def set_pad_value(self):
         """
         from sglang.srt.managers.mm_utils import hash_feature
 
-        if self.precomputed_features is not None:
-            self.hash = hash_feature(self.precomputed_features)
-        elif self.is_audio():
-            if self.audio_features is not None:
-                self.hash = hash_feature(self.audio_features)
-            elif self.input_features is not None:
-                self.hash = hash_feature(self.input_features)
-        else:
-            self.hash = hash_feature(self.pixel_values)
+        if self.hash is None:
+            if self.precomputed_features is not None:
+                self.hash = hash_feature(self.precomputed_features)
+            elif self.is_audio():
+                if self.audio_features is not None:
+                    self.hash = hash_feature(self.audio_features)
+                elif self.input_features is not None:
+                    self.hash = hash_feature(self.input_features)
+            else:
+                self.hash = hash_feature(self.pixel_values)
 
         assert self.hash is not None
         self.pad_value = self.hash % (1 << 30)
@@ -295,6 +296,13 @@ def from_dict(obj: dict):
         ret.validate()
         return ret
 
+    def merge(self, other):
+        self.pixel_values += other.pixel_values
+        self.image_sizes += other.image_sizes
+        self.image_offsets += other.image_offsets
+        self.hash = hash((self.hash, other.hash))
+        self.set_pad_value()
+
 
 @dataclasses.dataclass
 class MultimodalInputs:
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
@@ -1100,7 +1100,7 @@ def handle_generate_request(
                 recv_req.session_params is not None
                 and recv_req.session_params.id is not None
             ):
-                req.finished_reason = FINISH_ABORT(
+                req.set_finish_with_abort(
                     f"Invalid request: session id {recv_req.session_params.id} does not exist"
                 )
                 self._add_request_to_queue(req)
diff --git a/python/sglang/srt/managers/session_controller.py b/python/sglang/srt/managers/session_controller.py
@@ -54,7 +54,7 @@ def _str_helper(self, prefix=""):
             prefix += " -- " + self.childs[0].req.rid
             ret = self.childs[0]._str_helper(prefix)
             for child in self.childs[1:]:
-                prefix = " " * len(origin_prefix) + r" \- " + child.req.rid
+                prefix = " " * len(origin_prefix) + " \- " + child.req.rid
                 ret += child._str_helper(prefix)
             return ret
 
@@ -106,14 +106,22 @@ def create_req(self, req: TokenizedGenerateReqInput, tokenizer):
                 last_req.origin_input_ids
                 + last_req.output_ids[: last_req.sampling_params.max_new_tokens]
             )
+
+            if session_params.drop_previous_output:
+                input_ids = last_req.origin_input_ids[:]
+
             if session_params.offset and session_params.offset != 0:
                 input_ids = input_ids[: session_params.offset] + req.input_ids
             else:
                 input_ids += req.input_ids
+
             input_ids_unpadded = (
                 last_req.origin_input_ids_unpadded
                 + last_req.output_ids[: last_req.sampling_params.max_new_tokens]
             )
+            if session_params.drop_previous_output:
+                input_ids_unpadded = last_req.origin_input_ids_unpadded[:]
+
             if session_params.offset and session_params.offset != 0:
                 input_ids_unpadded = (
                     input_ids_unpadded[: session_params.offset] + req.input_ids
@@ -138,10 +146,11 @@ def create_req(self, req: TokenizedGenerateReqInput, tokenizer):
             token_ids_logprob=req.token_ids_logprob,
         )
         if last_req is not None:
-            new_req.multimodal_inputs = last_req.mm_inputs
+            new_req.multimodal_inputs = last_req.multimodal_inputs
         new_req.tokenizer = tokenizer
+
         if abort:
-            new_req.to_abort = True
+            new_req.set_finish_with_abort("Invalid request session id")
         else:
             new_req_node = SessionReqNode(new_req, last_req_node)
             self.req_nodes[req.rid] = new_req_node
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
@@ -1148,6 +1148,7 @@ def get_log_request_metadata(self):
                     [
                         "text",
                         "output_ids",
+                        "embedding",
                     ]
                 )
             elif self.log_requests_level == 1:
@@ -1166,6 +1167,7 @@ def get_log_request_metadata(self):
                     [
                         "text",
                         "output_ids",
+                        "embedding",
                     ]
                 )
             elif self.log_requests_level == 2:
diff --git a/python/sglang/srt/mem_cache/multimodal_cache.py b/python/sglang/srt/mem_cache/multimodal_cache.py
@@ -24,6 +24,9 @@ def put(self, mm_hash: int, embedding: torch.Tensor) -> bool:
         self.current_size += data_size
         return True
 
+    def has(self, mm_hash: int) -> bool:
+        return mm_hash in self.mm_cache
+
     def get(self, mm_hash: int) -> torch.Tensor:
         return self.mm_cache.get(mm_hash)
 
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
@@ -451,11 +451,6 @@ def model_specific_adjustment(self):
             self.init_double_sparsity_channel_config(server_args.ds_heavy_channel_type)
 
         if self.is_multimodal:
-            self.mem_fraction_static *= 0.90
-            logger.info(
-                f"Automatically reduce --mem-fraction-static to {self.mem_fraction_static:.3f} "
-                f"because this is a multimodal model."
-            )
             if not self.is_multimodal_chunked_prefill_supported:
                 server_args.chunked_prefill_size = -1
                 logger.info(
diff --git a/python/sglang/srt/models/qwen3.py b/python/sglang/srt/models/qwen3.py
@@ -11,8 +11,6 @@
     get_pp_group,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
-    split_tensor_along_last_dim,
-    tensor_model_parallel_all_gather,
 )
 from sglang.srt.layers.communicator import LayerCommunicator, LayerScatterModes
 from sglang.srt.layers.dp_attention import get_attention_tp_rank, get_attention_tp_size
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -3,11 +3,9 @@
 import re
 from typing import Dict, List, Union
 
-import torch
 from PIL import Image
 
 from sglang.srt.layers.rotary_embedding import MRotaryEmbedding
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.qwen2_5_vl import Qwen2_5_VLForConditionalGeneration
 from sglang.srt.models.qwen2_vl import Qwen2VLForConditionalGeneration
 from sglang.srt.multimodal.processors.base_processor import (
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
@@ -319,6 +319,14 @@ def __post_init__(self):
             else:
                 self.mem_fraction_static = 0.88
 
+            # Lazy init to avoid circular import
+            from sglang.srt.configs.model_config import ModelConfig
+
+            # Multimodal models need more memory for the image processor
+            model_config = ModelConfig.from_server_args(self)
+            if model_config.is_multimodal:
+                self.mem_fraction_static *= 0.90
+
         # Set chunked prefill size, which depends on the gpu memory capacity
         if self.chunked_prefill_size is None:
             if gpu_mem is not None:
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
diff --git a/test/srt/test_server_args.py b/test/srt/test_server_args.py
diff --git a/test/srt/test_session_control.py b/test/srt/test_session_control.py
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py

Original file line number	Diff line number	Diff line change
`@@ -1100,7 +1100,7 @@ def handle_generate_request(`
`1100`	`1100`	`recv_req.session_params is not None`
`1101`	`1101`	`and recv_req.session_params.id is not None`
`1102`	`1102`	`):`
`1103`		`- req.finished_reason = FINISH_ABORT(`
	`1103`	`+ req.set_finish_with_abort(`
`1104`	`1104`	`f"Invalid request: session id {recv_req.session_params.id} does not exist"`
`1105`	`1105`	`)`
`1106`	`1106`	`self._add_request_to_queue(req)`
Original file line number	Diff line number	Diff line change
`@@ -1148,6 +1148,7 @@ def get_log_request_metadata(self):`
`1148`	`1148`	`[`
`1149`	`1149`	`"text",`
`1150`	`1150`	`"output_ids",`
	`1151`	`+ "embedding",`
`1151`	`1152`	`]`
`1152`	`1153`	`)`
`1153`	`1154`	`elif self.log_requests_level == 1:`
`@@ -1166,6 +1167,7 @@ def get_log_request_metadata(self):`
`1166`	`1167`	`[`
`1167`	`1168`	`"text",`
`1168`	`1169`	`"output_ids",`
	`1170`	`+ "embedding",`
`1169`	`1171`	`]`
`1170`	`1172`	`)`
`1171`	`1173`	`elif self.log_requests_level == 2:`
Original file line number	Diff line number	Diff line change
`@@ -11,8 +11,6 @@`
`11`	`11`	`get_pp_group,`
`12`	`12`	`get_tensor_model_parallel_rank,`
`13`	`13`	`get_tensor_model_parallel_world_size,`
`14`		`- split_tensor_along_last_dim,`
`15`		`- tensor_model_parallel_all_gather,`
`16`	`14`	`)`
`17`	`15`	`from sglang.srt.layers.communicator import LayerCommunicator, LayerScatterModes`
`18`	`16`	`from sglang.srt.layers.dp_attention import get_attention_tp_rank, get_attention_tp_size`