[llm_bench] Add setting of max_num_batched_tokens for SchedulerConfig (#2316)

sbalandi · web-flow · commit de28e17bed35 · 2025-06-04T16:24:43.000+04:00
diff --git a/tools/llm_bench/llm_bench_utils/ov_utils.py b/tools/llm_bench/llm_bench_utils/ov_utils.py
@@ -168,7 +168,7 @@ def create_text_gen_model(model_path, device, memory_monitor, **kwargs):
 def get_scheduler_config_genai(user_config, config_name="CB config"):
     import openvino_genai
 
-    default_cb_config = {"cache_size": 1}
+    default_cb_config = {"cache_size": 1, "max_num_batched_tokens": 65535}
     scheduler_config = openvino_genai.SchedulerConfig()
     scheduler_params = user_config or default_cb_config
     if scheduler_params: