Fixes usage calculation in streaming mode

JustinTong0323 · JustinTong0323 · commit d433e43b91b5 · 2025-06-15T04:06:45.000Z
Corrects the usage calculation for streaming responses by passing the correct argument to the base function.

It ensures accurate token counting when `n` &gt; 1 is requested, preventing potential discrepancies in billing or rate limiting.

Signed-off-by: Xinyuan Tong &lt;justinning0323@outlook.com&gt;
diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -578,7 +578,7 @@ async def generate_stream_resp():
                 # Final chunk with usage
                 if request.stream_options and request.stream_options.include_usage:
                     usage = self._calculate_streaming_usage_base(
-                        prompt_tokens, completion_tokens, cached_tokens, request
+                        prompt_tokens, completion_tokens, cached_tokens, request.n
                     )
                 else:
                     usage = None
diff --git a/python/sglang/srt/entrypoints/openai/serving_completions.py b/python/sglang/srt/entrypoints/openai/serving_completions.py
@@ -289,7 +289,7 @@ async def generate_stream_resp():
                 # Handle final usage chunk
                 if request.stream_options and request.stream_options.include_usage:
                     usage = self._calculate_streaming_usage_base(
-                        prompt_tokens, completion_tokens, cached_tokens, request
+                        prompt_tokens, completion_tokens, cached_tokens, request.n
                     )
                     final_usage_chunk = CompletionStreamResponse(
                         id=content["meta_info"]["id"],

Original file line number	Diff line number	Diff line change
`@@ -578,7 +578,7 @@ async def generate_stream_resp():`
`578`	`578`	`# Final chunk with usage`
`579`	`579`	`if request.stream_options and request.stream_options.include_usage:`
`580`	`580`	`usage = self._calculate_streaming_usage_base(`
`581`		`- prompt_tokens, completion_tokens, cached_tokens, request`
	`581`	`+ prompt_tokens, completion_tokens, cached_tokens, request.n`
`582`	`582`	`)`
`583`	`583`	`else:`
`584`	`584`	`usage = None`
Original file line number	Diff line number	Diff line change
`@@ -289,7 +289,7 @@ async def generate_stream_resp():`
`289`	`289`	`# Handle final usage chunk`
`290`	`290`	`if request.stream_options and request.stream_options.include_usage:`
`291`	`291`	`usage = self._calculate_streaming_usage_base(`
`292`		`- prompt_tokens, completion_tokens, cached_tokens, request`
	`292`	`+ prompt_tokens, completion_tokens, cached_tokens, request.n`
`293`	`293`	`)`
`294`	`294`	`final_usage_chunk = CompletionStreamResponse(`
`295`	`295`	`id=content["meta_info"]["id"],`