pytorch · huydhn · Oct 3, 2025 · Oct 3, 2025
diff --git a/.github/workflows/vllm-benchmark.yml b/.github/workflows/vllm-benchmark.yml
@@ -263,6 +263,8 @@ jobs:
           # vLLM-related environment variables
           ENGINE_VERSION: v1
           SAVE_TO_PYTORCH_BENCHMARK_FORMAT: 1
+          # Test
+          VLLM_USE_STANDALONE_COMPILE: 1
         run: |
           set -eux
 
@@ -282,6 +284,7 @@ jobs:
             -e HF_TOKEN \
             -e ENGINE_VERSION \
             -e SAVE_TO_PYTORCH_BENCHMARK_FORMAT \
+            -e VLLM_USE_STANDALONE_COMPILE \
             -e ON_CPU="${ON_CPU}" \
             --ipc=host \
             --tty \

diff --git a/vllm-benchmarks/benchmarks/cuda/latency-tests.json b/vllm-benchmarks/benchmarks/cuda/latency-tests.json
@@ -117,6 +117,17 @@
             "max_model_len": 8192
         }
     },
+    {
+        "test_name": "latency_gemma_3n_e2b_tp1",
+        "parameters": {
+            "model": "google/gemma-3n-E2B-it",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15,
+            "max_model_len": 8192
+        }
+    },
     {
         "test_name": "latency_qwen3_30b_a3b_tp8",
         "parameters": {

diff --git a/vllm-benchmarks/benchmarks/cuda/serving-tests.json b/vllm-benchmarks/benchmarks/cuda/serving-tests.json
@@ -532,5 +532,26 @@
             "random_input_len": 5250,
             "random_output_len": 8250
         }
+    },
+    {
+        "test_name": "serving_gemma_3n_e2b_tp1_random_in1k_out2k",
+        "qps_list": [10],
+        "server_parameters": {
+            "model": "google/gemma-3n-E2B-it",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy",
+            "max_model_len": 8192
+        },
+        "client_parameters": {
+            "model": "google/gemma-3n-E2B-it",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
     }
 ]
diff --git a/vllm-benchmarks/benchmarks/cuda/throughput-tests.json b/vllm-benchmarks/benchmarks/cuda/throughput-tests.json
@@ -128,6 +128,18 @@
             "max_model_len": 8192
         }
     },
+    {
+        "test_name": "throughput_gemma_3n-e2b_tp1",
+        "parameters": {
+            "model": "google/gemma-3n-E2B-it",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm",
+            "max_model_len": 8192
+        }
+    },
     {
         "test_name": "throughput_qwen3_30b_a3b_tp8",
         "parameters": {