Fix number of layers in Whisper export (microsoft#25375)

kunal-vaishnavi · jeffkilpatrick · commit b58056b23f59 · 2025-07-22T09:53:58.000-07:00
### Description This PR fixes the number of hidden layers used during the export of Whisper by always using the number of hidden layers in the decoder. ### Motivation and Context Most of the Whisper models contain the same number of hidden layers in the encoder and decoder. However, Whisper large v3 turbo contains 32 hidden layers in the encoder and only 4 hidden layers in the decoder. This PR also fixes [this issue](microsoft/onnxruntime-genai#1611).
diff --git a/onnxruntime/python/tools/transformers/models/whisper/convert_to_onnx.py b/onnxruntime/python/tools/transformers/models/whisper/convert_to_onnx.py
@@ -410,7 +410,7 @@ def export_onnx_models(
                         precision == Precision.FLOAT16,
                         model.config.encoder_attention_heads,
                         model.config.d_model,
-                        model.config.num_hidden_layers,
+                        model.config.decoder_layers,
                         use_external_data_format,
                         use_gpu=use_gpu,
                         provider=provider,
diff --git a/onnxruntime/python/tools/transformers/models/whisper/requirements.txt b/onnxruntime/python/tools/transformers/models/whisper/requirements.txt
@@ -1,5 +1,5 @@
 torch>=2.7.0
-transformers>=4.52.3
+transformers==4.52.3
 openai-whisper==20240927
 ffmpeg-python
 datasets
diff --git a/onnxruntime/python/tools/transformers/models/whisper/whisper_decoder.py b/onnxruntime/python/tools/transformers/models/whisper/whisper_decoder.py
@@ -187,7 +187,7 @@ def input_names(self):
                 *list(
                     chain.from_iterable(
                         (f"past_key_self_{i}", f"past_value_self_{i}", f"past_key_cross_{i}", f"past_value_cross_{i}")
-                        for i in range(self.config.num_hidden_layers)
+                        for i in range(self.config.decoder_layers)
                     )
                 ),
             ]
@@ -205,7 +205,7 @@ def output_names(self):
                             f"present_key_cross_{i}",
                             f"present_value_cross_{i}",
                         )
-                        for i in range(self.config.num_hidden_layers)
+                        for i in range(self.config.decoder_layers)
                     )
                 ),
             ]
@@ -214,8 +214,7 @@ def output_names(self):
                 "logits",
                 *list(
                     chain.from_iterable(
-                        (f"present_key_self_{i}", f"present_value_self_{i}")
-                        for i in range(self.config.num_hidden_layers)
+                        (f"present_key_self_{i}", f"present_value_self_{i}") for i in range(self.config.decoder_layers)
                     )
                 ),
             ]
diff --git a/onnxruntime/python/tools/transformers/models/whisper/whisper_encoder_decoder_init.py b/onnxruntime/python/tools/transformers/models/whisper/whisper_encoder_decoder_init.py
@@ -127,7 +127,7 @@ def output_names(self):
                 *list(
                     chain.from_iterable(
                         (f"present_key_cross_{i}", f"present_value_cross_{i}")
-                        for i in range(self.config.num_hidden_layers)
+                        for i in range(self.config.decoder_layers)
                     )
                 ),
             ]
@@ -143,7 +143,7 @@ def output_names(self):
                             f"present_key_cross_{i}",
                             f"present_value_cross_{i}",
                         )
-                        for i in range(self.config.num_hidden_layers)
+                        for i in range(self.config.decoder_layers)
                     )
                 ),
             ]
diff --git a/onnxruntime/python/tools/transformers/models/whisper/whisper_helper.py b/onnxruntime/python/tools/transformers/models/whisper/whisper_helper.py
@@ -763,7 +763,7 @@ def optimize_onnx(
         is_float16: bool,
         num_attention_heads: int,
         hidden_size: int,
-        num_layers: int,
+        num_decoder_layers: int,
         use_external_data_format: bool = False,
         use_gpu: bool = False,
         provider: str = "cpu",
@@ -801,7 +801,7 @@ def optimize_onnx(
                 m = add_cache_indirection_to_mha(m, past_seq_len_name)
 
             if output_qk:
-                m = add_output_qk_to_mha(m, skip_node_idxs=list(range(0, 2 * num_layers, 2)))
+                m = add_output_qk_to_mha(m, skip_node_idxs=list(range(0, 2 * num_decoder_layers, 2)))
 
         m.save_model_to_file(optimized_model_path, use_external_data_format, all_tensors_to_one_file=True)
 
diff --git a/onnxruntime/python/tools/transformers/models/whisper/whisper_inputs.py b/onnxruntime/python/tools/transformers/models/whisper/whisper_inputs.py
@@ -94,14 +94,14 @@ def get_sample_past_key_values(
             torch.rand(batch_size, num_heads, past_seq_len, head_size, device=device, dtype=torch_dtype),
             torch.rand(batch_size, num_heads, past_seq_len, head_size, device=device, dtype=torch_dtype),
         )
-        for _ in range(config.num_hidden_layers)
+        for _ in range(config.decoder_layers)
     ]
     cross_attention_kv_caches = [
         (
             torch.rand(batch_size, num_heads, max_source_positions, head_size, device=device, dtype=torch_dtype),
             torch.rand(batch_size, num_heads, max_source_positions, head_size, device=device, dtype=torch_dtype),
         )
-        for _ in range(config.num_hidden_layers)
+        for _ in range(config.decoder_layers)
     ]
     return flatten_past_key_values(self_attention_kv_caches, cross_attention_kv_caches)
 
@@ -187,7 +187,7 @@ def get_sample_QKs(  # noqa: N802
         torch.rand(
             batch_size, num_heads, sequence_length, config.max_source_positions, device=device, dtype=torch_dtype
         )
-        for _ in range(config.num_hidden_layers)
+        for _ in range(config.decoder_layers)
     ]
     return QKs
 
diff --git a/onnxruntime/python/tools/transformers/models/whisper/whisper_jump_times.py b/onnxruntime/python/tools/transformers/models/whisper/whisper_jump_times.py
@@ -156,7 +156,7 @@ def input_names(self):
             "alignment_heads",
             "sot_sequence_length",
             "segment_length",
-            *[f"cross_qk_{i}" for i in range(self.config.num_hidden_layers)],
+            *[f"cross_qk_{i}" for i in range(self.config.decoder_layers)],
         ]
         return input_names
 

Original file line number	Diff line number	Diff line change
`@@ -187,7 +187,7 @@ def input_names(self):`
`187`	`187`	`*list(`
`188`	`188`	`chain.from_iterable(`
`189`	`189`	`(f"past_key_self_{i}", f"past_value_self_{i}", f"past_key_cross_{i}", f"past_value_cross_{i}")`
`190`		`- for i in range(self.config.num_hidden_layers)`
	`190`	`+ for i in range(self.config.decoder_layers)`
`191`	`191`	`)`
`192`	`192`	`),`
`193`	`193`	`]`
`@@ -205,7 +205,7 @@ def output_names(self):`
`205`	`205`	`f"present_key_cross_{i}",`
`206`	`206`	`f"present_value_cross_{i}",`
`207`	`207`	`)`
`208`		`- for i in range(self.config.num_hidden_layers)`
	`208`	`+ for i in range(self.config.decoder_layers)`
`209`	`209`	`)`
`210`	`210`	`),`
`211`	`211`	`]`
`@@ -214,8 +214,7 @@ def output_names(self):`
`214`	`214`	`"logits",`
`215`	`215`	`*list(`
`216`	`216`	`chain.from_iterable(`
`217`		`- (f"present_key_self_{i}", f"present_value_self_{i}")`
`218`		`- for i in range(self.config.num_hidden_layers)`
	`217`	`+ (f"present_key_self_{i}", f"present_value_self_{i}") for i in range(self.config.decoder_layers)`
`219`	`218`	`)`
`220`	`219`	`),`
`221`	`220`	`]`
Original file line number	Diff line number	Diff line change
`@@ -127,7 +127,7 @@ def output_names(self):`
`127`	`127`	`*list(`
`128`	`128`	`chain.from_iterable(`
`129`	`129`	`(f"present_key_cross_{i}", f"present_value_cross_{i}")`
`130`		`- for i in range(self.config.num_hidden_layers)`
	`130`	`+ for i in range(self.config.decoder_layers)`
`131`	`131`	`)`
`132`	`132`	`),`
`133`	`133`	`]`
`@@ -143,7 +143,7 @@ def output_names(self):`
`143`	`143`	`f"present_key_cross_{i}",`
`144`	`144`	`f"present_value_cross_{i}",`
`145`	`145`	`)`
`146`		`- for i in range(self.config.num_hidden_layers)`
	`146`	`+ for i in range(self.config.decoder_layers)`
`147`	`147`	`)`
`148`	`148`	`),`
`149`	`149`	`]`
Original file line number	Diff line number	Diff line change
`@@ -94,14 +94,14 @@ def get_sample_past_key_values(`
`94`	`94`	`torch.rand(batch_size, num_heads, past_seq_len, head_size, device=device, dtype=torch_dtype),`
`95`	`95`	`torch.rand(batch_size, num_heads, past_seq_len, head_size, device=device, dtype=torch_dtype),`
`96`	`96`	`)`
`97`		`- for _ in range(config.num_hidden_layers)`
	`97`	`+ for _ in range(config.decoder_layers)`
`98`	`98`	`]`
`99`	`99`	`cross_attention_kv_caches = [`
`100`	`100`	`(`
`101`	`101`	`torch.rand(batch_size, num_heads, max_source_positions, head_size, device=device, dtype=torch_dtype),`
`102`	`102`	`torch.rand(batch_size, num_heads, max_source_positions, head_size, device=device, dtype=torch_dtype),`
`103`	`103`	`)`
`104`		`- for _ in range(config.num_hidden_layers)`
	`104`	`+ for _ in range(config.decoder_layers)`
`105`	`105`	`]`
`106`	`106`	`return flatten_past_key_values(self_attention_kv_caches, cross_attention_kv_caches)`
`107`	`107`
`@@ -187,7 +187,7 @@ def get_sample_QKs( # noqa: N802`
`187`	`187`	`torch.rand(`
`188`	`188`	`batch_size, num_heads, sequence_length, config.max_source_positions, device=device, dtype=torch_dtype`
`189`	`189`	`)`
`190`		`- for _ in range(config.num_hidden_layers)`
	`190`	`+ for _ in range(config.decoder_layers)`
`191`	`191`	`]`
`192`	`192`	`return QKs`
`193`	`193`
Original file line number	Diff line number	Diff line change
`@@ -156,7 +156,7 @@ def input_names(self):`
`156`	`156`	`"alignment_heads",`
`157`	`157`	`"sot_sequence_length",`
`158`	`158`	`"segment_length",`
`159`		`- *[f"cross_qk_{i}" for i in range(self.config.num_hidden_layers)],`
	`159`	`+ *[f"cross_qk_{i}" for i in range(self.config.decoder_layers)],`
`160`	`160`	`]`
`161`	`161`	`return input_names`
`162`	`162`