keras-team · fchollet · Apr 12, 2024 · Apr 11, 2024 · Apr 11, 2024 · Apr 11, 2024
diff --git a/keras/backend/torch/layer.py b/keras/backend/torch/layer.py
@@ -13,8 +13,9 @@ def _post_build(self):
         self._track_variables()
 
     def _track_variables(self):
-        self.torch_params = torch.nn.ParameterList(
-            [variable.value for variable in self.variables]
+        # Index given to ParameterDict must be a string
+        self.torch_params = torch.nn.ParameterDict(
+            {str(id(variable)): variable.value for variable in self.variables}
         )
 
     def parameters(self, recurse=True):
@@ -38,3 +39,16 @@ def _setattr_hook(self, name, value):
             if not isinstance(self, TorchModuleWrapper):
                 value = TorchModuleWrapper(value)
         return name, value
+
+    def _post_track_variable(self, variable):
+        if hasattr(self, "torch_params"):
+            # Index given to ParameterDict must be a string
+            key = str(id(variable))
+            if key not in self.torch_params:
+                self.torch_params[key] = variable.value
+
+    def _post_untrack_variable(self, variable):
+        if hasattr(self, "torch_params"):
+            # Index given to ParameterDict must be a string
+            key = str(id(variable))
+            self.torch_params.pop(key)
diff --git a/keras/layers/attention/grouped_query_attention_test.py b/keras/layers/attention/grouped_query_attention_test.py
@@ -40,7 +40,7 @@ def test_basics(self):
             expected_output_shape=(2, 8, 16),
             expected_num_trainable_weights=4,
             expected_num_non_trainable_weights=0,
-            expected_num_seed_generators=0,
+            expected_num_seed_generators=1,
             expected_num_losses=0,
             supports_masking=True,
             run_training_check=False,

diff --git a/keras/layers/attention/multi_head_attention_test.py b/keras/layers/attention/multi_head_attention_test.py
@@ -44,7 +44,7 @@ def test_basics(self):
             expected_output_shape=(2, 8, 16),
             expected_num_trainable_weights=4,
             expected_num_non_trainable_weights=0,
-            expected_num_seed_generators=0,
+            expected_num_seed_generators=1,
             expected_num_losses=0,
             supports_masking=True,
             run_training_check=False,

diff --git a/keras/layers/core/dense_test.py b/keras/layers/core/dense_test.py
@@ -209,6 +209,8 @@ def test_enable_lora(self):
         layer.enable_lora(4)
         self.assertLen(layer.trainable_weights, 3)
         self.assertLen(layer.non_trainable_weights, 1)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 4)
         # Try eager call
         x = np.random.random((64, 8))
         y = np.random.random((64, 16))
@@ -434,6 +436,8 @@ def test_quantize_when_lora_enabled(self):
         layer.quantize("int8")
         self.assertLen(layer.trainable_weights, 3)
         self.assertLen(layer.non_trainable_weights, 2)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 5)
 
         # Try calling fit()
         init_lora_a_kernel_value = layer.lora_kernel_a.numpy()

diff --git a/keras/layers/core/einsum_dense_test.py b/keras/layers/core/einsum_dense_test.py
@@ -296,6 +296,8 @@ def test_enable_lora(self):
         layer.enable_lora(2)
         self.assertLen(layer.trainable_weights, 2)
         self.assertLen(layer.non_trainable_weights, 1)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 3)
         # Try eager call
         x = np.random.random((64, 3))
         y = np.random.random((64, 8, 32))
@@ -532,6 +534,8 @@ def test_quantize_when_lora_enabled(self):
         layer.quantize("int8")
         self.assertLen(layer.trainable_weights, 2)
         self.assertLen(layer.non_trainable_weights, 2)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 4)
 
         # Try calling fit()
         init_lora_a_kernel_value = layer.lora_kernel_a.numpy()

diff --git a/keras/layers/core/embedding_test.py b/keras/layers/core/embedding_test.py
@@ -121,6 +121,8 @@ def test_enable_lora(self):
         layer.enable_lora(4)
         self.assertLen(layer.trainable_weights, 2)
         self.assertLen(layer.non_trainable_weights, 1)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 3)
         # Try eager call
         x = np.random.randint(0, 9, size=(64, 3))
         y = np.random.random((64, 3, 16))
@@ -323,6 +325,8 @@ def test_quantize_when_lora_enabled(self):
         layer.quantize("int8")
         self.assertLen(layer.trainable_weights, 2)
         self.assertLen(layer.non_trainable_weights, 2)
+        if backend.backend() == "torch":
+            self.assertLen(layer.torch_params, 4)
 
         # Try calling fit()
         init_lora_a_embeddings_value = layer.lora_embeddings_a.numpy()

diff --git a/keras/layers/layer.py b/keras/layers/layer.py
@@ -1203,13 +1203,15 @@ def _track_variable(self, variable):
             self._tracker.add_to_store("non_trainable_variables", variable)
         if not self.trainable:
             variable.trainable = False
+        self._post_track_variable(variable)
 
     def _untrack_variable(self, variable):
         previous_lock_state = self._tracker.locked
         self._tracker.unlock()
         self._tracker.untrack(variable)
         if previous_lock_state is True:
             self._tracker.lock()
+        self._post_untrack_variable(variable)
 
     def add_metric(self):
         # Permanently disabled

diff --git a/keras/layers/preprocessing/discretization.py b/keras/layers/preprocessing/discretization.py
@@ -147,7 +147,6 @@ def __init__(
         self.sparse = sparse
 
         if self.bin_boundaries:
-            self.built = True
             self.summary = None
         else:
             self.summary = np.array([[], []], dtype="float32")

diff --git a/keras/layers/regularization/alpha_dropout.py b/keras/layers/regularization/alpha_dropout.py
@@ -43,9 +43,9 @@ def __init__(self, rate, noise_shape=None, seed=None, **kwargs):
         self.rate = rate
         self.seed = seed
         self.noise_shape = noise_shape
-        self.seed_generator = backend.random.SeedGenerator(seed)
+        if rate > 0:
+            self.seed_generator = backend.random.SeedGenerator(seed)
         self.supports_masking = True
-        self.built = True
 
     def call(self, inputs, training=False):
         if training and self.rate > 0:

diff --git a/keras/layers/regularization/dropout.py b/keras/layers/regularization/dropout.py
@@ -52,7 +52,6 @@ def __init__(self, rate, noise_shape=None, seed=None, **kwargs):
         if rate > 0:
             self.seed_generator = backend.random.SeedGenerator(seed)
         self.supports_masking = True
-        self.built = True
 
     def call(self, inputs, training=False):
         if training and self.rate > 0:

diff --git a/keras/layers/regularization/gaussian_dropout.py b/keras/layers/regularization/gaussian_dropout.py
@@ -34,7 +34,8 @@ def __init__(self, rate, seed=None, **kwargs):
             )
         self.rate = rate
         self.seed = seed
-        self.seed_generator = backend.random.SeedGenerator(seed)
+        if rate > 0:
+            self.seed_generator = backend.random.SeedGenerator(seed)
         self.supports_masking = True
 
     def call(self, inputs, training=False):

diff --git a/keras/layers/regularization/gaussian_noise.py b/keras/layers/regularization/gaussian_noise.py
@@ -35,7 +35,8 @@ def __init__(self, stddev, seed=None, **kwargs):
             )
         self.stddev = stddev
         self.seed = seed
-        self.seed_generator = backend.random.SeedGenerator(seed)
+        if stddev > 0:
+            self.seed_generator = backend.random.SeedGenerator(seed)
         self.supports_masking = True
 
     def call(self, inputs, training=False):

diff --git a/keras/layers/rnn/stacked_rnn_cells_test.py b/keras/layers/rnn/stacked_rnn_cells_test.py
@@ -95,7 +95,7 @@ def test_basics(self):
             expected_output_shape=(2, 3, 5),
             expected_num_trainable_weights=9,
             expected_num_non_trainable_weights=0,
-            expected_num_seed_generators=0,
+            expected_num_seed_generators=3,
             supports_masking=True,
         )
         self.run_layer_test(
@@ -112,7 +112,7 @@ def test_basics(self):
             expected_output_shape=(2, 3, 5),
             expected_num_trainable_weights=9,
             expected_num_non_trainable_weights=0,
-            expected_num_seed_generators=0,
+            expected_num_seed_generators=3,
             supports_masking=True,
         )
         self.run_layer_test(
@@ -129,7 +129,7 @@ def test_basics(self):
             expected_output_shape=(2, 3, 5),
             expected_num_trainable_weights=9,
             expected_num_non_trainable_weights=0,
-            expected_num_seed_generators=0,
+            expected_num_seed_generators=3,
             supports_masking=True,
         )
 

diff --git a/keras/ops/operation.py b/keras/ops/operation.py
@@ -280,3 +280,11 @@ def _post_build(self):
     def _setattr_hook(self, name, value):
         """Can be overridden for per backend post build actions."""
         return name, value
+
+    def _post_track_variable(self, variable):
+        """Can be overridden for per backend post track actions."""
+        pass
+
+    def _post_untrack_variable(self, variable):
+        """Can be overridden for per backend post untrack actions."""
+        pass
diff --git a/keras/random/seed_generator.py b/keras/random/seed_generator.py
@@ -6,6 +6,7 @@
 from keras.api_export import keras_export
 from keras.backend.common import global_state
 from keras.utils import jax_utils
+from keras.utils.naming import auto_name
 
 
 @keras_export("keras.random.SeedGenerator")
@@ -44,7 +45,11 @@ def call(self, x, training=False):
     ```
     """
 
-    def __init__(self, seed=None, **kwargs):
+    def __init__(self, seed=None, name=None, **kwargs):
+        if name is None:
+            name = auto_name(self.__class__.__name__)
+        self.name = name
+
         custom_backend = kwargs.pop("backend", None)
         if kwargs:
             raise ValueError(f"Unrecognized keyword arguments: {kwargs}")
@@ -66,13 +71,14 @@ def seed_initializer(*args, **kwargs):
             dtype = kwargs.get("dtype", None)
             return self.backend.convert_to_tensor([seed, 0], dtype=dtype)
 
-        self.state = self.backend.Variable(
-            seed_initializer,
-            shape=(2,),
-            dtype="uint32",
-            trainable=False,
-            name="seed_generator_state",
-        )
+        with backend.name_scope(self.name, caller=self):
+            self.state = self.backend.Variable(
+                seed_initializer,
+                shape=(2,),
+                dtype="uint32",
+                trainable=False,
+                name="seed_generator_state",
+            )
 
     def next(self, ordered=True):
         seed_state = self.state

diff --git a/keras/testing/test_case.py b/keras/testing/test_case.py
@@ -291,9 +291,22 @@ def run_build_asserts(layer):
                 )
             if expected_num_seed_generators is not None:
                 self.assertLen(
-                    layer._seed_generators,
+                    get_seed_generators(layer),
                     expected_num_seed_generators,
-                    msg="Unexpected number of _seed_generators",
+                    msg="Unexpected number of seed_generators",
+                )
+            if (
+                backend.backend() == "torch"
+                and expected_num_trainable_weights is not None
+                and expected_num_non_trainable_weights is not None
+                and expected_num_seed_generators is not None
+            ):
+                self.assertLen(
+                    layer.torch_params,
+                    expected_num_trainable_weights
+                    + expected_num_non_trainable_weights
+                    + expected_num_seed_generators,
+                    msg="Unexpected number of torch_params",
                 )
 
         def run_output_asserts(layer, output, eager=False):
@@ -662,3 +675,15 @@ def map_shape_dtype_structure(fn, shape, dtype):
         raise ValueError(
             f"Cannot map function to unknown objects {shape} and {dtype}"
         )
+
+
+def get_seed_generators(layer):
+    """Get a List of all seed generators in the layer recursively."""
+    seed_generators = []
+    seen_ids = set()
+    for sublayer in layer._flatten_layers(True, True):
+        for sg in sublayer._seed_generators:
+            if id(sg) not in seen_ids:
+                seed_generators.append(sg)
+                seen_ids.add(id(sg))
+    return seed_generators