mosaicml
diff --git a/‎composer/core/state.py‎
Lines changed: 0 additions & 1 deletion b/‎composer/core/state.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎composer/datasets/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎composer/datasets/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎composer/datasets/glue.py‎
Lines changed: 120 additions & 0 deletions b/‎composer/datasets/glue.py‎
Lines changed: 120 additions & 0 deletions
diff --git a/‎composer/datasets/lm_datasets.py‎
Lines changed: 37 additions & 9 deletions b/‎composer/datasets/lm_datasets.py‎
Lines changed: 37 additions & 9 deletions
diff --git a/‎composer/models/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎composer/models/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎composer/models/bert/__init__.py‎
Lines changed: 5 additions & 0 deletions b/‎composer/models/bert/__init__.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎composer/models/bert/bert_hparams.py‎
Lines changed: 90 additions & 0 deletions b/‎composer/models/bert/bert_hparams.py‎
Lines changed: 90 additions & 0 deletions
@@ -276,7 +276,6 @@ def load_model_state(self, state_dict: types.StateDict, strict: bool):
         """
         if state_dict["_is_model_ddp_wrapped"] and not isinstance(self.model, DistributedDataParallel):
             torch.nn.modules.utils.consume_prefix_in_state_dict_if_present(state_dict['model'], "module.")
-
             missing_keys, unexpected_keys = self.model.load_state_dict(state_dict['model'], strict=strict)
             if len(missing_keys) > 0:
                 logger.warning(f"Found these missing keys in the checkpoint: {', '.join(missing_keys)}")
 
@@ -5,6 +5,7 @@
 from composer.datasets.dataloader import DataloaderHparams as DataloaderHparams
 from composer.datasets.dataloader import DDPDataLoader as DDPDataLoader
 from composer.datasets.dataloader import WrappedDataLoader as WrappedDataLoader
+from composer.datasets.glue import GLUEHparams as GLUEHparams
 from composer.datasets.hparams import DatasetHparams as DatasetHparams
 from composer.datasets.hparams import SyntheticHparamsMixin as SyntheticHparamsMixin
 from composer.datasets.imagenet import ImagenetDatasetHparams as ImagenetDatasetHparams
 
@@ -0,0 +1,120 @@
+# Copyright 2021 MosaicML. All Rights Reserved.
+
+import logging
+from dataclasses import dataclass
+from multiprocessing import cpu_count
+
+import yahp as hp
+
+from composer.core import DataSpec
+from composer.datasets.dataloader import DataloaderHparams
+from composer.datasets.hparams import DatasetHparams
+from composer.datasets.lm_datasets import _split_dict_fn
+from composer.utils import dist
+
+log = logging.getLogger(__name__)
+
+
+@dataclass
+class GLUEHparams(DatasetHparams):
+    """
+    Sets up a generic GLUE dataset loader.
+
+    Args:
+        task (str): the GLUE task to train on, choose one from: CoLA, MNLI, MRPC, QNLI, QQP, RTE, SST-2, and STS-B.
+        tokenizer_name (str): The name of the HuggingFace tokenizer to preprocess text with.
+        split (str): Whether to use 'train', 'validation' or 'test' split.
+        max_seq_length (int): Optionally, the ability to set a custom sequence length for the training dataset.
+            Default: 256
+
+    Returns:
+        A :class:`~composer.core.DataSpec` object
+    """
+
+    task: str = hp.optional(
+        "The GLUE task to train on, choose one from: CoLA, MNLI, MRPC, QNLI, QQP, RTE, SST-2, and STS-B.", default=None)
+    tokenizer_name: str = hp.optional("The name of the tokenizer to preprocess text with.", default=None)
+    split: str = hp.optional("Whether to use 'train', 'validation' or 'test' split.", default=None)
+    max_seq_length: int = hp.optional(
+        default=256, doc='Optionally, the ability to set a custom sequence length for the training dataset.')
+
+    def validate(self):
+        self.task_to_keys = {
+            "cola": ("sentence", None),
+            "mnli": ("premise", "hypothesis"),
+            "mrpc": ("sentence1", "sentence2"),
+            "qnli": ("question", "sentence"),
+            "qqp": ("question1", "question2"),
+            "rte": ("sentence1", "sentence2"),
+            "sst2": ("sentence", None),
+            "stsb": ("sentence1", "sentence2"),
+        }
+
+        if self.task not in self.task_to_keys.keys():
+            raise ValueError(f"The task must be a valid GLUE task, options are {' ,'.join(self.task_to_keys.keys())}.")
+
+        if (self.max_seq_length % 8) != 0:
+            log.warning("For best hardware acceleration, it is recommended that sequence lengths be multiples of 8.")
+
+        if self.tokenizer_name is None:
+            raise ValueError("A tokenizer name must be specified to tokenize the dataset.")
+
+        if self.split is None:
+            raise ValueError("A dataset split must be specified.")
+
+    def initialize_object(self, batch_size: int, dataloader_hparams: DataloaderHparams) -> DataSpec:
+        # TODO (Moin): I think this code is copied verbatim in a few different places. Move this into a function.
+        try:
+            import datasets
+            import transformers
+        except ImportError:
+            raise ImportError('huggingface transformers and datasets are not installed. '
+                              'Please install with `pip install mosaicml-composer[nlp]`')
+
+        self.validate()
+        self.tokenizer = transformers.AutoTokenizer.from_pretrained(self.tokenizer_name)  #type: ignore (thirdparty)
+
+        log.info(f"Loading {self.task.upper()}...")
+        self.dataset = datasets.load_dataset("glue", self.task, split=self.split)
+
+        n_cpus = cpu_count()
+        log.info(f"Starting tokenization step by preprocessing over {n_cpus} threads!")
+        text_column_names = self.task_to_keys[self.task]
+
+        def tokenize_function(inp):
+            # truncates sentences to max_length or pads them to max_length
+
+            first_half = inp[text_column_names[0]]
+            second_half = inp[text_column_names[1]] if text_column_names[1] in inp else None
+            return self.tokenizer(
+                text=first_half,
+                text_pair=second_half,
+                padding="max_length",
+                max_length=self.max_seq_length,
+                truncation=True,
+            )
+
+        columns_to_remove = ["idx"] + [i for i in text_column_names if i is not None]
+        assert isinstance(self.dataset, datasets.Dataset)
+        dataset = self.dataset.map(
+            tokenize_function,
+            batched=True,
+            num_proc=n_cpus,
+            batch_size=1000,
+            remove_columns=columns_to_remove,
+            new_fingerprint=f"{self.task}-tokenization-{self.split}",
+            load_from_cache_file=True,
+        )
+
+        data_collator = transformers.data.data_collator.default_data_collator
+        sampler = dist.get_sampler(dataset, drop_last=self.drop_last, shuffle=self.shuffle)
+
+        return DataSpec(
+            dataloader=dataloader_hparams.initialize_object(
+                dataset=dataset,  #type: ignore (thirdparty)
+                batch_size=batch_size,
+                sampler=sampler,
+                drop_last=self.drop_last,
+                collate_fn=data_collator,
+            ),
+            split_batch=_split_dict_fn)
@@ -28,38 +28,65 @@ def _split_dict_fn(batch: Batch, n_microbatches: int) -> List[Batch]:
 @dataclass
 class LMDatasetHparams(DatasetHparams):
     """
-    Defines a generic dataset class for autoregressive language models.
+    Defines a generic dataset class for autoregressive and masked language models trained with self-supervised learning.
     """
 
     # TODO(moin): Switch datadir to be a string, rather than a list of strings, to be similar to the
     # other datasets
     datadir: List[str] = hp.optional(  # type: ignore
         "Path to the Huggingface Datasets directory.", default_factory=list)
+
     split: Optional[str] = hp.optional("Whether to use 'train', 'validation' or 'test' split.", default=None)
     tokenizer_name: Optional[str] = hp.optional("The name of the tokenizer to preprocess text with.", default=None)
+    use_masked_lm: bool = hp.optional("Whether the dataset shoud be encoded with masked language modeling or not.",
+                                      default=None)
     num_tokens: int = hp.optional(doc='If desired, the number of tokens to truncate the dataset to.', default=0)
+    mlm_probability: float = hp.optional("If using masked language modeling, the probability to mask tokens with.",
+                                         default=0.15)
     seed: int = hp.optional("Which seed to use to generate train and validation splits.", default=5)
     subsample_ratio: float = hp.optional(default=1.0, doc='If desired, the percentage of the dataset to use.')
     train_sequence_length: int = hp.optional(
         default=1024, doc='Optionally, the ability to set a custom sequence length for the training dataset.')
     val_sequence_length: int = hp.optional(
         default=1024, doc='Optionally, the ability to set a custom sequence length for the validation dataset.')
 
+    def validate(self):
+        if self.datadir is None:
+            raise ValueError("A data directory must be specified.")
+
+        if self.split not in ['train', 'validation', 'test']:
+            raise ValueError("The dataset split must be one of 'train', 'validation', or 'test'.")
+
+        if self.tokenizer_name is None:
+            raise ValueError("A tokenizer name must be specified to tokenize the dataset.")
+
+        if self.use_masked_lm is None:
+            raise ValueError("To determine masking, use_masked_lm must be specified.")
+
+        if self.use_masked_lm:
+            if self.mlm_probability <= 0.0:
+                raise ValueError(
+                    "If using Masked Language Modeling, you must replace tokens with a non-zero probability.")
+
+        if self.num_tokens > 0 and self.subsample_ratio < 1.0:
+            raise Exception("Must specify one of num_tokens OR subsample_ratio, cannot specify both.")
+
+        if (self.train_sequence_length % 8 != 0) or (self.val_sequence_length % 8 != 0):
+            log.warning("For best hardware acceleration, it is recommended that sequence lengths be multiples of 8.")
+
     def initialize_object(self, batch_size: int, dataloader_hparams: DataloaderHparams) -> DataSpec:
         try:
             import datasets
             import transformers
         except ImportError as e:
             raise ImportError('huggingface transformers and datasets are not installed. '
                               'Please install with `pip install mosaicml-composer[nlp]`') from e
+
+        self.validate()
         self.tokenizer = transformers.AutoTokenizer.from_pretrained(self.tokenizer_name)  #type: ignore (thirdparty)
         self.config = transformers.AutoConfig.from_pretrained(self.tokenizer_name)  #type: ignore (thirdparty)
         lm_datasets = [datasets.load_from_disk(i) for i in self.datadir]  #type: ignore (thirdparty)
 
-        # TODO: this re-loads a large dataset into memory three times
-        if self.split not in ['train', 'validation', 'test']:
-            raise ValueError("The dataset split must be one of 'train', 'validation', or 'test'.")
-
         # merge the dataset to re-sample from
         if self.split is None:
             raise ValueError("split is required")
@@ -74,9 +101,6 @@ def initialize_object(self, batch_size: int, dataloader_hparams: DataloaderHpara
         # shuffle the dataset
         lm_datasets = lm_datasets.shuffle(indices_cache_file_name=indices_cache_file_name, seed=self.seed)
 
-        if self.num_tokens > 0 and self.subsample_ratio < 1.0:
-            raise Exception("Must specify one of num_tokens OR subsample_ratio, cannot specify both.")
-
         total_num_samples = len(lm_datasets)
         tokens_per_sample = len(lm_datasets[0]['input_ids'])
         total_num_tokens = total_num_samples * tokens_per_sample
@@ -91,6 +115,8 @@ def initialize_object(self, batch_size: int, dataloader_hparams: DataloaderHpara
         elif self.subsample_ratio < 1.0:
             num_samples = round(total_num_samples * self.subsample_ratio)
             self.num_tokens = num_samples * tokens_per_sample
+        elif self.subsample_ratio == 1.0 and self.num_tokens == 0:
+            self.num_tokens = total_num_tokens
         else:
             log.warning("No subsampling going on!")
 
@@ -100,8 +126,10 @@ def initialize_object(self, batch_size: int, dataloader_hparams: DataloaderHpara
         log.info(f"Total number of samples: {num_samples:e}")
         log.info(f"Total number of tokens: {self.num_tokens:e}")
         dataset = lm_datasets
-        data_collator = transformers.default_data_collator
 
+        data_collator = transformers.DataCollatorForLanguageModeling(tokenizer=self.tokenizer,
+                                                                     mlm=self.use_masked_lm,
+                                                                     mlm_probability=self.mlm_probability)
         sampler = dist.get_sampler(dataset, drop_last=self.drop_last, shuffle=self.shuffle)
 
         return DataSpec(dataloader=dataloader_hparams.initialize_object(
 
@@ -2,6 +2,9 @@
 
 from composer.models.base import BaseMosaicModel as BaseMosaicModel
 from composer.models.base import MosaicClassifier as MosaicClassifier
+from composer.models.bert import BERTForClassificationHparams as BERTForClassificationHparams
+from composer.models.bert import BERTHparams as BERTHparams
+from composer.models.bert import BERTModel as BERTModel
 from composer.models.classify_mnist import MNIST_Classifier as MNIST_Classifier
 from composer.models.classify_mnist import MnistClassifierHparams as MnistClassifierHparams
 from composer.models.efficientnetb0 import EfficientNetB0 as EfficientNetB0
 
@@ -0,0 +1,5 @@
+# Copyright 2021 MosaicML. All Rights Reserved.
+
+from composer.models.bert.bert_hparams import BERTForClassificationHparams as BERTForClassificationHparams
+from composer.models.bert.bert_hparams import BERTHparams as BERTHparams
+from composer.models.bert.model import BERTModel as BERTModel
@@ -0,0 +1,90 @@
+# Copyright 2021 MosaicML. All Rights Reserved.
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+import yahp as hp
+
+from composer.models.transformer_hparams import TransformerHparams
+
+if TYPE_CHECKING:
+    from composer.models.transformer_shared import MosaicTransformer
+
+
+@dataclass
+class BERTForClassificationHparams(TransformerHparams):
+    num_labels: int = hp.optional(doc="The number of possible labels for the task.", default=2)
+
+    def validate(self):
+        if self.num_labels < 1:
+            raise ValueError("The number of target labels must be at least one.")
+
+    def initialize_object(self) -> "MosaicTransformer":
+        try:
+            import transformers
+        except ImportError as e:
+            raise ImportError('transformers is not installed. '
+                              'Please install with `pip install mosaicml-composer[nlp]`') from e
+
+        from composer.models.bert.model import BERTModel
+        self.validate()
+
+        model_hparams = {"num_labels": self.num_labels}
+
+        if self.model_config:
+            config = transformers.BertConfig.from_dict(self.model_config, **model_hparams)
+        elif self.pretrained_model_name is not None:
+            config = transformers.BertConfig.from_pretrained(self.pretrained_model_name, **model_hparams)
+        else:
+            raise ValueError('One of pretrained_model_name or model_config needed.')
+        config.num_labels = self.num_labels
+
+        if self.use_pretrained:
+            # TODO (Moin): handle the warnings on not using the seq_relationship head
+            model = transformers.AutoModelForSequenceClassification.from_pretrained(self.pretrained_model_name,
+                                                                                    **model_hparams)
+        else:
+            model = transformers.AutoModelForSequenceClassification.from_config(  #type: ignore (thirdparty)
+                config, **model_hparams)
+
+        return BERTModel(
+            module=model,
+            config=config,  #type: ignore (thirdparty)
+            tokenizer_name=self.tokenizer_name,
+        )
+
+
+@dataclass
+class BERTHparams(TransformerHparams):
+
+    def initialize_object(self) -> "MosaicTransformer":
+        try:
+            import transformers
+        except ImportError as e:
+            raise ImportError('transformers is not installed. '
+                              'Please install with `pip install mosaicml-composer[nlp]`') from e
+
+        from composer.models.bert.model import BERTModel
+        self.validate()
+
+        if self.model_config:
+            config = transformers.BertConfig.from_dict(self.model_config)
+        elif self.pretrained_model_name is not None:
+            config = transformers.BertConfig.from_pretrained(self.pretrained_model_name)
+        else:
+            raise ValueError('One of pretrained_model_name or model_config needed.')
+
+        # set the number of labels ot the vocab size, used for measuring MLM accuracy
+        config.num_labels = config.vocab_size
+
+        if self.use_pretrained:
+            # TODO (Moin): handle the warnings on not using the seq_relationship head
+            model = transformers.AutoModelForMaskedLM.from_pretrained(self.pretrained_model_name)
+        else:
+            model = transformers.AutoModelForMaskedLM.from_config(config)  #type: ignore (thirdparty)
+
+        return BERTModel(
+            module=model,
+            config=config,  #type: ignore (thirdparty)
+            tokenizer_name=self.tokenizer_name,
+        )