如何训练BERT来完成掩码语言建模任务

2023年10月20日由 alex 发表 1298 0

介绍

近年来，大型语言模型(LLM)已经引起了机器学习社区的所有关注。在LLM进入之前，我们对各种语言建模技术有一个关键的研究阶段，包括掩码语言建模、因果语言建模和序列到序列语言建模。

像BERT这样的屏蔽语言模型在下游的NLP任务中变得更有用，比如分类和聚类。多亏了诸如hugs Face Transformers之类的库，将这些模型用于下游任务变得更容易访问和管理。同样要感谢开源社区，我们有大量的语言模型可供选择，涵盖了广泛使用的语言和领域。

微调还是从头开始构建?

当将现有的语言模型调整到你的特定用例时，有时我们可以使用现有的模型而无需进一步调优(所谓的微调)。例如，如果你想要一个英语情感/意图检测模型，你可以进入HuggingFace。为你的用例找到合适的模型。

然而，对于现实世界中遇到的一些任务，你只能期望这样做。这就需要一种叫做微调的额外技术。首先，你必须选择一个将进行微调的基本模型。在这里，你必须小心选择的模型和目标语言的词汇相似性。

但是，如果你找不到对所需语言进行再训练的合适模型，请考虑从头构建一个。在本文中，我们将为掩码语言模型实现BERT模型。

BERT架构

尽管描述BERT体系结构超出了本教程的范围，但为了清晰起见，让我们对其进行非常狭窄的讨论。BERT，即变压器的双向编码器表示，属于纯编码器变压器系列。它是由谷歌的研究人员于2018年推出的。

论文摘要:

我们引入了一种新的语言表示模型BERT，它代表来自变形金刚的双向编码器表示。与最近的语言表示模型不同，BERT旨在通过在所有层中对左右上下文进行联合条件反射，从未标记的文本中预训练深度双向表示。因此，预训练的BERT模型可以通过一个额外的输出层进行微调，从而为广泛的任务(如问答和语言推理)创建最先进的模型，而无需对特定于任务的架构进行大量修改。

BERT在概念上简单，经验上强大。它在11个自然语言处理任务上获得了新的最先进的结果，包括将GLUE得分提高到80.5%(绝对提高7.7%)，将多项准确性提高到86.7%(绝对提高4.6%)，将SQuAD v1.1问答测试F1提高到93.2(绝对提高1.5分)和SQuAD v2.0测试F1提高到83.1(绝对提高5.1分)。

在上面，我们可以看到一个有趣的关键字，双向。双向性赋予BERT类似人类的能力。假设你必须像下面这样填写一个空格，

“战争有时可能是必要之恶。但无论多么必要，它总是一个_____，从来没有一个好。”

要猜出单词出现在空白位置，你应该注意几件事:空格前的单词，空格后的单词，以及句子的整体上下文。为了适应这种人性，BERT以同样的方式工作。在训练过程中，我们隐藏了一些单词，并要求BERT尝试预测这些单词。当训练完成后，BERT可以根据单词的前后来预测掩码。要做到这一点，模型应该对输入序列中呈现的单词分配不同的注意力，这可能会显著影响对掩码令牌的预测。

正如你在这里看到的，这个模型认为一个适合隐藏位置的词是邪恶的，而第一个句子的邪恶是做出这个预测所必需的。这是一个值得注意的点，意味着模型理解输入序列的上下文。这种上下文感知允许BERT为给定任务生成有意义的句子嵌入。此外，这些嵌入可以用于下游任务，如聚类和分类。BERT说得够多了;让我们从头开始构建一个。

定义BERT模型

我们通常有BERT(基数)和BERT(基数)。每个人头都有64个维度。大版本包含24层编码器，而基本版本只有12层。然而，我们并不局限于这些配置。令人惊讶的是，我们可以完全控制使用hugs Face Transformers库来定义模型。我们所要做的就是使用BertConfig类定义所需的模型配置。

我选择了6个头部和384个总模型尺寸，以符合原来的实现。这样，每个头部都有64个维度，与最初的实现类似。让我们初始化BERT模型。

from transformers import BertConfig, BertForMaskedLM
config = BertConfig(
    hidden_size = 384,
    vocab_size= tokenizer.vocab_size,
    num_hidden_layers = 6,
    num_attention_heads = 6,
    intermediate_size = 1024,
    max_position_embeddings = 256
)
model = BertForMaskedLM(config=config)
print(model.num_parameters()) #10457864

训练标记器

在这里，我不会描述标记化是如何工作的。相反，让我们使用hugs Face tokenizers库从头开始训练一个。

这里使用的数据集是Sinhala-400M数据集(在apache-2.0下)。你可以对你拥有的任何数据集遵循相同的方法。

正如你可能注意到的，一些僧伽罗语的单词也是用英语输入的。让我们为这些语料库训练一个标记器。

让我们首先导入必要的模块。使用hug Face tokenizers库训练tokenizers的好处是，我们可以使用现有的tokenizers，并根据我们的训练语料库只替换词汇表(并在适用的地方合并)。这意味着标记化步骤，如预标记化和后标记化将被保留。为此，我们可以使用方法train_new_from_iterator BertTokenizer class。

from tokenizers.implementations import ByteLevelBPETokenizer
from tokenizers.processors import BertProcessing
from transformers import AutoTokenizer
from datasets import Dataset
import pandas as pd
#load base tokenizer to train on dataset
tokenizer_base = AutoTokenizer.from_pretrained("bert-base-cased")
# convert pandas dataset to HF dataset
dataset = Dataset.from_pandas(df.rename(columns={"comment":'text'}))
# define iterator
training_corpus = (
    dataset[i : i + 1000]["text"]
    for i in range(0, len(dataset), 1000)
)

#train the new tokenizer for dataset
tokenizer = tokenizer_base.train_new_from_iterator(training_corpus, 5000)
#test trained tokenizer for sample text
text = dataset['text'][123]
print(text)

# let's check tokenization process
input_ids = tokenizer(text).input_ids
subword_view = [tokenizer.convert_ids_to_tokens(id) for id in input_ids]
np.array(subword_view)

你可以看到像“cricketer”这样的词被分解成cricket和##er，这表明标记器已经经过了充分的训练。然而，尝试不同的词汇量;我的是5000，它相对较小，但适合这个玩具示例。

最后，我们可以将训练好的标记器保存到目录中。

tokenizer.save_pretrained("tokenizer/sinhala-wordpiece-yt-comments")

定义数据整理器并标记数据集

让我们为传销任务定义一个排序器。在这里，我们将屏蔽15%的代币。不管怎样，我们可以设置不同的掩蔽概率。

from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

让我们使用之前创建的标记器对数据集进行标记。我正在使用我的自定义类使用拥抱脸加速取代原来的LineByLineTextDataset。

import torch
from torch.utils.data import Dataset
from accelerate import Accelerator, DistributedType
class LineByLineTextDataset(Dataset):
    def __init__(self, tokenizer, raw_datasets, max_length: int):
        self.padding = "max_length"
        self.text_column_name = 'text'
        self.max_length = max_length
        self.accelerator = Accelerator(gradient_accumulation_steps=1)
        self.tokenizer = tokenizer
        with self.accelerator.main_process_first():
            self.tokenized_datasets = raw_datasets.map(
                self.tokenize_function,
                batched=True,
                num_proc=4,
                remove_columns=[self.text_column_name],
                desc="Running tokenizer on dataset line_by_line",
            )
            self.tokenized_datasets.set_format('torch',columns=['input_ids'],dtype=torch.long)
            
    def tokenize_function(self,examples):
        examples[self.text_column_name] = [
            line for line in examples[self.text_column_name] if len(line[0]) > 0 and not line[0].isspace()
        ]
        return self.tokenizer(
            examples[self.text_column_name],
            padding=self.padding,
            truncation=True,
            max_length=self.max_length,
            return_special_tokens_mask=True,
        )
    def __len__(self):
        return len(self.tokenized_datasets)
    def __getitem__(self, i):
        return self.tokenized_datasets[i]

让我们对数据集进行标记。

tokenized_dataset_train = LineByLineTextDataset(
    tokenizer= tokenizer,
    raw_datasets = dataset,
    max_length=256,
)

好了，让我们来编写训练循环。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
    output_dir="./model",
    overwrite_output_dir=True,
    push_to_hub=True,
    hub_model_id="Ransaka/sinhala-bert-yt-comments",
    num_train_epochs=2,
    per_device_train_batch_size=32,
    save_steps=5_000,
    logging_steps = 1000,
    save_total_limit=2,
    use_mps_device = True, # disable this if you're running non-mac env
    hub_private_repo = False, # please set true if you want to save model privetly
    save_safetensors= True,
    learning_rate = 1e-4,
    report_to='wandb'
)
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=tokenized_dataset_train
)trainer.train()

我们可以使用训练器的train()方法来调用它。

trainer.train()

经过充分的训练，我们的模型可以用于下游的任务，如零射击分类和聚类。

结论

在资源有限的情况下，预训练的模型可能只能识别特定的语言模式，但它们仍然可以对特定的用例有所帮助。强烈建议在可能的情况下进行微调。

文章来源：https://medium.com/towards-data-science/how-to-train-bert-for-masked-language-modeling-tasks-3ccce07c6fdc

标签：

机器学习 python

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇自动文本数据提取和表格填写系统

下一篇如何利用ChatGPT Voice提高你的语言水平

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来