这个仓库是为了 Huggingface 的 Flax/Jax 社区周而创建的。这个项目的目标是使用 GPT-2 针对泰米尔语进行预训练语言模型。
要设置该项目,请运行以下命令,
pip install -r requirements.txt
使用因果关系语言建模 (CLM) 目标在泰米尔语上的预训练模型。
GPT-2 模型在 oscar dataset - ta 和 IndicNLP dataset - ta 上进行训练
您可以使用原始模型进行下一句预测,但它主要用于在下游任务上进行微调。查看 model hub ,以查找对您感兴趣的任务进行微调的预训练版本。
执行以下步骤进行训练,
>>> export MODEL_DIR=<model_dir>
>>> python src/create_config.py
>>> python src/train_tokenizer.py
>>> python scripts/train_gpt2-oscar-tamil.sh
要使用模型进行语言生成,可以直接使用 pipeline。
python src/convert_flax_to_pytorch.py
>>> from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline >>> model_name = 'abinayam/gpt-2-tamil' >>> model = AutoModelWithLMHead.from_pretrained(model_name) >>> tokenizer = AutoTokenizer.from_pretrained(model_name) >>> set_seed(42) >>> input_text = "ஒரு ஊரிலே ஒரு காக்கைக்கு" >>> max_len = 300 >>> no_seq = 5 >>> generator = pipeline('text-generation', model=model, tokenizer=tokenizer) >>> sequence = generator(input_text, max_length=max_len, num_return_sequences=no_seq)