此模型是在ToTTo上进行Fine-tuned的版本。
这是一个有560M参数的版本。
ToTTo是一个开放领域的英文表格转文本数据集,其中包含超过120,000个训练示例,该数据集提供了一种受控的生成任务:给定一个维基百科表格和一组突出显示的表格单元格,生成一个句子描述。
在数据集创建过程中,使用英语维基百科的表格与(有噪声的)描述进行匹配。在描述中提到的每个表格单元格都会被突出显示,并且对描述进行迭代地清理和修正,以忠实地反映突出显示的单元格的内容。
Metric | Value |
---|---|
rouge1 | 0.56 |
rouge2 | 0.33 |
rougeL | 0.48 |
rougeLsum | 0.48 |
sacrebleu | 20.87 |
meteor | 0.49 |
from datasets import load_dataset from transformers import BloomTokenizerFast, BloomForCausalLM valid_dataset = load_dataset('totto', split='validation') from preprocess import preprocess # This file is included in the repo # Now we linearize the tables valid_dataset = valid_dataset.map(preprocess) model_ckpt = "mrm8488/bloom-560m-finetuned-totto-table-to-text" tokenizer = BloomTokenizerFast.from_pretrained(ckpt) model = BloomForCausalLM.from_pretrained(ckpt).to("cuda") def explain_hl_cells(text): inputs = tokenizer(text, return_tensors='pt') input_ids = inputs.input_ids.to("cuda") attention_mask = inputs.attention_mask.to("cuda") output = model.generate(input_ids, attention_mask=attention_mask, max_length=2048, eos_token_id=tokenizer.eos_token_id) return tokenizer.decode(output[0], skip_special_tokens=False) example = valid_dataset[1] print(explain_hl_cells(example['linearized_table'])
创建者: Narrativa
关于Narrativa:Narrativa是一家拥有国际认可的内容服务公司,利用其专有的人工智能和机器学习平台为企业构建和部署数字内容解决方案。其技术套件包括数据提取、数据分析、自然语言处理(NLP)和自然语言生成(NLG)工具,它们无缝协同工作,为各行业提供智能内容创作、自动化商业智能报告和流程优化产品。有关我们解决方案的更多信息,请联系我们!