模型:

IDEA-CCNL/Erlangshen-Ubert-110M-Chinese

任务:

填充掩码

类库:

PyTorch Transformers

语言:

其他:

bert NLU Sentiment Chinese AutoTrain Compatible

预印本库:

arxiv:2206.12094 arxiv:2209.02970

许可:

apache-2.0

模型介绍文件清单

英文

Erlangshen-Ubert-110M-Chinese

Main Page: Fengshenbang
Github: Fengshenbang-LM

简介简单介绍

采用统一的框架处理多种抽取任务，AIWIN2022的冠军方案，1.1亿参数量的中文UBERT-Base。

通过使用统一的框架来处理多个信息提取任务，AIWIN2022的冠军解决方案--中文UBERT-Base（110M参数）。

模型分类模型分类

需求 Demand	任务 Task	系列 Series	模型 Model	参数 Parameter	额外 Extra
通用 General	自然语言理解 NLU	二郎神 Erlangshen	UBERT	110M	中文 Chinese

模型信息模型信息

参考论文： Unified BERT for Few-shot Natural Language Understanding

UBERT是 2022年AIWIN世界人工智能创新大赛：中文保险小样本多任务竞赛的冠军解决方案。我们开发了一个基于类似BERT骨干的多任务、多目标、统一的抽取任务框架。我们的UBERT在比赛A榜和B榜上均取得了第一名。由于挑战赛结束后不再提供数据集，我们的开源UBERT使用了来自70多个任务的超过1,065,069个样本。我们选择 MacBERT-Base 作为骨干。除了开箱即用的功能外，我们的UBERT还可以应用于各种场景，如NLI、实体识别和阅读理解。示例代码可以在 Github 中找到。

UBERT是ABC挑战赛的冠军解决方案。我们基于BERT骨干开发了一个统一的框架，用于多个任务和目标。我们的UBERT在A榜和B榜上名列第一。在挑战赛中，由于数据集不可用，我们从多个任务中精心收集了超过70个数据集（共1,065,069个样本）用于开源UBERT。此外，我们使用 MacBERT-Base 作为骨干。除了开箱即用的功能外，我们的UBERT还可以应用于各种场景，例如NLI、实体识别和阅读理解。示例代码可以在 Github 中找到。

使用方法

在命令行中运行以下命令进行安装:

git clone https://github.com/IDEA-CCNL/Fengshenbang-LM.git
cd Fengshenbang-LM
pip install --editable ./

运行代码:

import argparse
from fengshen import UbertPipelines

total_parser = argparse.ArgumentParser("TASK NAME")
total_parser = UbertPipelines.pipelines_args(total_parser)
args = total_parser.parse_args()

args.pretrained_model_path = "IDEA-CCNL/Erlangshen-Ubert-110M-Chinese"

test_data=[
    {
        "task_type": "抽取任务", 
        "subtask_type": "实体识别", 
        "text": "这也让很多业主据此认为，雅清苑是政府公务员挤对了国家的经适房政策。", 
        "choices": [ 
            {"entity_type": "小区名字"}, 
            {"entity_type": "岗位职责"}
            ],
        "id": 0}
]

model = UbertPipelines(args)
result = model.predict(test_data)
for line in result:
    print(line)

引用引用

如果您在您的工作中使用了我们的模型，请引用我们的论文：

如果您在工作中使用了该资源，请引用我们的论文：

@article{fengshenbang/ubert,
  author    = {JunYu Lu and
               Ping Yang and
               Jiaxing Zhang and
               Ruyi Gan and
               Jing Yang},
  title     = {Unified {BERT} for Few-shot Natural Language Understanding},
  journal   = {CoRR},
  volume    = {abs/2206.12094},
  year      = {2022}
}

如果您在您的工作中使用了我们的模型，请引用我们的总论文：

如果您在工作中使用了该资源，请引用我们的 overview paper ：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站：

也可以参考我们的 website ：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}

作者:

Fengshenbang-LM

数据集大小:

392.06 MB

Erlangshen-Ubert-110M-Chinese

简介 简单介绍

模型分类 模型分类

模型信息 模型信息

使用 方法

引用 引用

简介简单介绍

模型分类模型分类

模型信息模型信息

使用方法

引用引用