语言模型:gbert-base-germandpr-reranking 语言:德语 训练数据:GermanDPR训练集(约56MB) 评估数据:GermanDPR测试集(约6MB) 基础设施:1x V100 GPU 发布日期:2021年6月3日
batch_size = 16 n_epochs = 2 max_seq_len = 512 tokens for question and passage concatenated learning_rate = 2e-5 lr_schedule = LinearWarmup embeds_dropout_prob = 0.1
我们使用GermanDPR测试数据集作为标签,并运行两个实验来比较BM25检索器在是否使用我们的模型进行重新排序时的性能。第一个实验在完整的德语维基百科上进行检索(超过200万段落),第二个实验只在GermanDPR数据集上进行检索(不超过5000段落)。两个实验都使用1025个查询。请注意,由于较小的数据集大小,第二个实验评估了一个更简单的任务,这解释了强大的BM25检索性能。
没有重新排序的BM25检索器
带有重新排序的BM25检索器前10个文档
没有重新排序的BM25检索器
带有重新排序的BM25检索器前10个文档
您可以在 haystack 中加载模型,用于重新排序Retriever返回的文档:
... retriever = ElasticsearchRetriever(document_store=document_store) ranker = FARMRanker(model_name_or_path="deepset/gbert-base-germandpr-reranking") ... p = Pipeline() p.add_node(component=retriever, name="ESRetriever", inputs=["Query"]) p.add_node(component=ranker, name="Ranker", inputs=["ESRetriever"]) )
我们通过开源方式将NLP引入到行业中!我们的重点是行业特定的语言模型和大规模问答系统。
我们的一些工作:
联系我们: Twitter | LinkedIn | Website
顺便说一句: we're hiring!