英文

dpr-reader-multiset-base

目录

  • 模型详情
  • 如何开始使用模型
  • 应用场景
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引文信息
  • 模型卡作者

模型详情

模型描述: Dense Passage Retrieval (DPR) 是用于开放域问答研究的一套工具和模型,dpr-reader-multiset-base是使用 Natural Questions (NQ) dataset TriviaQA WebQuestions (WQ) CuratedTREC (TREC) 进行训练的读取器模型。

如何开始使用模型

使用下面的代码开始使用模型。

from transformers import DPRReader, DPRReaderTokenizer

tokenizer = DPRReaderTokenizer.from_pretrained("facebook/dpr-reader-multiset-base")
model = DPRReader.from_pretrained("facebook/dpr-reader-multiset-base")
encoded_inputs = tokenizer(
    questions=["What is love ?"],
    titles=["Haddaway"],
    texts=["'What Is Love' is a song recorded by the artist Haddaway"],
    return_tensors="pt",
    )
outputs = model(**encoded_inputs)
start_logits = outputs.start_logits
end_logits = outputs.end_logits
relevance_logits = outputs.relevance_logits

应用场景

直接使用

dpr-reader-multiset-base, dpr-question_encoder-multiset-base dpr-ctx_encoder-multiset-base 可用于开放域问答任务。

滥用和超范围使用

不应使用该模型有意地创造对人类具有敌意或疏离感的环境。此外,DPR模型集并不是为了成为人类或事件的确切、真实表示而进行训练的,因此使用这些模型生成此类内容超出了该模型的能力范围。

风险、限制和偏见

内容警告:读者应注意本节可能包含令人不安、冒犯性和能够传播历史和当前刻板印象的内容。

长期以来,已经进行了大量研究来探讨语言模型的偏见和公平性问题(例如,请参见 Sheng et al. (2021) Bender et al. (2021) )。该模型生成的预测可能包含针对受保护类别、身份特征和敏感的社会和职业群体的令人不安和有害的刻板印象。

训练

训练数据

该模型使用以下数据集进行训练:

训练过程

训练过程的描述详见 associated paper

给定M个文本段落的集合,我们密集的段落检索器(DPR)的目标是将所有段落映射到一个低维连续空间,以便在运行时能够高效地检索与输入问题相关的前k个段落。

我们的密集的段落检索器(DPR)使用一个密集编码器EP(·),将任何文本段落映射到一个d维实数向量,并为我们将用于检索的所有M个段落建立索引。运行时,DPR应用一个不同的编码器EQ(·),将输入问题映射到一个d维向量,并检索其向量与问题向量最接近的k个段落。

作者报告称,对于编码器,他们使用了两个独立的BERT( Devlin et al., 2019 )网络(基本、无大小写),并在推理时使用FAISS( Johnson et al., 2017 )来对段落进行编码和索引。有关训练的更多详细信息,请参见该论文,包括编码器、推理、正面和负面段落以及批内负例。

评估

下面的评估信息从 associated paper 中提取。

测试数据、因素和度量

模型开发者报告了模型在五个问答数据集上的性能,使用top-k准确度(k ∈ {20, 100})作为度量。数据集包括 NQ TriviaQA WebQuestions (WQ) CuratedTREC (TREC) SQuAD v1.1

结果
Top 20 Top 100
NQ TriviaQA WQ TREC SQuAD NQ TriviaQA WQ TREC SQuAD
79.4 78.8 75.0 89.1 51.6 86.0 84.7 82.9 93.9 67.6

环境影响

可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提出的方法估计碳排放量。根据 associated paper ,我们列出了硬件类型。

  • 硬件类型:8个32GB的GPU
  • 使用时间:未知
  • 云供应商:未知
  • 计算区域:未知
  • 排放碳量:未知

技术规格

有关建模架构、目标、计算基础架构和训练细节的详细信息,请参见 associated paper

引文信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}

模型卡作者

本模型卡是由Hugging Face团队撰写的。