模型:

castorini/ance-msmarco-passage

英文

ance-msmarco-passage的模型卡片

Pyserini是一个用于稀疏和稠密表示可再现的信息检索研究的Python工具包。

模型详细信息

模型描述

Pyserini主要设计用于在多阶段排名架构中提供有效、可再现和易于使用的第一阶段检索。

  • 开发者:Castorini
  • 共享者[可选]:Hugging Face
  • 模型类型:信息检索
  • 自然语言处理语言:en
  • 许可证:需要更多信息
  • 相关模型:需要更多信息
    • 父模型:RoBERTa
  • 更多信息资源:

用途

直接使用

需要更多信息

下游使用[可选]

需要更多信息

超出范围的使用

需要更多信息

偏见、风险和限制

已经进行了大量研究来探索语言模型的偏见和公平性问题(例如,参见 Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含有关受保护群体、身份特征以及敏感的社会和职业群体的扰人和有害的刻板印象。

建议

使用者(无论是直接使用还是下游使用)应该意识到模型的风险、偏见和限制。需要更多信息以获取进一步的建议。

培训细节

培训数据

需要更多信息

培训过程

预处理

需要更多信息

速度、尺寸、时间

需要更多信息

评估

测试数据、因素和指标

测试数据

模型创建者在 associated Paper 中指出:

使用BM25(默认排名模型)在MS MARCO段落语料库(包含8.8M个段落)上进行词袋排序

因素

需要更多信息

指标

需要更多信息

结果

需要更多信息

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 来估计碳排放。

  • 硬件类型:需要更多信息
  • 使用小时数:需要更多信息
  • 云提供商:需要更多信息
  • 计算区域:需要更多信息
  • 排放的碳量:需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

对于词袋稀疏检索,我们已经在Anserini(用Java编写)中构建了自定义解析器和采集管道,用于IR研究中常用的文档格式。

引用

BibTeX:

 
@INPROCEEDINGS{Lin_etal_SIGIR2021_Pyserini,
   author = "Jimmy Lin and Xueguang Ma and Sheng-Chieh Lin and Jheng-Hong Yang and Ronak Pradeep and Rodrigo Nogueira",
   title = "{Pyserini}: A {Python} Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations",
   booktitle = "Proceedings of the 44th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2021)",
   year = 2021,
   pages = "2356--2362",
}

词汇表[可选]

需要更多信息

更多信息[可选]

需要更多信息

模型卡片作者[可选]

与Ezi Ozoani 和Hugging Face团队合作的Castorini。

模型卡片联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用该模型。

点击以展开
from transformers import AutoTokenizer, AnceEncoder
 
tokenizer = AutoTokenizer.from_pretrained("castorini/ance-msmarco-passage")
 
model = AnceEncoder.from_pretrained("castorini/ance-msmarco-passage")