模型:

castorini/ance-msmarco-passage

类库:

PyTorch Transformers

语言:

其他:

roberta

预印本库:

arxiv:1910.09700

模型介绍文件清单

英文

ance-msmarco-passage的模型卡片

Pyserini是一个用于稀疏和稠密表示可再现的信息检索研究的Python工具包。

模型详细信息

模型描述

Pyserini主要设计用于在多阶段排名架构中提供有效、可再现和易于使用的第一阶段检索。

开发者：Castorini
共享者[可选]：Hugging Face
模型类型：信息检索
自然语言处理语言：en
许可证：需要更多信息
相关模型：需要更多信息
- 父模型：RoBERTa
更多信息资源：
- GitHub Repo
- Associated Paper

用途

直接使用

需要更多信息

下游使用[可选]

需要更多信息

超出范围的使用

需要更多信息

偏见、风险和限制

已经进行了大量研究来探索语言模型的偏见和公平性问题(例如，参见 Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含有关受保护群体、身份特征以及敏感的社会和职业群体的扰人和有害的刻板印象。

建议

使用者（无论是直接使用还是下游使用）应该意识到模型的风险、偏见和限制。需要更多信息以获取进一步的建议。

培训细节

培训数据

需要更多信息

培训过程

预处理

需要更多信息

速度、尺寸、时间

需要更多信息

评估

测试数据、因素和指标

测试数据

模型创建者在 associated Paper 中指出：

使用BM25（默认排名模型）在MS MARCO段落语料库（包含8.8M个段落）上进行词袋排序

因素

需要更多信息

指标

需要更多信息

结果

需要更多信息

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 来估计碳排放。

硬件类型：需要更多信息
使用小时数：需要更多信息
云提供商：需要更多信息
计算区域：需要更多信息
排放的碳量：需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

对于词袋稀疏检索，我们已经在Anserini（用Java编写）中构建了自定义解析器和采集管道，用于IR研究中常用的文档格式。

引用

BibTeX:

 
@INPROCEEDINGS{Lin_etal_SIGIR2021_Pyserini,
   author = "Jimmy Lin and Xueguang Ma and Sheng-Chieh Lin and Jheng-Hong Yang and Ronak Pradeep and Rodrigo Nogueira",
   title = "{Pyserini}: A {Python} Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations",
   booktitle = "Proceedings of the 44th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2021)",
   year = 2021,
   pages = "2356--2362",
}

词汇表[可选]

需要更多信息

模型卡片作者[可选]

与Ezi Ozoani 和Hugging Face团队合作的Castorini。

模型卡片联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用该模型。

点击以展开

from transformers import AutoTokenizer, AnceEncoder
 
tokenizer = AutoTokenizer.from_pretrained("castorini/ance-msmarco-passage")
 
model = AnceEncoder.from_pretrained("castorini/ance-msmarco-passage")

作者:

Castorini

数据集大小:

479.13 MB

ance-msmarco-passage的模型卡片

模型详细信息

模型描述

用途

直接使用

下游使用[可选]

超出范围的使用

偏见、风险和限制

建议

培训细节

培训数据

培训过程

预处理

速度、尺寸、时间

评估

测试数据、因素和指标

测试数据

因素

指标

结果

模型检查

环境影响

技术规格[可选]

模型架构和目标

计算基础设施

硬件

软件

引用

词汇表[可选]

更多信息[可选]

模型卡片作者[可选]

模型卡片联系方式

如何开始使用模型