模型:
castorini/ance-msmarco-passage
Pyserini是一个用于稀疏和稠密表示可再现的信息检索研究的Python工具包。
Pyserini主要设计用于在多阶段排名架构中提供有效、可再现和易于使用的第一阶段检索。
需要更多信息
需要更多信息
需要更多信息
已经进行了大量研究来探索语言模型的偏见和公平性问题(例如,参见 Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含有关受保护群体、身份特征以及敏感的社会和职业群体的扰人和有害的刻板印象。
使用者(无论是直接使用还是下游使用)应该意识到模型的风险、偏见和限制。需要更多信息以获取进一步的建议。
需要更多信息
需要更多信息
需要更多信息
模型创建者在 associated Paper 中指出:
使用BM25(默认排名模型)在MS MARCO段落语料库(包含8.8M个段落)上进行词袋排序
需要更多信息
需要更多信息
需要更多信息
需要更多信息
可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 来估计碳排放。
需要更多信息
需要更多信息
需要更多信息
对于词袋稀疏检索,我们已经在Anserini(用Java编写)中构建了自定义解析器和采集管道,用于IR研究中常用的文档格式。
BibTeX:
@INPROCEEDINGS{Lin_etal_SIGIR2021_Pyserini, author = "Jimmy Lin and Xueguang Ma and Sheng-Chieh Lin and Jheng-Hong Yang and Ronak Pradeep and Rodrigo Nogueira", title = "{Pyserini}: A {Python} Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations", booktitle = "Proceedings of the 44th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2021)", year = 2021, pages = "2356--2362", }
需要更多信息
需要更多信息
与Ezi Ozoani 和Hugging Face团队合作的Castorini。
需要更多信息
使用下面的代码来开始使用该模型。
点击以展开from transformers import AutoTokenizer, AnceEncoder tokenizer = AutoTokenizer.from_pretrained("castorini/ance-msmarco-passage") model = AnceEncoder.from_pretrained("castorini/ance-msmarco-passage")