英文

Wikipedia txtai嵌入索引

这是一个嵌入索引,用于 English edition of Wikipedia

此索引是从 OLM Wikipedia December 2022 dataset 构建的。索引中仅包含每篇文章的第一个段落。类似于文章的摘要。

它还使用 Wikipedia Page Views 数据添加了一个进度字段。进度字段可用于仅匹配常访问的页面。

txtai的版本必须为 installed 才能使用此模型。

示例

版本5.4添加了从Hugging Face Hub加载嵌入索引的支持。请参见下面的示例。

from txtai.embeddings import Embeddings

# Load the index from the HF Hub
embeddings = Embeddings()
embeddings.load(provider="huggingface-hub", container="neuml/txtai-wikipedia")

# Run a search
embeddings.search("Roman Empire")

# Run a search matching only the Top 1% of articles
embeddings.search("""
   SELECT id, text, score, percentile FROM txtai WHERE similar('Boston') AND
   percentile >= 0.99
""")

用例

由txtai生成的嵌入索引是一个完全封装的索引格式。它不需要数据库服务器或Python安装之外的依赖项。

Wikipedia索引作为基于事实的上下文来源适用于对话式搜索。换句话说,可以将此模型的搜索结果作为LLM提示中用于回答问题的上下文。

有关如何使用此模型的其他示例,请参阅此 article