数据集:

Cohere/wikipedia-22-12-fr-embeddings

许可:

apache-2.0

批注创建人:

expert-generated

计算机处理:

multilingual

语言:

fr
英文

维基百科(fr)与cohere.ai嵌入式多语言编码器

我们使用 cohere.ai 多语言-22-12嵌入模型对 Wikipedia (fr) 进行编码。

要了解此数据集是如何创建和预处理的,请查看 Cohere/wikipedia-22-12

嵌入

我们使用我们的多语言-22-12嵌入模型计算 title+" "+text 的嵌入,这是一个在100种语言中进行语义搜索的最先进模型。 如果想了解更多关于该模型的信息,请查看 cohere.ai multilingual embedding model

更多语言

我们提供维基百科的许多不同语言的嵌入: ar de en es fr hi it ja ko simple english zh

您可以在 Cohere/wikipedia-22-12 找到没有嵌入的维基百科数据集。

加载数据集

您可以按以下方式加载数据集:

from datasets import load_dataset
docs = load_dataset(f"Cohere/wikipedia-22-12-fr-embeddings", split="train")

或者您也可以在下载之前进行流式传输:

from datasets import load_dataset
docs = load_dataset(f"Cohere/wikipedia-22-12-fr-embeddings", split="train", streaming=True)

for doc in docs:
    docid = doc['id']
    title = doc['title']
    text = doc['text']
    emb = doc['emb']

搜索

完整的搜索示例:

#Run: pip install cohere datasets
from datasets import load_dataset
import torch
import cohere

co = cohere.Client(f"<<COHERE_API_KEY>>")  # Add your cohere API key from www.cohere.com

#Load at max 1000 documents + embeddings
max_docs = 1000
docs_stream = load_dataset(f"Cohere/wikipedia-22-12-fr-embeddings", split="train", streaming=True)

docs = []
doc_embeddings = []

for doc in docs_stream:
    docs.append(doc)
    doc_embeddings.append(doc['emb'])
    if len(docs) >= max_docs:
        break

doc_embeddings = torch.tensor(doc_embeddings)

query = 'Who founded Youtube'
response = co.embed(texts=[query], model='multilingual-22-12')
query_embedding = response.embeddings 
query_embedding = torch.tensor(query_embedding)

# Compute dot score between query embedding and document embeddings
dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1))
top_k = torch.topk(dot_scores, k=3)

# Print results
print("Query:", query)
for doc_id in top_k.indices[0].tolist():
    print(docs[doc_id]['title'])
    print(docs[doc_id]['text'], "\n")

性能

您可以在MIRACL数据集(一种语义搜索评估数据集)中找到性能信息: miracl-en-queries-22-12#performance