数据集:
large_spanish_corpus
《大规模西班牙语语料库》是由15个未标记的西班牙语语料库组成,涵盖了从维基百科到欧洲议会笔记的内容。每个配置包含不同语料库的数据。例如,“all_wiki”仅包括来自西班牙语维基百科的示例:
from datasets import load_dataset all_wiki = load_dataset('large_spanish_corpus', name='all_wiki')
默认情况下,配置设置为“combined”,加载所有语料库。
[需要更多信息]
西班牙语
[需要更多信息]
[需要更多信息]
以下是从该语料库的源存储库获取的内容:
西班牙语维基:包括维基百科、维基新闻、维基语录等。首先使用wikiextractor( https://github.com/josecannete/wikiextractorforBERT )处理了2019年4月20日的维基转储数据。
ParaCrawl:ParaCrawl的西班牙语部分( http://opus.nlpl.eu/ParaCrawl.php )
EUBookshop:EUBookshop的西班牙语部分( http://opus.nlpl.eu/EUbookshop.php )
MultiUN:MultiUN的西班牙语部分( http://opus.nlpl.eu/MultiUN.php )
OpenSubtitles:OpenSubtitles2018的西班牙语部分( http://opus.nlpl.eu/OpenSubtitles-v2018.php )
DGC:DGT的西班牙语部分( http://opus.nlpl.eu/DGT.php )
DOGC:DOGC的西班牙语部分( http://opus.nlpl.eu/DOGC.php )
ECB:ECB的西班牙语部分( http://opus.nlpl.eu/ECB.php )
EMEA:EMEA的西班牙语部分( http://opus.nlpl.eu/EMEA.php )
Europarl:Europarl的西班牙语部分( http://opus.nlpl.eu/Europarl.php )
GlobalVoices:GlobalVoices的西班牙语部分( http://opus.nlpl.eu/GlobalVoices.php )
JRC:JRC的西班牙语部分( http://opus.nlpl.eu/JRC-Acquis.php )
News-Commentary11:NCv11的西班牙语部分( http://opus.nlpl.eu/News-Commentary-v11.php )
TED:TED的西班牙语部分( http://opus.nlpl.eu/TED2013.php )
UN:联合国的西班牙语部分( http://opus.nlpl.eu/UN.php )
[需要更多信息]
初始数据收集和规范化
[需要更多信息]
谁是源语言生成者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @lewtun 添加此数据集。