数据集:

gsarti/change_it

英文

DATASET卡:CHANGE-IT

数据集摘要

CHANGE-IT数据集包含约152,000个文章标题对,收集于意大利两家政治光谱两端的报纸,即左翼的la Repubblica和右翼的Il Giornale,两家报纸的比例相等。该数据集在2021年的某个上下文中被用于 CHANGE-IT task 任务。CHANGE-IT是一个针对意大利语的生成任务,更具体地说,是针对意大利报纸标题的风格转换任务。给定来自一家报纸(Il Giornale或La Repubblica)的一个或多个标题的集合,它挑战自动化系统将所有的Il Giornale标题改变成La Repubblica风格的标题,将所有的La Repubblica标题改变成Il Giornale风格的标题。尽管任务仅涉及标题的变化,但数据集包括标题以及它们对应的完整文章。

声明:CHANGE-IT数据集由 European Language Grid 托管,并根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 许可。要使用此数据集,可使用? Datasets下载和解压缩文件夹,然后将解压后的文件夹路径传递给load_dataset方法,如:datasets.load_dataset('gsarti/change_it', data_dir='解压后的文件夹路径')

支持的任务和榜单

风格转换

下表取自原论文的表4,其中使用指针网络架构作为基准,在两种设置中执行风格转换。在rep2gio变体中,系统通过总结Repubblica标题来训练(gio2rep则相反),并且通过总结源报纸的全文来执行其他报纸的风格转换。

HH AH Main Compliancy
rep2gio .649 .876 .799 .449
gio2rep .639 .871 .435 .240
avg .644 .874 .616 .345

这里的Main、HH和AH都是基于BERT-base模型进行训练的,用于评估风格转换的质量,具体如下:

  • Main:该模型经过训练,将生成的标题分类为ilgiornale或repubblica,金标准数据上的F1分数约为80%。测试是否成功进行了转换。
  • Headline-Headline (HH):该模型经过训练,检查原始标题与生成标题之间的兼容性。测试生成是否与参考资料一致。
  • Article-Headline (AH):该模型经过训练,检查原始全文文章与生成标题之间的兼容性。测试生成是否与源文章一致。

最终指标“整体一致性”是一个二元指标,如果其他三个指标匹配(Main的决策被颠倒,HH和AH预测匹配),则为正;否则为负。更多细节请参阅原论文的第3节。

语言

CHANGE-IT中的语言为意大利语(BCP-47为it)

数据集结构

数据实例

下面提供了test拆分中ilgiornale配置的示例。另一个配置ilgiornale具有相同的结构。

{
  "id": 0,
  "headline": "Ucraina, coalizione della Timoshenko denuncia irruzione nella sede",
  "full_text": "Rimane alta la tensione in Ucraina , dove da giorni i manifestanti scendono in piazza per protestare contro la decisione del presidente Viktor Yanukovich, che ha deciso di congelare l'accordo di associazione con l'Unione Europea. Il momento è molto delicato. L'opposizione teme una repressione violenza della protesta, con le forze speciali che hanno costretto i manifestanti a Kiev ad allontanarsi dalla sede del governo, per ripiegare su piazza Indipendenza. Il leader d'opposizione Vitaly Klitschko ha invitato il presidente a non utilizzare la forza, se non vuole avere il sangue dei manifestanti sulle sue mani. Nel frattempo il presidente Yanukovich ha aperto alla possibilità di un dialogo, annunciando per domani un incontro con i suoi due predecessori, Leonid Kuchma e Viktor Yushchenko. Ieri un milioni di persone sono scese in piazza, scaduti i due giorni di ultimatum dati al governo per indire nuove elezioni, I manifestanti hanno rovesciato la grande statua di Lenin posta sul boulevard Shevchenko. Piazza Indipendenza (Maidan Nezalezhnosti) resta il punto più caldo della capitale. Qui sono state erette barricate davanti agli ingressi della metropolitana, nel tentativo di preparsi a un'azione della polizia, che al momento non ha però preso iniziative contro i dimostranti. In serata Batkivshcyna, la coalizione dell'ex premier Yulia Timoshenko , ha denunciato l'irruzione di almeno venti agenti della polizia antisommossa nel proprio quartier generale. Il portavoce della polizia, Olga Bilyk, ha smentito: \"Né la polizia di Kiev, né la Berkut - ha dichiarato - hanno condotto operazioni nella sede\".",
  "alignment": "A2"
}

文本未经进一步处理或标记。

数据字段

  • headline:报纸的原始标题。
  • full_text:与相应标题关联的文章全文。
  • alignment:用于风格转换实验的对齐值。取值:
    • A1:前5000对,高度对齐。
    • A2:测试集,高度对齐。
    • A3:10,000到20,000对,相对对齐。
    • R:底部约50,000对,弱对齐/未对齐。

数据拆分

config train test
ilgiornale 5'000 (A1) + 10'000 (A3) + 48'701 (R) 5'000 (A2)
repubblica 5'000 (A1) + 10'000 (A3) + 48'701 (R) 5'000 (A2)

数据集创建

有关数据集创建的详细信息,请参见原文章 CHANGE-IT @ EVALITA 2020: Change Headlines, Adapt News, GEnerate

其他信息

数据集维护者

CHANGE-IT共享任务的组织者是原始数据集的维护者。如需有关? Datasets版本的问题或更新,请联系gabriele.sarti996@gmail.com。

许可信息

使用知识共享署名非商业共享许可4.0进行许可。许可证详见 here

引用信息

如果您在工作中使用了这些语料库,请引用作者。

@inproceedings{demattei-etal-2020-changeit,
    author = {De Mattei, Lorenzo and Cafagna, Michele and Dell'Orletta, Felice and Nissim, Malvina and Gatt, Albert},
    title = {{CHANGE-IT @ EVALITA 2020}: Change Headlines, Adapt News, GEnerate},
    booktitle = {Proceedings of Seventh Evaluation Campaign of Natural Language Processing and Speech Tools for Italian. Final Workshop (EVALITA 2020)},
    editor = {Basile, Valerio and Croce, Danilo and Di Maro, Maria, and Passaro, Lucia C.},
    publisher = {CEUR.org},
    year = {2020},
    address = {Online}
}