多语言隐喻检测

此页面提供了一个经过微调的多语言语言模型 XLM-RoBERTa ，用于在标记级别上进行隐喻检测 Huggingface token-classification approach 。标签1对应于隐喻用法。

数据集

模型训练的数据集是 VU Amsterdam Metaphor Corpus ，在隐喻识别协议下进行了逐词级别的注释。训练语料仅限于英语，然而，XLM-R在其他语言上表现出良好的零-shot性能。

结果

根据 2020 Second Shared Task on Metaphor detection 的评价标准，我们的模型在训练XLM-R Base时达到了0.76的隐喻类别的F1分数，训练XLM-R Large时达到了0.77的F1分数。

我们进行了8个epochs的训练，在最后一次迭代时加载了表现最佳的模型，并使用学习率为2e-5。训练数据的10%用于验证，而最终的测试集被单独保留，只用于最终评估。

训练和参考代码

训练和评估代码可在 Github 上找到。我们的论文 paper 描述了训练和模型应用，可在线获取：

@inproceedings{wachowiak2022drum, title={Drum Up SUPPORT: Systematic Analysis of Image-Schematic Conceptual Metaphors}, author={Wachowiak, Lennart and Gromann, Dagmar and Xu, Chao}, booktitle={Proceedings of the 3rd Workshop on Figurative Language Processing (FLP)}, pages={44--53}, year={2022}}

作者:

Lennart

数据集大小:

1.05 GB