数据集:
financial_phrasebank
任务:
文本分类语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1307.5336许可:
cc-by-nc-sa-3.0金融新闻中的极性情感数据集。该数据集包含来自英语金融新闻的4840个句子,并按照情感进行分类。该数据集根据5-8位注释者的一致率进行划分。
情感分类
英语
{ "sentence": "Pharmaceuticals group Orion Corp reported a fall in its third-quarter earnings that were hit by larger expenditures on R&D and marketing .", "label": "negative" }
没有训练/验证/测试集的划分。
然而,该数据集有四种可能的配置,取决于注释者一致率的百分比:
sentences_50agree ; 具有>=50%注释者一致性的实例数量:4846 sentences_66agree : 具有>=66%注释者一致性的实例数量:4217 sentences_75agree : 具有>=75%注释者一致性的实例数量:3453 sentences_allagree : 具有100%注释者一致性的实例数量:2264
在金融情感分析的统计技术低应用方面的关键问题是实际应用的实施困难以及缺乏用于构建此类模型的高质量训练数据。特别是在金融和经济文本的情况下,标注集是一种稀缺资源,其中许多集合仅供专有使用。为了解决缺少训练数据的问题,我们提供了一个包含约5000个句子的集合,以建立用于分析替代建模技术的人工注释标准。
短语级别注释任务的目标是仅通过显式给定句子中的可用信息将每个示例句子分类为正面、负面或中性。由于该研究仅关注金融和经济领域,要求注释者只考虑股票价格可能对新闻产生正面、负面或中性影响的观点。因此,与经济或金融角度不相关的情感被视为中性。
该论文使用的语料库由OMX赫尔辛基上市公司的英语新闻组成。该新闻是使用自动网络爬虫从LexisNexis数据库中下载的。从这个新闻数据库中,随机选择了10000篇文章以获得对小公司和大公司、不同行业的公司以及不同新闻源的广泛覆盖。按照Maks和Vossen(2010)采取的方法,我们排除了不包含任何词典实体的所有句子。这将样本总数减少到53400个句子,其中每个句子至少包含一个或多个识别出的词典实体。然后,随机选择了约5000个句子来代表整个新闻数据库。
谁是源语言制片人?源数据是由各种金融记者撰写的。
该金融短语库的此版本包括一组4840个句子。这些短语的选定集合由16位拥有金融市场相关背景知识的人进行了注释。
鉴于存在大量重叠注释(每个句子5到8个注释),有多种方法可以定义基于多数投票的黄金标准。为了提供客观比较,我们根据多数一致性的强度形成了4个备选参考数据集:
谁是注释者?其中三名注释者是研究人员,其余13名注释者是阿尔托大学商学院的硕士学生,主修金融、会计和经济学。
[需要更多信息]
[需要更多信息]
所有的注释者都来自同一机构,因此应该在考虑这一点时理解标注者之间的一致性。
[需要更多信息]
[需要更多信息]
该作品根据知识共享署名-非商业性使用-相同方式共享3.0国际许可进行许可。要查看此许可的副本,请访问 http://creativecommons.org/licenses/by-nc-sa/3.0/ .
如果您对数据的商业使用感兴趣,请联系以下作者获得适当的许可证:
@article{Malo2014GoodDO, title={Good debt or bad debt: Detecting semantic orientations in economic texts}, author={P. Malo and A. Sinha and P. Korhonen and J. Wallenius and P. Takala}, journal={Journal of the Association for Information Science and Technology}, year={2014}, volume={65} }
感谢 @frankier 添加了此数据集。