情感分析:利用上下文语义搜索算法获得更深入的信息
2018年01月28日 由 xiaoshan.xiang 发表
478908
0
情感分析是文本的上下文挖掘,它识别和提取源材料中的主观信息,并帮助企业了解其品牌、产品或服务的社会情感,同时监控在线对话。然而,对社交媒体流的分析通常仅限于基本的情感分析和基于指标的度量。这类似于仅仅触及表面,错过那些等待被发现的高价值洞察力。那么,一个品牌应该怎样做才能轻松实现这个目标呢?
随着近年来深度学习的发展,算法的文本分析能力有了很大的提高。先进人工智能技术的创造性利用,成为深入研究的有效工具。我们认为,根据以下几方面来对一个品牌的客户对话进行分类是很重要的:
- 顾客关心的品牌产品和服务。
- 用户对这些方面的潜在意图和反应。
这些基本概念在结合使用时,成为分析数百万品牌对话的一个非常重要的工具。在这篇文章中,我们以Uber为例,展示了它是如何运作的。
文本分类器——基本构件
情感分析
情感分析是最常见的文本分类工具,它分析传入的信息,并说明潜在的情感是正面,负面还是中立。你可以输入你选择的句子,并通过在演示来判断潜在的情感。
演示地址:
https://www.paralleldots.com/sentiment-analysis
意图分析
意图分析通过分析消息背后的用户意图并识别其是否与意见、新闻、营销、投诉、建议、欣赏或查询相关,从而进行改善。
上下文语义搜索(CSS)
为了获得有用的结论,了解用户讨论的关于品牌各方面的内容是很重要的。例如:亚马逊想隔离的相关消息:晚交货,计费问题,推广相关查询,产品评论等。另一方面,星巴克想要根据员工行为分类信息,新咖啡口味、卫生反馈、在线订单、商店名称和位置等。但一个人怎么能做到呢?
我们引入了一种智能的智能搜索算法,称为上下文语义搜索(又叫CSS)。CSS的工作方式是,它需要数千条消息和一个概念(比如价格)作为输入,并过滤所有与给定概念紧密匹配的信息。下面的图表展示了CSS是如何对现有的方法进行改进的。
常用的过滤所有价格相关信息的方法是在价格和与价格相关的其他词(定价,收费,支付)上做关键词搜索。然而,这种方法并不是很有效,因为几乎不可能想到所有相关的关键词及代表其特定的概念的变体。另一方面,CSS只是将概念(价格)的名称作为输入,并过滤所有语义相似的内容,即使没有提到概念关键词的明显变体。
运行过程是这样的,用人工智能技术将每个词转换成超空间中的一个特定点,用这些点之间的距离来识别与我们正在探索的概念相似的信息。下面是一个可视化的例子:
在下面的例子中,我们可以看到上下文语义搜索算法如何处理与Uber相关的评论。
同样,看看这条评论:
在上述两种情况下,算法将这些消息分类为与“价格”概念相关,即使在这些消息中没有提到价格。
Uber:深度分析
Uber是世界上估值最高的初创企业,它一直是共享经济的先驱。Uber在全球500多个城市运营,服务于庞大的用户群,每天都要收到大量用户的反馈、建议和投诉。通常,社交媒体是注册该账号的首选。 大量的传入数据使分析,分类和生成具有挑战性的见解成为可能。
我们分析了数字媒体上关于一些产品主题的在线对话:取消、付款、价格、安全性和服务。
对于广泛的数据来源,我们从Uber官方Facebook页面上的最新评论,Twitter上提到Uber,以及Uber的最新新闻中获取数据。这是所有渠道的数据点分布:
- Facebook: 34,173 条评论;
- Twitter: 21,603 条推文;
- 新闻: 4,245 篇文章。
分析用户对话的情感可以让你了解总体的品牌感知。为了深入了解,在上下文语义搜索算法的帮助下进一步对数据进行分类是很重要的。
我们在同一数据集上运行上下文语义搜索算法,将上述分类(取消、付款、价格、安全性和服务)考虑在内。
FACEBOOK
情感分析
引人注目的是,与所有类别相关的评论都有负面情感。与价格相关的正面评论数量超过了负面评论的数量。Facebook是一个社交平台,评论充斥着随机的内容、新闻分享、营销和宣传内容以及垃圾邮件/垃圾/不相关的内容。看看Facebook评论的意图分析:
Facebook评论的意图分析。
因此,我们删除了所有这些无关的意图类别,并复制了结果:
每个类别的情感都有明显的变化。特别是在价格相关的评论中,正面评论的数量从46%下降到29%。
这让我们看到了上下文语义搜索算法如何从数字媒体中产生深入的见解。一个品牌可以分析推文,并从他们的正面观点或从负面观点中得到反馈。
TWITTER
情感分析
对获得的推文也做了类似的分析。在最初分析的付款和安全相关的推文中有一种复杂的情绪。
为了了解真实的用户意见、投诉和建议,我们必须再次过滤无关的推文(垃圾邮件、垃圾信息、市场营销、新闻和随机信息):
正面支付相关推文的数量显著减少。此外,对于安全等级(以及相关的关键字)的正面推文数量也有显著下降。
此外,取消、支付和服务(以及相关词汇)是Twitter评论中谈论最多的话题。似乎人们谈论最多的是司机取消了他们的行程和取消了他们的费用。看看这条推文:
像Uber这样的品牌可以依赖于这样的意见,并对最关键的话题采取行动。例如,与服务相关的推文中,正面推文的百分比最低,而负面推文的百分比最高。Uber可以分析这些推文,并采取行动提高服务质量。
新闻
安全问题一直是新闻中谈论度最高的话题。新闻内容的情绪总体上是正面的,也单独的分成了很多类别。
我们也根据新闻的受欢迎程度来分类新闻。受欢迎程度是根据文章在不同的社交媒体上的分享次数。以下是一些头条新闻:
- 被批评之后,Uber首席执行官离开特朗普顾问委员会。
- #DeleteUber:用户对川普签发穆斯林禁用这一应用程序感到愤怒。
- Uber员工也讨厌自己的企业文化。
- 每次我们使用Uber,我们都在传播它的社会危害。
- 愤怒的顾客正在删除Uber应用程序,因为司机在抗议和罢工期间去了JFK机场。
结论
从社交媒体数据获取有意义的见解的时代已经随着技术的进步而到来。Uber案例研究让你看到了上下文语义搜索算法的威力。各公司最近一直在利用数据的力量,但要想获得最深入的信息,你必须利用人工智能、深度学习和智能分类器的力量,比如上下文语义搜索算法和情绪分析。