神策数据干货:利用数据驱动计算热门榜单
2018年06月16日 由 荟荟 发表
105387
0
用户行为数据在产品功能中的应用多种多样,一个典型且容易理解的例子是各类榜单的计算。
几乎所有的小说、视频、音乐等内容网站都有不止一处的榜单,这些榜单主要的数据依据就是用户的行为数据,下面我们来简单看看这一过程是如何进行的。
首先,我们需要采集到用户在产品上的各类行为,例如搜索、浏览、播放等行为,这些行为需要通过 APP 或者浏览器发送,然后到达数据接收服务。
紧接着,我们需要对这些数据进行清洗。行为数据中会存在大量的非法数据,包括机器访问(例如搜索引擎爬虫)、非正常用户访问(例如靠刷量产生的用户),或者干脆直接就是程序模拟的行为数据。这些数据会导致榜单数据不准确,因此需要在这个阶段进行清洗。
由于要兼顾榜单的时效性,实时的数据清洗一般只能利用一个较短窗口期内的数据来做决策,并且无法回溯数据。例如对于一个特定 IP 的访问,可能处理了 500 条之后才能判断来自该 IP 的访问是非法的,但是这个 IP 的行为可能已经被用于之前榜单的计算了。
在经过这一阶段之后,我们就可以拿行为数据来计算实时的热门榜单并将其更新到产品上。根据产品需求的不同,可能是秒级的实时更新,也可能是 5 分钟甚至半小时级别更新。
实时的行为数据不能在计算完成之后就丢掉,而需要被持久地存储。因为除了实时的热门榜单,一般的内容网站往往还会提供周榜、月榜等周期的榜单。这些榜单需要更长周期的数据以及更复杂的策略,例如综合考虑播放量、播放时长、评分等信息。并且,在这一阶段我们有了更丰富的信息,可以对数据进行进一步的清洗,例如可以找出那些长期进行刷量的黑名单,以进一步提高数据的可靠性。由于更新周期足够长,在最终的结果被使用之前还可以加上人工的编辑审核,以确保榜单结果符合产品运营的需求。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com