说明:图中Strong null model、Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值,所有歌曲之间的相似性值,相邻播放之间相似性值。Album表示专辑,Artist表示歌手。造成这方面的原因可能是: 与专辑相比用户倾向于听同一个歌手的歌曲
(5) 不同用户听歌行为不同
从数据中我们分析还得出,不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。
具体信息如下图
歌曲的三个维度分析
说明:图中横坐标表示用户的活跃性值,纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值
造成这方面的原因可能是: 用户可能呈分群现象
活跃性较低的用户可能是普通用户,这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户,这类用户根据自己的专业需要来选择自己想听的歌曲。
解决方案
从上面一小节的讨论中,我们已经知道无线音乐端大数据中可能隐藏的几个问题如下:
①用户、歌曲均存在长尾效应
②歌曲覆盖率低
③用户每天听歌时间呈间断性分布
④不同用户对歌曲的属性依赖性不同
⑤不同用户听歌行为不同
当一个公司面对以上问题时应该采用怎样的解决方案来解决或者
改善当前情况是另一个重要的问题。尤其是上述问题①、②,如果处理不恰当,可能会影响整个公司是否能正常运行,甚至影响公司的发展。
因此,本部分从无线音乐数据出发,提出几种适合的解决方案。
(1)用户、歌曲均存在长尾效应,我们可以采用以下技术
采用信息过滤技术,一种方法可以对歌曲进行分类,将不同的用户映射到不同的歌曲类别中。另一种方法就是个性化推荐技术,系统自动的分析用户的偏好为不同用户过滤相应的歌曲。
(2)歌曲覆盖率低,我们可以采用如下技术
歌曲覆盖率低主要是因为用户找到不到音乐,造成这个问题的原因主要有两种:①音乐本身的信息不充足,②音乐有信息,但是用户找不到这些音乐。
所以一方面我们可以给音乐打标签,使用标签信息来表示歌曲的具体属性;另一方面,我们可以采用推荐技术对歌曲进行个性化推荐。
(3)用户每天听歌时间呈间断性分布,我们可以采用如下技术
在不同的时间,我们设置不同的主题歌曲以适应不同的听歌场景,比如夜晚放舒缓、平滑的歌曲,上午上摇滚、重金属之类的歌曲。
当然具体的场景还需要通过进一步的数据挖掘来获得,本文只是提出一种方法,对具体技术不做过多阐述。
(4)不同用户对歌曲的属性依赖性不同,我们采用如下技术
通过历史数据分析获取用户对歌曲属性的依赖性,从中我们能得知用户对哪种属性更加依赖。当发现用户对流派更依赖,则我们可以根据流派为其播放歌曲,当发现用户对歌手感兴趣,则我可以根据歌手为其播放歌曲。
(5)不同用户听歌行为不同,我们可以采用如下技术
根据用户特征将用户分群,这样可以将用户分为多个不同的群体。针对不同的群体我们给其播放的歌曲不同,比如普通用户可以热歌为主进行播放,而对于专业歌手,我们则以高多样的歌曲来为其播放。
结果验证
为了进一步说明上述解决方案的有效性,此处我们仅采用推荐算法来进行说明当系统采用该解决方案后,系统中出现的一些显著变化,具体的变化如下:
l 用户更容易找到自己喜欢的歌曲
用户找更容易找到歌曲
该音乐网站目前采用热歌榜(GRM)来组织歌曲,通过此种方式用户找到其喜欢歌曲的概率是千分之一左右,当我们采用了3种推荐方法(分别是OCF、HC、MD)后,发现用户找到自己喜欢歌曲的概率明显增加,而且对于MD算法,其准确度提升了10倍之多。
更多详细信息,请您微信关注“计算网”公众号: