大数据视角下的舆情观测平台:社会焦点透视镜系统

赵妍妍1,秦兵2,刘挺2

1. 哈尔滨工业大学机电学院媒体技术与艺术系,黑龙江 哈尔滨 150001;

2. 哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心,黑龙江 哈尔滨 150001

摘要:Web2.0时代的开启和社会媒体的不断发展,使得互联网上的数据规模呈爆炸性增长。网络大数据不仅为社会治理领域带来了新的契机,也对数据处理技术提出了巨大的挑战。构建了一个社会焦点透视镜系统,结合新浪微博数据,不仅能够实时提供每日的焦点事件及其情感分布展示,供舆情分析部门进行检测,还能够深层剖析焦点事件的情感分布原因和人群分布,协助社会治理领域进行策略的提出和实施。以“9·3阅兵”为例,呈现社会焦点透视镜系统深度剖析的结果展示。

关键词:网络大数据;社会焦点透视镜;焦点事件抽取;情感分布

中图分类号:TP391. 1 文献标识码:A

doi: 10.11959/j.issn.2096-0271.2016018

Social event sensor: a public opinion platform from the big data perspective

ZHAO Yanyan 1 , QIN Bing 2 , LIU Ting 2

1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin 150001

2. Research Center for Social Computing and Information Retrieval of Computer Science and Technology School, Harbin Institute of Technology, Harbin 150001

Abstract: The development of Web 2.0 and social media has led to the explosive growth of> 大数据视角下的舆情观测平台:社会焦点透视镜系统

1 引言

Web2.0时代的开启和社会媒体(如微信、微博)的出现使得大量用户从被动地在网络上接收知识转变为海量网络数据的产生者。据统计,互联网上的数据每年将增长50%,每两年便翻一番,网络大数据应运而生。目前,大数据的研究和应用价值已在很多领域初见端倪。例如:在零售业,可以在大数据中挖掘出高消费者和高影响者两类有价值的客户,进行产品推荐和口碑宣传,与社交网络相结合创造出新的商品营销模式。此外,社交网络中的大数据也为很多政治选举提供了新的宣传手段,最典型的如在Facebook上开展的奥巴马的总统竞选运动。

随着大数据理念和相关技术的不断深入,大数据应用也在慢慢向社会治理领域渗透。2015年8月31日,国务院以国发〔2015〕50号印发《促进大数据发展行动纲要》。大数据发展与“提升政府治理能力现代化”紧紧相连,成为全文亮点。大数据将如何助力政府治理,以改善百姓民生、社会服务成为大家最为关注的话题。众所周知,爆炸性增长的大数据蕴藏着巨大的价值,因此寻求有效的大数据处理技术、方法和手段成为基于大数据进行社会治理的最本质的需求。

在众多的大数据形式中,社会媒体数据,如微博和微信数据,是很好的一种洞察民情、观测大众行为的数据形式。例如,当某一焦点事件发生时,大量民众在微博上发表自己的观点,可以通过观测相关的微博大数据来统计并获取民众对于该事件的情感分布趋势,继而协助相关部门进行社会治理策略的提出和实施。此外,微博大数据还可以挖掘出民众普遍关注的话题类型、暴露出民众的整体情绪趋势,供舆情部门监测。

目前国内外已经有多项借助微博或Twitter来进行浅层社会治理和分析的技术和系统。Zhao等人[1]构建了一个名为MoodLens的中文微博情感分析系统,将微博的情感分为愤怒、厌恶、高兴和低落4类,进行异常或突发事件的监测。Wang等人[2]构建了一个实时的预测2012年美国大选结果的系统,该系统通过统计Twitter上民众对于4位候选人的情感分布来进行结果预测。Ciot等人[3]研究了Twitter上进行用户性别预测的算法。Diao等人[4]研究了如何在Twitter上实时发现突发事件。Jennifer等人[5]研究了在Twitter上某个事件的发生时间预测算法。以上这些有代表性的系统和算法均是围绕微博或Twitter大数据中焦点事件抽取和情感分析这两大项任务进行的,属于浅层的大数据分析结果显示,存在的问题是缺乏事件和情感的深层分析和透视。这些传统的系统和研究往往只关注民众关心的焦点事件是什么,情绪走向是什么。如图1(a)所示,基于自然语言处理技术,可以对2015年5月29日的微博大数据进行分析,挖掘出全国十大焦点事件以及每个事件的民众情感分布,属于浅层分析,分析出的结果可以为相关部门提供一定的预警信号。