宁家骏:新形势下推进大数据应用的若干思考

大数据存储中心的关键技术包括研发统一的存储适配接口,利用分布式存储技术研发海量文件存储技术,研发同时支持事务性数据和分析型数据的新型关系型数据库,实现统一的可视化数据管理等。

大数据平台计算中心的关键技术包括分布式运行引擎和协同计算功能,搭建分布式运行集群化环境,研发统一的资源管理功能,既能满足流计算、内存计算、批量计算和查询计算的功能,还能满足多租户不同计算模式下的资源分配与隔离。

大数据平台分析中心的关键技术包括研究数据模型映射转换业务语义、数据挖掘等,研发业务语义设计器、自助式分析足迹、数据挖掘等,形成自助式分析工具集。大致可分为三部分:自助式分析组件,业务语义设计器和数据挖掘组件。

大数据平台服务中心应包括数据服务、计算服务和可视化管理服务等,其中数据服务主要包括数据融合访问模型建立,研发数据路由和数据网关,形成数据服务组件,支持对各类数据的标准SQL操作、安全权限控制和数据缓存,支持各类应用统一访问各类数据源。其中计算服务主要包括研制计算任务规范、研发多模式计算任务管理、计算流程配置等功能,提供各类计算任务的上传、发布、调度和管理能力,支持用户自定义计算任务和通过配置获取结果的通用计算任务。

大数据平台的服务中心还要制定标准化的组件调用和数据交互接口规范,融合各类展现控件,集成包括GIS以及各类图像图形展示软件,形成大数据可视化组件库,支撑可视化应用构建。

各个领域在依托现有资源基础上,构建形成大数据应用服务平台应遵循问题和需求导向原则,从逻辑上构建大平台、微应用入手、组件化的原则,采用面向对象的建模技术,结合范式建模方法,完善公共信息模型,形成标准,形成一体化业务数据模型,使之覆盖所有业务链服务链的各个业务领域,实现横向业务关联与纵向业务模型贯通,并可进一步挖掘数据价值。

围绕大数据应用服务平台建设,当前在大数据关键技术研究中,应进一步关注如下问题:一是多源数据采集技术,包括结构化数据采集、实时数据采集、文件数据采集、消息队列采集等。二是海量异构数据存储技术,包括分布式文件系统、列式存储数据库、非关系型数据库、关系型数据库等。三是多模式计算技术,包括分布式批量计算、流计算、内存计算等。数据挖掘分析技术,包括数据挖掘算法、分析模型构建、R语言等。四是大数据安全技术,包括数据加密、访问控制、数据审计等。五是重点领域的全业务链的统一数据模型的研发,包括标准、视图等。

在大数据平台研发中还要关注以下几点:数据整合组件,数据管理组件和作业调度组件,资源调度组件和集群管理组件、安全管理组件等。

大数据关键技术需要进一步在以下几点创新:集中式和分布式混合架构的大数据平台,多源异构数据融合模型及其统一数据网关;进一步研发各领域一体化业务数据,实现横向与纵向业务协同贯通;进一步研发可兼容多种计算模式的资源动态分配与隔离组件,实现计算任务合理化调度;进一步研究颗粒度更加细化的业务行为特征分析模型;进一步研制细分行业和地域部门的预测监测模型。

小结

数据是基础,也是信息化的基础和支点,推动大数据应用是挖掘利用大数据资源的目的,也是助力社会经济发展转型升级的重要手段,是实现治理能力现代化的有效路径,更是发展大数据的根本目标。大数据技术和应用为分析处理复杂社会问题和潜在社会矛盾提供了新途径,有助于更好地推动解决国家发展中面临的医疗、教育、住房、交通、城市管理、公共安全等社会难题。所以当前在大数据热潮席卷全国之时,更要把发展大数据的重点引导到推进开展大数据应用上。结合战略性新兴产业发展和国家促进信息消费扩大内需的战略部署,探索传统产业与大数据等新一代信息技术协同发展的新业态、新模式,充分发掘数据资源的创新支撑潜力,在政务服务、金融服务、工业制造、现代农业、商贸物流等领域,推动跨领域、跨行业的协同创新,带动传统产业技术研发体系创新、生产管理方式变革、商业模式创新和产业价值链体系重构,促进传统产业转型升级,形成新的经济增长点。