大数据的阴影_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

这是一个大数据的时代，商业、社会管理、科研、创业，言必称大数据。

大数据(Big Data)又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法(抽样调查)的捷径，而是采用所有数据进行分析处理。所以，大数据区别于以往的数据收集的最本质区别是，抛弃人类之前限于成本的的抽样分析方法，而是存储一切，分析一切。

大数据的理解

这种“数据全存”的收集，在互联网，甚至是移动互联网出现之前的时代是不可想象的。现在，随着储存能力、计算能力、互联网与移动互联网、智能手机的深入生活，收集数据的技术发达，充满生活中的各个场景，“把数据全部存起来”成为一种可能。

数据虽然存起来了，但如何理解数据，却成为一个问题。

在大数据的热潮中，人们开始相信，只要足够好的技术，足够多的数据，计算机能够比人更了解他们的自己。

有一个非常经典的例子。一位男性顾客到全美第二大零售商塔吉特店中投诉，声称商店竟然给他还在读书的女儿寄婴儿用品的优惠券。后来发现，女儿真的已经怀孕了。这被宣扬成为数据比人更理解人的例子。

实际上，情况恰好相反。商场知道女儿怀孕，无非是收集了顾客的消费数据发现规律。比如，孕妇在怀孕头三个月过后会购买大量无味的润肤露;在头20周，孕妇会补充如钙、镁、锌等营养素;当女性开始大量采购无味肥皂和特大包装的棉球时，说明她们的预产期要来了。然后，凭借这些信息，商场提前邮寄相关促销信息。

实际上，并不是大数据更理解人的例子，甚至反应了机器的愚蠢，自作主张，把婴儿的优惠用品寄给了还在读书的女儿，而且还寄到了她家里。当然，预测模型可以加入变量，比如年纪、职业、婚姻状况来避免尴尬。但是，人是复杂的，有很多非理性因素，无法加入所有变量。

大数据与计算能力的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理，必须采用分布式架构，依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术对海量数据进行分布式数据挖掘。但是，这种模式的计算能力仅是在数量上的增加。如果仍然是把数据放入模型，抽样虽然并不时髦，但边际效应仍然有效，少量的数量就能达到与大数据差不多的效果。

所以，只有应用各种新的数据处理方法，“数据”才能成为“大数据”，才能从中发掘出新的意义，进而产生新的价值。机器计算相比大脑的优势在与对于巨量数量的处理，如果机器也同时也能具有大脑的逻辑、分析、判断、联想、想象、情感能力，则可以轻易超越大脑的智能。

目前，依靠神经网络的机器学习，人工智能已经初步崭露头角。在这种方法之下，随着数据量的积累，系统会越来越好。相比过去人工智能的方法很难受益于数据量的提升，新的方法之下，20%的贡献来自方法的改进，80%来自数据量的提升，从而实现依靠数据量推动的，系统从量变到质变的飞跃。

但是，遗憾的是，机器的自主学习，自主对数据的理解，目前还限定在给定的范围内。目前的机器学习，基于模仿大脑神经的反馈机制，依据历史经验，人类的所有仿生工程学上的成功，取得飞跃，都是在彻底弄清楚生理过程的机制之后，比如，粗浅的模仿鸟的飞翔，可以造出飞行器，但飞机的基础，是空气动力学。现在人类大脑的脑科学的发展程度还远远不够，甚至可以说对大脑的运行过程知之甚少。从这个角度看，人工智能理解大数据还为时尚早。所以，人类对于大数据的利用，目前来看，基本上还是基于收集技术上的发展。基于大数据的人工智能，未必有那么乐观。目前看来，大数据还没有走出数据处理能力阴影的迹象。

大数据与隐私

不过，即使如此，变化早已发生。

这是一个大数据的时代，人人都在电子空间中留下了自己的痕迹。早上起来，打开手机，手机不断与基站联系，机主大概在什么地方，经过了些什么地方，就留下了痕迹;在路上，打开手机浏览器又再次留下cookie数据，浏览了些什么网页，很可能被别有用心者收集;或者交通卡，从哪里进哪里出，也被服务器记录;中午，吃了什么，信用卡可以查询到消费的场所，而饭店的记录，甚至能精确到吃了什么菜，几个人;在上班的时候，使用聊天工具，可能留下痕迹，很多单位，也有记录员工操作的软件;下班了，打车软件、聊天软件都可以上传GPS数据;晚上，在哪里开了房，不但有消费数据，也有摄像头精确记录。这些数据综合起来，不但可以清晰的描述一个人的生活轨迹、行为、甚至连爱好，乃至不愿意被人发现的隐私，在别有用心的收集之下，都是清清楚楚的。

1/2 1 2 下一页尾页