熊辉：我是如何收获了数据挖掘的人生？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

3）Instance Selection在很多情况下至关重要，数据不是越多越好，是合适的数据越多越好。很多数据本身不是噪声，但和我们要分析的问题不是很相关，在这种情况下需要做合理的数据裁剪。其实，说到大数据的“大”字有不少误解。大是个相对的概念，有很多应用，只是单位时间内要处理的数据量超过了现有的计算能力。比如说，高频交易，我们可能需要在一毫秒处理1M的数据。1M并不大，但问题是时间要求realtime。

4）在建模之前还需要了解数据的特性，比如噪声度，稀疏度，和数据的分布。这就象医生在选取治疗手段之前必须要了解病人的病症。

最后，我想说的是，人生就是个数据挖掘过程。人整个的一生由几个关键点组成，在每个关键点，我们都需要根据自己掌握的信息进行决策。

互动内容：

Q1：数据去伪存真，在数据挖掘中是不是工作占比很高？经验是不是分析能力的决定因素？

A：这个问题好。我们现在各行各业都在拼命收集数据，很多的是垃圾数据，现在数据的单位价值密度在不断下降。数据挖掘就象医生给病人看病，SAS的病人和普通感冒的病人有很多共同病症，我们的任务是要找出可以帮助我们区分的特征。

关于未来，我提出一个概念叫做信息阶级论。因为大数据意识和数据挖掘技术的普及，会造成人类社会更大的信息不对称。未来阶层（贫富差距）很大一部分因素是因为对信息资源掌握的不同造成的。在很多领域，对信息资源的掌握可以造成高维打低维的局面。就好象有武器代差的二战，勇敢的波兰骑兵对德国坦克集群，会是简单的屠杀。

Q2：怎么鉴别什么数据是真数据什么数据是伪数据呢？ By 刘东华

A：和具体应用相关，比如，做具体的市场预测问题，你可能有很多数据，来源不同，质量不同，我的经验是，当数据量充分的时候，质量不高的数据宁可舍弃不用。

Q3：在中国，传统制造企业占比很高，也是重要经济支柱，数据挖掘对传统制造业会有什么大的价值牵引？熊老师有什么好的建议？ By 邢艳凯：

A：人类整个的历史发展都在追求标准化，标准化可以提高生产效率，对传统制造业供应链管理是数据挖掘可以大力帮助的领域。题外化，人类在追求标准化，任何被标准化的行业都被夕阳化，工作机会就会减少

@邢艳凯：认同熊老师的观点，中国制造业最缺乏的就是标准！

@柚子：还有经济预测领域

A：经济预测是个好例子，表面看很多数据都可以用来预测经济，但对中国的数据，可能只有发电量，钢产量，铁路运输等少量指标是质量可靠的数据，所以用克强指数看经济更靠谱。

大数据的发展还带来了人类解决问题方式的重心转移。东方长期以归纳法为见长，也就是一种BOTTOM-UP的解决问题方式，西方长期以演绎推理见长，是一种TOP-DOWN的方式。在近代至现代，演绎推理占了上风，所以西方文明高度发展。但是数据驱动解决问题方式的产生，让归纳法思维又有机会走在前面。

Q4: 国内哪些组织在数据挖掘方面比较强？ By赵国栋

A：数据挖掘充满dynamics，目前中国的暴富机会还是比美国多不少，随着以后制度越来越完善，中国的暴富机会越来越少。很多的暴富都是因为信息不对称造成的。中国现阶段存在很多制度性信息不对称，每一次制度的制定或变化，都催生出一批暴富的点子和机会。美国更多是技术性信息不对称，就是通过数据挖掘的手段形成信息不对称，从而在竞争中产生势能差，可以形成以绝对优势打击绝对劣势的局面。当然，中国在朝技术性信息不对称大步前进。

因为信息平台和信息意识的城乡差别，农村的孩子在信息化这块被甩开大了，在竞争中的劣势越来越大，最可怕的是农村的信息意识完全没跟上。所以未来的阶层客观上会是由于对信息资源的掌握不同而造成的。所以，在教育层面应该努力缩小城乡的信息鸿沟。

未来社会的发展趋势在加快，财富轮转速度在加快，从富到贫，从贫到富，从弱到强，从强到弱都比以前更快速转化。会是一种螺旋式上升，后面新城代谢越来越加速，hold不住的都会被甩出去。富过三代的一定要培养好的家族信息制度。

评论：现在是企业信息重置的时代，挖掘运营数据水平的高低将拉开企业的差距，而且一旦有了大哥，可能就会变成独生子！By 邢艳凯：

2/3 首页上一页 1 2 3 下一页尾页