大数据应用？先搞定数据获取再说_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

虽然我们前面罗列了不少有关医疗数据的来源和积累，但实际当中，这些案例都或多或少存在着问题。甚至由于这些问题的存在，版本一里面这些比较浅层次的数据应用都还处于非常遥远的阶段。

数据的完整和有效性——互联网医疗毕竟是新兴事物，用户有接受程度和使用习惯的问题，而且硬件设备也存在功能和精准度的问题。这使得数据收集面临着不完整且缺乏连续性的问题，而且大多数硬件设备没有取得医疗资质，采集的数据也无法做医疗级应用。

数据处于割裂的状态——互联网医疗产品主要收集的是患者在医院的健康数据，而对医院内的数据鞭长莫及。加上医院与互联网医疗无法打通，这导致了医疗数据在院内院外割裂存在的状况。而且由于医院本身信息孤岛的问题，患者在不同医院求医的数据也是碎片化存在。

数据规模仍然非常小——作为大数据应用，目前的医疗数据采集规模根本达不到 “大” 的程度。一个是很多创业公司的数据都是从头积累，再一个是市场认知度仍然有限，最典型的就是基因检测，很多公司的样本量还处在几十个、几百个的水平。这使得目前的医疗数据基本无法实现商业化。

当然还有一个问题，段院长在他的文章里也指出了，就是医疗大数据并没有被认真对待，或者说挂羊头卖狗肉。我国的大多数互联网医疗公司打的仍然是医院号源的主意，仍然是一种快速变现的心态，也无怪乎令人感叹，“我们多数的移动医疗创新公司还在拼命的靠补贴靠地推在拉用户，在做挂号黄牛的生意，真的令人很失望。”

虽然大数据已经变得更像一句营销术语，但是它仍有巨大的潜力没有被挖掘出来。不过，得先把数据获取这个大麻烦解决了。

企业在面对数据的时候，比知道怎么处理更多的情况，是在这些数据里漫无目的的游泳。遗憾的是，太多的公司将这种现象与大数据本身关联起来。从技术角度来说，大数据是非常具体的一件事――结构化数据(企业的专有信息)与非结构化数据(社交媒体数据流和政府新闻源之类的公共数据源)的结合体。

$\" data-mce-src=$

如果你将非结构化数据覆盖在结构化数据之上，通过分析软件将其可视化，你就会得到过去从未有过的洞察力――预测产品销售、更精准地目标用户、新的市场机遇，等等。

大数据不再像过去几年一样，受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家，还会被R和Hadoop之类的开源工具搞得心烦意乱。

如今，多少公司都争着帮你可视化大数据：从Tableau、Qlik、TIBCO和MicroStrategy之类的专业公司，到微软、IBM、SAP和甲骨文之类提供端到端服务的厂商，不一而足。

不过，据上周出席奥兰多中级市场CIO论坛/中级市场首席营销官(CMO)论坛的IT主管们声称，许多公司在大数据分析中最头疼的问题，其实是如何获取数据。

一位CIO说：“我们IT部门的最大问题，是我们如何才能将数据获取进来，这件事非常麻烦。”

这种说法也得到了相关数据的证实。

数据集成公司Xplenty开展的一项调查声称，三分之一的商业智能专业人员把50%至90%的时间，花在了清理原始数据和将数据录入到公司的数据平台的准备工作上。这种现象的原因，可能与只有28%的公司认为自己能从数据中获得战略性价值有很大关系。

数据清理的问题还包括，眼下IT行业许多最抢手的专业人员，正在花大量时间处理这项让人晕头转向的工作：在分析数据之前先筛选并组织整理数据集。

这显然对于数据的可扩展性非常不利，也严重限制了大数据的潜力。随着物联网不断发展，收集更多的数据对我们来说将越来越容易，这个问题只会变得更严峻。

有三种可能的方法有望解决这个问题：

1.大数据分析软件不断完善――许多这些公司在过去五年时一直投入大量精力在大数据领域，减轻数据清理环节压力的工具不太可能在短期内出现重大突破，但有望实现逐步改进。

2.数据准备人员成为数据科学家的助手――正如律师助理帮助律师处理重要的基础工作，数据准备人员也会帮助数据科学家处理基本上同样的底层任务。我们已经在某种程度上看到了这一幕。不妨阅读TechRepublic的这篇文章：《“数据标记”是人工智能时代的新新蓝领工作吗?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

2/3 首页上一页 1 2 3 下一页尾页