机器学习的实现依赖于数据_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

机器学习

大数据、分析、物联网、云技术……最近的几年里，没有这些术语你就无法参与到关于科技的讨论和对话中。它们已经成了科技中主要的参与者，影响着商务的方方面面。变化似乎正在以极快的速度发生着，并且没有减速的迹象。如今，科技中唯一不变的就是变化本身了。不断的变化需要不断的创新，因此就需要引入更多的新技术。进入科技话题的新技术之一是机器学习。加特纳指出机器学习是2016年十大技术趋势之一。毫无疑问这是一个热点话题。

一切旧的又是新的

我发现有趣的是机器学习的基本原理可追溯到70年代和80年代早期的人工智能研究。当时的工作受到计算机性能和数据利用量的限制。突破这些约束是近年来机器学习取得飞跃性进展的关键。计算周期和数据利用水平在几十年前是无法想象的。

机器学习的目标听起来很简单：提供系统基于信息上学习的能力。尽管它听起来简单，这是在挑战经典的软件工程。大多数我们所熟悉的“硬编码”软件开发系统的行为都是基于计划和预期的用户数据交互。标准的“if – then – else”模型。

人工智能/机器学习的算法要求更为复杂。它们需要允许系统形成它自己以输入为依据的分析模式。这些模式根据提供的信息不断变化。以数据和这些模式为依据，行为被决定。正如你从描述中了解到的，这将导致非常不确定的行为。系统将会根据提供的信息分析，理解并做出反应，根据更多的信息调整行为，然后提供反馈。分析和行为不断的改变，随着时间过去被改进。想象一下进行一个适合这个系统的测试！（即将讨论的主题）

你正享受着机器学习带来的便利

你有网飞公司的账户吗？亚马逊呢？每次你登录时，网飞和亚马逊都给你提供一个推荐列表。这两个公司都有非常复杂的，专有的算法。通过这些算法，就可以分析蕴含着你和所有其他成员交易的庞大的信息群。基于这些数据,他们建立了你的预期行为模型，并提出了一系列的建议给你。你对这些建议的反应也被反馈到算法中，然后算法会不断调整以适应你的行为模式。

那你的智能手机呢？想一下“先生，今天天气怎么样？”这句简单语句的复杂度。首先，软件为了确定你实际说的话，需要识别你的语音，口音以及你说话的方式。如果这不是很确定，软件要求确认，它从你的确认中学习。每次你使用语音识别的时候，你的手机会更好的理解你说了什么。一旦理解你说的话，它会将自然语言处理成有意义的语言到系统中。这又需要复杂的算法来分析语音信息，创建模型，然后在其翻译结果上执行指令。当解析语音的时候，如果不是很确定，软件会立马提示确认。你说话方式所用的模型以及你使用语言的上下文会给予系统反馈。

这都是数据在起作用

最近TechCrunch上的一篇文章， ‘创业公司如何在人工智能和机器学习领域中与企业竞争’ John Melas-Kyriazi 谈到数据：‘’我们投入资源到训练机器学习模型中，它将创造巨大的网络效应。‘ 我发现一个非常恰当的比喻。复杂的算法和模型是机器学习的引擎，但是如果没有燃料,引擎-数据-不会很好地工作。我的一个同事，John Williams, ( Collaborative Consulting 的首席战略官)多年来一直喜欢说，“这都是数据在起作用。”在机器学习的世界里再真实不过了。

考虑到数据对任何成功的机器学习实现的重要性, 有几个关键因素需要考虑:

数据质量 – 在数据的世界中，这一直是一个重要的考量。数据清洗在许多组织形式中都已成为了一种标准实践。它对机器学习的实现已经变得至关重要了。将肮脏不纯的燃料放入到即使最好的引擎中也会导致其停止工作.

数据体量 – 大数据是为机器学习量身定制的。算法和后续的模型使用的信息越多，结果就越好. 这里的关键词是学习。我们作为个人，当被提供给我们越多的信息时就能学习得越多。这个道理也可直接用于机器学习的世界。

数据时效性 – 除了体量之外，最新的、及时的数据也是一个考量因素。假如机器学习是基于完全过时的大体量数据, 结果模型就没有那么有用了.

1/2 1 2 下一页尾页