机器学习的实现依赖于数据

机器学习

大数据、分析、物联网、云技术……最近的几年里,没有这些术语你就无法参与到关于科技的讨论和对话中。它们已经成了科技中主要的参与者,影响着商务的方方面面。变化似乎正在以极快的速度发生着,并且没有减速的迹象。 如今,科技中唯一不变的就是变化本身了。不断的变化需要不断的创新,因此就需要引入更多的新技术。进入科技话题的新技术之一是机器学习。加特纳指出机器学习是2016年十大技术趋势之一。毫无疑问这是一个热点话题。

一切旧的又是新的

我发现有趣的是机器学习的基本原理可追溯到70年代和80年代早期的人工智能研究。当时的工作受到计算机性能和数据利用量的限制。 突破这些约束是近年来机器学习取得飞跃性进展的关键。计算周期和数据利用水平在几十年前是无法想象的。

机器学习的目标听起来很简单: 提供系统基于信息上学习的能力。尽管它听起来简单, 这是在挑战经典的软件工程。大多数我们所熟悉的“硬编码”软件开发系统的行为都是基于计划和预期的用户数据交互。标准的“if – then – else”模型。

人工智能/机器学习的算法要求更为复杂。它们需要允许系统形成它自己以输入为依据的分析模式。这些模式根据提供的信息不断变化。以数据和这些模式为依据,行为被决定。正如你从描述中了解到的,这将导致非常不确定的行为。系统将会根据提供的信息分析,理解并做出反应,根据更多的信息调整行为,然后提供反馈。分析和行为不断的改变,随着时间过去被改进。想象一下进行一个适合这个系统的测试!(即将讨论的主题)

你正享受着机器学习带来的便利

你有网飞公司的账户吗?亚马逊呢?每次你登录时,网飞和亚马逊都给你提供一个推荐列表。这两个公司都有非常复杂的,专有的算法。通过这些算法,就可以分析蕴含着你和所有其他成员交易的庞大的信息群。基于这些数据,他们建立了你的预期行为模型,并提出了一系列的建议给你。你对这些建议的反应也被反馈到算法中,然后算法会不断调整以适应你的行为模式。

那你的智能手机呢?想一下“先生,今天天气怎么样?”这句简单语句的复杂度。首先,软件为了确定你实际说的话,需要识别你的语音,口音以及你说话的方式。如果这不是很确定,软件要求确认,它从你的确认中学习。每次你使用语音识别的时候,你的手机会更好的理解你说了什么。一旦理解你说的话,它会将自然语言处理成有意义的语言到系统中。这又需要复杂的算法来分析语音信息,创建模型,然后在其翻译结果上执行指令。当解析语音的时候,如果不是很确定,软件会立马提示确认。你说话方式所用的模型以及你使用语言的上下文会给予系统反馈。

这都是数据在起作用

最近TechCrunch上的一篇文章, ‘创业公司如何在人工智能和机器学习领域中与企业竞争’ John Melas-Kyriazi 谈到数据:‘’我们投入资源到训练机器学习模型中,它将创造巨大的网络效应。‘ 我发现一个非常恰当的比喻。复杂的算法和模型是机器学习的引擎,但是如果没有燃料,引擎-数据-不会很好地工作。我的一个同事,John Williams, ( Collaborative Consulting 的首席战略官)多年来一直喜欢说,“这都是数据在起作用。”在机器学习的世界里再真实不过了。

考虑到数据对任何成功的机器学习实现的重要性, 有几个关键因素需要考虑:

数据质量 – 在数据的世界中,这一直是一个重要的考量。 数据清洗在许多组织形式中都已成为了一种标准实践。 它对机器学习的实现已经变得至关重要了。将肮脏不纯的燃料放入到即使最好的引擎中也会导致其停止工作.

数据体量 – 大数据是为机器学习量身定制的。算法和后续的模型使用的信息越多,结果就越好. 这里的关键词是学习。我们作为个人,当被提供给我们越多的信息时就能学习得越多。 这个道理也可直接用于机器学习的世界。

数据时效性 – 除了体量之外,最新的、及时的数据也是一个考量因素。假如机器学习是基于完全过时的大体量数据, 结果模型就没有那么有用了.