机器学习Part I:机器学习的种类

 

  对于诸如世界状态以及智能体行为是否按照预期进行的可能性这类问题,效用函数通常要结合概率进行处理。比如,如果你编写了一个在丛林中勘查的机器人程序,你不可能总是精确的得知机器人的位置,而且机器人在向前行进的途中有可能会撞上一棵树并且向左转。前一种情况,机器人不清楚世界的精确状态,第二种情况,机器人不能确认它的行为是否符合预期的目标。

 

  在通常的架构中世界状态都是用概率分布来描述的,另外一种是对智能体采取的每种行为导致可能的后果进行描述,并且由效用函数来决定当好的状态或坏的状态下采取何种行为,直到智能体对模型完全掌握。例如,它了解它的效用,但不知道世界看起来像什么,这可能是勘查机器人遇到的一种情况,或者它了解世界的状态,但不知道它的行为会获得多少分值(分值的概念见上文,译者注),如果智能体在学习玩游戏,比如西洋双陆棋时同样也可能发生这种情况。

 

  一旦这些不同的函数(例如概率分布)都被掌握,智能体就会很容易判断哪一种行为会让预期效用最大化,并据此选择正确的行为。预期效用的计算方法是用每次支付分值的概率乘以支付的分值,然后对其进行累加。从某种意义上说,这是在计算将要采取的某项行为的平均值。为了计划后面多个步骤,当可能的世界状态数目不算太多时,通常用到一种被称作马尔科夫决策过程的算法。(它不能在例如象棋或围棋这样的博弈游戏中工作,这些棋类博弈的状态太多了,不过如果仅仅在3X3的范围内活动,用它还做还不算太坏。)

 

  在某些情形下,避免对效用的实际计算对使用学习算法有利,事实上具体的信息学习可以在没有预先计划的情况下对行为作出正确的决断。强化学习是这种情况下的常用技术,而更多的传统情形下需要使用效用函数。

 

  请注意,一些决策问题可以用以下几种途径重新定义为分类问题:每一个决策实际上是用最适合那种状态的行为对世界的某一个状态进行分类!诀窍在于要为你的问题制定最正确的结构,这样一来你就会知道哪一种技术最有可能适合这种情况。也许用决策树来学习如何在丛林中勘查是非常愚蠢的,但用它们在餐馆中选取食物却非常合适。