机器学习——海量数据挖掘解决方案_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

大数据时代里，互联网用户每天都会直接或间接使用到大数据技术的成果，直接面向用户的比如搜索引擎的排序结果，间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。机器学习是大数据挖掘的一大基础，本文以机器学习为切入点，将达观在大数据技术实践时的一些经验与大家分享。

互联网的海量数据不可能靠人工一个个处理，只能依靠计算机批量处理。最初的做法是人为设定好一些规则，由机器来执行。比如明确指定计算机给男性、30岁的用户推送汽车广告。很明显如此粗略的规则不会有好效果，因为对人群的定位不够精确。要提高精度必须增加对用户的特征描述。但特征一多规则就很难制定，即使定下了规则也没法根据实际情况灵活变化。机器学习可以很好的解决以上问题，从一定程度上赋予了计算机以“学习”的能力，使得千人千面成为可能。

机器学习——海量数据挖掘解决方案

图 1 面对大量的特征，人工难以确定使用的规则

有监督机器学习技术

机器学习以统计学为理论基础，利用算法让机器具有类似人类一般的自动“学习”能力，即对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析。机器学习主要包含四大类别：

1/11 1 2 3 4 5 6 下一页尾页