数据科学家必知必会的7款Python工具，你会几个？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

Matplotlib

matplotlib 是基于 Python 的 2D（数据）绘图库，它产生（输出）出版级质量的图表，用于各种打印纸质的原件格式和跨平台的交互式环境。matplotlib 既可以用在 python 脚本, python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?)，web 应用服务器，和6类 GUI 工具箱。

matplotlib 尝试使容易事情变得更容易，使困难事情变为可能。你只需要少量几行代码，就可以生成图表，直方图，能量光谱（power spectra），柱状图，errorcharts，散点图（scatterplots）等,。

为简化数据绘图，pyplot 提供一个类 MATLAB 的接口界面，尤其是它与 IPython 共同使用时。对于高级用户，你可以完全定制包括线型，字体属性，坐标属性等，借助面向对象接口界面，或项 MATLAB 用户提供类似（MATLAB）的界面。

Galvanize 公司的首席科学官 Mike Tamir 供稿。

Scikit-Learn

Scikit-Learn

Scikit-Learn 是一个简单有效地数据挖掘和数据分析工具（库）。关于最值得一提的是，它人人可用，重复用于多种语境。它基于 NumPy，SciPy 和 mathplotlib 等构建。Scikit 采用开源的 BSD 授权协议，同时也可用于商业。Scikit-Learn 具备如下特性:

分类（Classification） – 识别鉴定一个对象属于哪一类别
回归（Regression） – 预测对象关联的连续值属性
聚类（Clustering） – 类似对象自动分组集合
降维（Dimensionality Reduction） – 减少需要考虑的随机变量数量
模型选择（Model Selection） –比较、验证和选择参数和模型
预处理（Preprocessing） – 特征提取和规范化

Galvanize 公司数据科学讲师，Isaac Laughlin提供

Spark

Spark

Spark 由一个驱动程序构成，它运行用户的 main 函数并在聚类上执行多个并行操作。Spark 最吸引人的地方在于它提供的弹性分布数据集（RDD），那是一个按照聚类的节点进行分区的元素的集合，它可以在并行计算中使用。RDDs 可以从一个 Hadoop 文件系统中的文件（或者其他的 Hadoop 支持的文件系统的文件）来创建，或者是驱动程序中其他的已经存在的标量数据集合，把它进行变换。用户也许想要 Spark 在内存中永久保存 RDD，来通过并行操作有效地对 RDD 进行复用。最终，RDDs 无法从节点中自动复原。

Spark 中第二个吸引人的地方在并行操作中变量的共享。默认情况下，当 Spark 在并行情况下运行一个函数作为一组不同节点上的任务时，它把每一个函数中用到的变量拷贝一份送到每一任务。有时，一个变量需要被许多任务和驱动程序共享。Spark 支持两种方式的共享变量：广播变量，它可以用来在所有的节点上缓存数据。另一种方式是累加器，这是一种只能用作执行加法的变量，例如在计数器中和加法运算中。

由 Galvanize 数据科学家 Benjamin Skrainka 提供。

英文原文：Seven Python Tools All Data Scientists Should Know How to Use

本文由qjq346970057, gx老苗, 卖女孩儿的小酱油翻译。

2/2 首页上一页 1 2