numpy
python没有提供数组功能,虽然列表可以完成基本的数组功能,但他不是真正的数组。numpy内置函数处理速度是c语言级别,因此尽量使用内置函数,避免出现效率瓶颈的现象。
numpy的安装:
windows中,pip install numpy
也可以自行下载源代码:
python setup.py install
安装完后,可以使用以下命令进行测试。
scipy
scipy提供了多维数据功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。
scipy包含功能有最优化,线性代数,积分,插值,拟合,特殊函数,快速傅里叶变换,信号处理,图像处理,常微分方程求解等。显然这些功能是挖掘和建模必须的。
安装方法与numpy一样。
以下命令简单试用:
matplotlib
数据可视化,著名的绘图库。可以进行简单的三维绘图。
安装与上相同。
matplotlib作图的基本代码:
如果读者试用的中文标签,就会出现中文标签无法正常显示,由于matplotlib默认字体是英文所致,解决他的办法是在作图之前手动添加黑体。
plt.rcparams[‘font.sans-serif’]=[‘simhei’] #这句话用来正常显示中文标签
另外作图可能出现负号不能正常显示,可以用过如下代码解决:
plt.rcparams[‘axes.unicode-minus’]=false #解决保存图像是负号
pandas
pandas 是python中最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在python中处理数据非常快速和简单。pandas来自于版面数据(panel data)和python数据分析(data analysis)。
pandas功能非常强大,支持sql的数据增,删,查,改,并且带有丰富的数据处理函数,支持时间序列分析功能;支持灵活处理确实数据等。
安装:
pip install pandas 或下载源码 python setup.py install
需要安装xlrd(读)和xlwt(写)库才能支持excel的读写。
pip install xlrd #为python添加读取excel功能
pip install xlwt #为python添加写入excel功能
使用:
pandas基本的数据结构为series和dataframe.
series是序列,类似一维数组
dataframe相当于一张二维的表格,它的每一个列是一个series。
index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等,它类似sql中的主键。
pandas的简单使用:
其他常见的工具
statsmodels
统计建模和计量经济学,包括描述统计,统计模型评估和推断
scikit-learn
支持回归,分类,聚类等强大的机器学习库
keras
深度学习库,用于建立神经网络以及深度学习模型
gensim
用来做文本主题模型的库,文本挖掘可能用到