2017年最流行的15个数据科学Python库

数盟002017-06-20 20:03:19

2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总结了数据科学家和工程师将在 2017 年最常使用的 Python 库。

核心库

1)NumPy

地址://www.numpy.org

当使用 Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算而设计的软件的集合(不要与 SciPy 混淆,它只是这个 stack 的一部分,以及围绕这个 stack 的社区)。这个 stack 相当庞大,其中有十几个库,所以我们想聚焦在核心包上(特别是最重要的)。

NumPy(代表 Numerical Python)是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化,可以提升性能,从而加快执行速度。

2)SciPy

地址:https://www.scipy.org

SciPy 是一个工程和科学软件库。除此以外,你还要了解 SciPy Stack 和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建立在 NumPy 的基础之上,因此它的数组大量使用了 NumPy。它通过其特定的子模块提供高效的数值例程操作,比如数值积分、优化和许多其他例程。SciPy 的所有子模块中的函数都有详细的文档,这也是一个优势。

3)Pandas

地址://pandas.pydata.org

Pandas 是一个 Python 包,旨在通过「标记(labeled)」和「关系(relational)」数据进行工作,简单直观。Pandas 是 data wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构:

2017年最流行的15个数据科学Python库

Series:一维

2017年最流行的15个数据科学Python库

Data Frames:二维

例如,当你要从这两种类型的结构中接收到一个新的「Dataframe」类型的数据时,你将通过传递一个「Series」来将一行添加到「Dataframe」中来接收这样的 Dataframe:

2017年最流行的15个数据科学Python库

这里只是一小撮你可以用 Pandas 做的事情:

轻松删除并添加「Dataframe」中的列

将数据结构转换为「Dataframe」对象

处理丢失数据,表示为 NaN(Not a Number)

功能强大的分组

可视化

4)Matplotlib

地址:https://matplotlib.org

Matplotlib 是另一个 SciPy Stack 核心软件包和另一个 Python 库,专为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件,使得 Python(在 NumPy、SciPy 和 Pandas 的帮助下)成为 MatLab 或 Mathematica 等科学工具的显著竞争对手。然而,这个库比较底层,这意味着你需要编写更多的代码才能达到高级的可视化效果,通常会比使用更高级工具付出更多努力,但总的来说值得一试。花一点力气,你就可以做到任何可视化:

线图

散点图

条形图和直方图

饼状图

茎图

轮廓图

场图

频谱图

还有使用 Matplotlib 创建标签、网格、图例和许多其他格式化实体的功能。基本上,一切都是可定制的。

该库支持不同的平台,并可使用不同的 GUI 工具套件来描述所得到的可视化。许多不同的 IDE(如 IPython)都支持 Matplotlib 的功能。

还有一些额外的库可以使可视化变得更加容易。

2017年最流行的15个数据科学Python库

5)Seaborn

地址:https://seaborn.pydata.org

Seaborn 主要关注统计模型的可视化;这种可视化包括热度图(heat map),可以总结数据但也描绘总体分布。Seaborn 基于 Matplotlib,并高度依赖于它。

2017年最流行的15个数据科学Python库

6)Bokeh

地址://bokeh.pydata.org

Bokeh 也是一个很好的可视化库,其目的是交互式可视化。与之前的库相反,这个库独立于 Matplotlib。正如我们已经提到的那样,Bokeh 的重点是交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。

2017年最流行的15个数据科学Python库

7)Plotly

地址:https://plot.ly

最后谈谈 Plotly。它是一个基于 Web 的工具箱,用于构建可视化,将 API 呈现给某些编程语言(其中包括 Python)。在 plot.ly 网站上有一些强大的、开箱即用的图形。为了使用 Plotly,你需要设置你的 API 密钥。图形处理会放在服务器端,并在互联网上发布,但也有一种方法可以避免这么做。

2017年最流行的15个数据科学Python库

机器学习

8)SciKit-Learn

地址://scikit-learn.org

Scikits 是 SciPy Stack 的附加软件包,专为特定功能(如图像处理和辅助机器学习)而设计。在后者方面,其中最突出的一个是 scikit-learn。该软件包构建于 SciPy 之上,并大量使用其数学操作。

scikit-learn 有一个简洁和一致的接口,可利用常见的机器学习算法,让我们可以简单地在生产中应用机器学习。该库结合了质量很好的代码和良好的文档,易于使用且有着非常高的性能,是使用 Python 进行机器学习的实际上的行业标准。

深度学习:Keras / TensorFlow / Theano

在深度学习方面,Python 中最突出和最方便的库之一是 Keras,它可以在 TensorFlow 或者 Theano 之上运行。让我们来看一下它们的一些细节。

9)Theano

地址:https://github.com/Theano

首先,让我们谈谈 Theano。Theano 是一个 Python 包,它定义了与 NumPy 类似的多维数组,以及数学运算和表达式。该库是经过编译的,使其在所有架构上能够高效运行。这个库最初由蒙特利尔大学机器学习组开发,主要是为了满足机器学习的需求。

要注意的是,Theano 与 NumPy 在底层的操作上紧密集成。该库还优化了 GPU 和 CPU 的使用,使数据密集型计算的性能更快。

效率和稳定性调整允许更精确的结果,即使是非常小的值也可以,例如,即使 x 很小,log(1+x) 也能得到很好的结果。

10)TensorFlow

地址:https://www.tensorflow.org

TensorFlow 来自 Google 的开发人员,它是用于数据流图计算的开源库,专门为机器学习设计。它是为满足 Google 对训练神经网络的高要求而设计的,是基于神经网络的机器学习系统 DistBelief 的继任者。然而,TensorFlow 并不是谷歌的科学专用的——它也足以支持许多真实世界的应用。

TensorFlow 的关键特征是其多层节点系统,可以在大型数据集上快速训练人工神经网络。这为 Google 的语音识别和图像识别提供了支持。

11)Keras

地址:https://keras.io

最后,我们来看看 Keras。它是一个使用高层接口构建神经网络的开源库,它是用 Python 编写的。它简单易懂,具有高级可扩展性。它使用 Theano 或 TensorFlow 作为后端,但 Microsoft 现在已将 CNTK(Microsoft 的认知工具包)集成为新的后端。

其简约的设计旨在通过建立紧凑型系统进行快速和容易的实验。

Keras 极其容易上手,而且可以进行快速的原型设计。它完全使用 Python 编写的,所以本质上很高层。它是高度模块化和可扩展的。尽管它简单易用且面向高层,但 Keras 也非常深度和强大,足以用于严肃的建模。

Keras 的一般思想是基于神经网络的层,然后围绕层构建一切。数据以张量的形式进行准备,第一层负责输入张量,最后一层用于输出。模型构建于两者之间。

自然语言处理

12)NLTK

地址://www.nltk.org

这套库的名称是 Natural Language Toolkit(自然语言工具包),顾名思义,它可用于符号和统计自然语言处理的常见任务。NLTK 旨在促进 NLP 及相关领域(语言学、认知科学和人工智能等)的教学和研究,目前正被重点关注。

NLTK 允许许多操作,例如文本标记、分类和 tokenizing、命名实体识别、建立语语料库树(揭示句子间和句子内的依存性)、词干提取、语义推理。所有的构建块都可以为不同的任务构建复杂的研究系统,例如情绪分析、自动摘要。

13)Gensim

地址://radimrehurek.com/gensim

这是一个用于 Python 的开源库,实现了用于向量空间建模和主题建模的工具。这个库为大文本进行了有效的设计,而不仅仅可以处理内存中内容。其通过广泛使用 NumPy 数据结构和 SciPy 操作而实现了效率。它既高效又易于使用。

Gensim 的目标是可以应用原始的和非结构化的数字文本。Gensim 实现了诸如分层 Dirichlet 进程(HDP)、潜在语义分析(LSA)和潜在 Dirichlet 分配(LDA)等算法,还有 tf-idf、随机投影、word2vec 和 document2vec,以便于检查一组文档(通常称为语料库)中文本的重复模式。所有这些算法是无监督的——不需要任何参数,唯一的输入是语料库。

数据挖掘与统计

14)Scrapy

地址:https://scrapy.org

Scrapy 是用于从网络检索结构化数据(如联系人信息或 URL)的爬虫程序(也称为 spider bots)的库。它是开源的,用 Python 编写。它最初是为 scraping 设计的,正如其名字所示的那样,但它现在已经发展成了一个完整的框架,可以从 API 收集数据,也可以用作通用的爬虫。

该库在接口设计上遵循著名的 Don』t Repeat Yourself 原则——提醒用户编写通用的可复用的代码,因此可以用来开发和扩展大型爬虫。

Scrapy 的架构围绕 Spider 类构建,该类包含了一套爬虫所遵循的指令。

15)Statsmodels

地址://www.statsmodels.org

statsmodels 是一个用于 Python 的库,正如你可能从名称中猜出的那样,其让用户能够通过使用各种统计模型估计方法以及执行统计断言和分析来进行数据探索。

许多有用的特征是描述性的,并可通过使用线性回归模型、广义线性模型、离散选择模型、稳健的线性模型、时序分析模型、各种估计器进行统计。

该库还提供了广泛的绘图函数,专门用于统计分析和调整使用大数据统计数据的良好性能。

结论

这个列表中的库被很多数据科学家和工程师认为是最顶级的,了解和熟悉它们是很有价值的。这里有这些库在 GitHub 上活动的详细统计:

2017年最流行的15个数据科学Python库当然,这并不是一份完全详尽的列表,还有其它很多值得关注的库、工具包和框架。比如说用于特定任务的 SciKit 包,其中包括用于图像的 SciKit-Image。如果你也有好想法,不妨与我们分享。

文章来源:机器之心

2017年最流行的15个数据科学Python库

媒体合作请联系:

邮箱:xiangxiaoqing@stormorai.com

0次点赞

  • 支付宝二维码

    用支付宝扫一扫打赏

  • 微信二维码

    用微信扫一扫打赏

  • 有了电饭煲,没有搞不定的鸡!有了电饭煲,没有搞不定的鸡!●●电饭煲红烧鸡●●今日美食——电饭煲红烧鸡家里的电饭煲只用来做饭就太可惜了,今天分享一道红烧鸡,只用电饭煲就能搞定,简单省事,一起看看吧。......

    上班族的便当

    0

    0

    1 月前

  • 明星都约不上!!这家店凭什么吃服了所有人!?明星都约不上!!这家店凭什么吃服了所有人!?新媒体管家已经迷醉这家餐厅很久很久很久了吃过一次就被深深的吸引沉睡的味蕾已经许久没有被唤醒川菜!上海菜!北京菜!粤菜!想啥啥都有!都不知该怎......

    北京吃货团

    0

    0

    1 月前

  • 最新包饺子、饺子馅方法,美翻啦!馋死人!最新包饺子、饺子馅方法,美翻啦!馋死人!无论南北,中国人都好饺子这一口,饺子的包法多种多样,馅料更是千变万化非常丰富,学会这些饺子包法以及馅料做法,你就可以进阶为饺子达人了!饺子的......

    生活小诀窍

    0

    0

    1 月前

  • 一年四季最好的是秋天,秋风起、蟹脚痒、桂花香一年四季最好的是秋天,秋风起、蟹脚痒、桂花香夏天悄然而过一转眼马上就快到了秋分“秋风起、蟹脚痒、桂花香”一年中最好的季节便是秋季在秋天的阳光和凉爽的秋风里静静呆着都觉得现世安稳,岁月静......

    南京小资生活

    1

    0

    1 月前

  • 原来世界各国的早餐长这样,满满的异域风情~原来世界各国的早餐长这样,满满的异域风情~为了使一整天都充满能量,早餐是非常重要的。在韩国通常由米饭、汤、小菜组成一般的早餐。那么,生活模式、饮食习惯不同的世界各国的早餐会怎么样呢?......

    韩国me2day

    0

    0

    1 月前

  • 别每天早晨豆浆、牛奶了,喝这个才更有营养!别每天早晨豆浆、牛奶了,喝这个才更有营养!米糊更容易被人体消化吸收,可迅速为身体提供能量;各种谷类混合的米糊含有更丰富的营养和保健作用;谷物香气释放充分,增进感官享受,促进食欲。它的......

    吃货集中营

    0

    0

    1 月前

  • 清凉降温的必备美食—肉嘟嘟芋圆清凉降温的必备美食—肉嘟嘟芋圆芋圆是来自台湾的休闲小吃,以其粗粮为主的健康原料,口感的Q弹爽滑而大行其道,是目前台式甜品的典型代表。煮熟的芋圆可和在冰糖水里食用,清凉的感......

    轻松学烘焙

    0

    0

    1 月前

  • 太实用了!青菜炒不老,藕片不发黑的秘诀竟然是…太实用了!青菜炒不老,藕片不发黑的秘诀竟然是…看完这篇,马上帮你厨艺上升两级!青菜不宜加冷水,冷水会使青菜变老不好吃,而加开水炒出来的青菜又鲜又嫩,炒的时间不宜过长。藕丝或藕片一边炒一边......

    爱上厨房

    0

    0

    1 月前

  • 上半年最火的8款甜品,你都做过了吗?减肥的妹子们请慎点.....上半年最火的8款甜品,你都做过了吗?减肥的妹子们请慎点.....点上方蓝字关注烘焙天地一个专注0基础免费学烘焙的平台微信号:bake360  青团  青团是江南地区一带的传统特色小吃,......

    烘焙天地

    0

    0

    1 月前

  • 六个秘诀,让银耳煮出满满的胶质感!六个秘诀,让银耳煮出满满的胶质感!现在正是吃银耳的好时节,滋阴润肺、排毒养颜。但你们在煮银耳的时候是不是也遇到过下面这些问题:1. 用高压锅炖银耳,炖了3个小时还没出胶。2.......

    家庭美食

    0

    0

    1 月前

  • 外酥里糯 | 自制抹茶麻薯团外酥里糯 | 自制抹茶麻薯团没有麻薯预拌粉请选择购买,随意替换食材会影响最终成品口感!原创作者 Nina_YZ食材麻薯预拌粉125g牛奶90g全蛋液15g黄油......

    教你做蛋糕

    0

    0

    1 月前

  • 黄瓜+鸡蛋,7天刮掉20斤,要减肥的快看!!黄瓜+鸡蛋,7天刮掉20斤,要减肥的快看!!提醒:最重要的是第一周,你只能吃煮的鸡蛋和黄瓜,你可以吃到饱,但是不要撑!第一周黄瓜鸡蛋具体饮食计划早上:鸡蛋一个(可以吃茶鸡蛋哦),黄瓜一......

    祛斑祛痘日记

    1

    0

    1 月前

  • 入秋后,必喝的2款滋补汤!简单方便又健康~入秋后,必喝的2款滋补汤!简单方便又健康~秋季进补,最简单的就是喝汤!今天小暖带来了两款非常滋补的汤品:鲜人参鸡汤和人参银耳汤。顾名思义,两种汤都会用到一种食材鲜人参。人参被称为“百......

    BTV暖暖的味道

    0

    0

    1 月前

  • 万万没想到,不值钱的它竟是“秋季第一豆”!胆固醇的天敌!万万没想到,不值钱的它竟是“秋季第一豆”!胆固醇的天敌!担心摄入过多的胆固醇而不敢吃肉?那今天给大家推荐一种食材,让大家既可以放心吃肉,又不用担心胆固醇过度吸收。毛豆的神奇功效毛豆被称作“秋季第一......

    面食

    0

    0

    1 月前

  • 在宁波,你为什么越来越胖?这才是真相!在宁波,你为什么越来越胖?这才是真相!身边的小伙伴每天挂在嘴边的就是瘦瘦瘦瘦奈何宁波美食这么多,诱惑这么大整天叫着减肥减肥减肥减肥减肥减肥却一斤也没有瘦,反而越来越……事儿妞找了......

    宁波那些事儿

    1

    0

    1 月前

  • 【精益生产:质量管理的九忌、十误】【精益生产:质量管理的九忌、十误】精益生产|智能制造|管理前沿我们来自丰田,分享生产技术与管理方法九 忌第一忌:言行不一,只说不练“言”是指相关文件或作业指导书之规定,“行”......

    制造业之窗

    0

    0

    1 月前

  • 罗永浩:创业没有成功之前叫胸怀大志,失败了叫天生幻觉罗永浩:创业没有成功之前叫胸怀大志,失败了叫天生幻觉新媒体管家新媒体管家锤子科技创始人  罗永浩先生本文转载自微信公众号“投资人说”(ID:touzirenshuo),授权请联系出处......

    移动互联网

    0

    0

    1 月前

  • 从细节看出一个人的教养!从细节看出一个人的教养!从细节看出一个人的教养!(强烈推荐,必须收藏)你是在“赚大钱”还是“挣小钱”?绝大多数的人都不懂!为什么人们说到老板时常用“赚钱”来形容,说......

    CEO交流圈

    0

    0

    1 月前

  • 5张图告诉你,把店开在哪个位置最赚钱5张图告诉你,把店开在哪个位置最赚钱点击标题下「蓝色字体」可快速关注摘要5张图告诉你,把店开在哪个位置最赚钱决定一家店铺成败的先行要素莫过于选址。今天,给大家分享一篇图文结合、......

    深度创业

    0

    0

    1 月前

  • 人在困难时,记住六句话!人在困难时,记住六句话!点击上方快速加入 中国顶尖老板学习社区1、谁都有困难,谁都不容易没什么好抱怨的,你困难,别人也困难,只不过有些困难,你看不到,那种苦只有自......

    顶尖老板圈子

    0

    0

    1 月前

点击加载更多资讯
  • 最新
  • 最热
  • 推荐
  • 最赞