Python中常见的科学类库怎么用(python,开发技术)

Python中常见的科学类库怎么用

导读：本文共4104.5字符，通常情况下阅读需要14分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要： Wget提取数据，尤其是从网络中提取数据，是数据科学家的重要任务之一。Wget 是一个免费的工具，用于从网络上非交互式下载文件。它支持 HTTP、HTTPS 和 FTP 协议，以及通过 HTTP 代理进行访问。因为它是非交互式的，所以即使用户没有登录，它也可以在后台工作。所以下次你想下载一个网站或者网页上的所有图片，wget 会提供帮助。安装：$pipinsta... ...

音频解说

提取数据，尤其是从网络中提取数据，是数据科学家的重要任务之一。Wget 是一个免费的工具，用于从网络上非交互式下载文件。它支持 HTTP、HTTPS 和 FTP 协议，以及通过 HTTP 代理进行访问。因为它是非交互式的，所以即使用户没有登录，它也可以在后台工作。所以下次你想下载一个网站或者网页上的所有图片，wget 会提供帮助。

安装：

$pipinstallwget

例子：

importwgeturl='http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename=wget.download(url)100%[................................................]3841532/3841532filename'razorback.mp3'

钟摆

对于在 Python 中处理日期时间感到沮丧的人来说， Pendulum 库是很有帮助的。这是一个 Python 包，可以简化日期时间操作。它是 Python 原生类的一个替代品。有关详细信息，请参阅其文档。

安装：

$pipinstallpendulum

例子：

importpendulumdt_toronto=pendulum.datetime(2012,1,1,tz='America/Toronto')dt_vancouver=pendulum.datetime(2012,1,1,tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3

不平衡学习

当每个类别中的样本数几乎相同（即平衡）时，大多数分类算法会工作得最好。但是现实生活中的案例中充满了不平衡的数据集，这可能会影响到机器学习算法的学习和后续预测。幸运的是，imbalanced-learn 库就是为了解决这个问题而创建的。它与 scikit-learn 兼容，并且是 scikit-learn-contrib 项目的一部分。下次遇到不平衡的数据集时，可以尝试一下。

安装：

pipinstall-Uimbalanced-learn#orcondainstall-cconda-forgeimbalanced-learn

例子：

有关用法和示例，请参阅其文档。

FlashText

在自然语言处理（NLP）任务中清理文本数据通常需要替换句子中的关键词或从句子中提取关键词。通常，这种操作可以用正则表达式来完成，但是如果要搜索的术语数达到数千个，它们可能会变得很麻烦。

Python 的 FlashText 模块，基于 FlashText 算法，为这种情况提供了一个合适的替代方案。FlashText 的最佳部分是运行时间与搜索项的数量无关。你可以在其文档中读到更多关于它的信息。

安装：

$pipinstallflashtext

例子：

提取关键词：

fromflashtextimportKeywordProcessorkeyword_processor=KeywordProcessor()#keyword_processor.add_keyword(,)keyword_processor.add_keyword('BigApple','NewYork')keyword_processor.add_keyword('BayArea')keywords_found=keyword_processor.extract_keywords('IloveBigAppleandBayArea.')keywords_found['NewYork','BayArea']

替代关键词：

keyword_processor.add_keyword('NewDelhi','NCRregion')new_sentence=keyword_processor.replace_keywords('IloveBigAppleandnewdelhi.')new_sentence'IloveNewYorkandNCRregion.'

有关更多示例，请参阅文档中的用法一节。

模糊处理

这个名字听起来很奇怪，但是 FuzzyWuzzy 在字符串匹配方面是一个非常有用的库。它可以很容易地实现字符串匹配率、令牌匹配率等操作。对于匹配保存在不同数据库中的记录也很方便。

安装：

$pipinstallfuzzywuzzy

例子：

fromfuzzywuzzyimportfuzzfromfuzzywuzzyimportprocess#简单的匹配率fuzz.ratio("thisisatest","thisisatest!")97#部分的匹配率fuzz.partial_ratio("thisisatest","thisisatest!")100

更多的例子可以在 FuzzyWuzy 的 GitHub 仓库得到。

PyFlux

时间序列分析是机器学习中最常遇到的问题之一。PyFlux 是 Python 中的开源库，专门为处理时间序列问题而构建的。该库拥有一系列优秀的现代时间序列模型，包括但不限于 ARIMA、GARCH 以及 VAR 模型。简而言之，PyFlux 为时间序列建模提供了一种概率方法。这值得一试。

安装：

pipinstallpyflux

例子：

有关用法和示例，请参阅其文档。

IPyvolume

交流结果是数据科学的一个重要方面，可视化结果提供了显著优势。 IPyvolume 是一个 Python 库，用于在 Jupyter 笔记本中可视化 3D 体积和形状（例如 3D 散点图），配置和工作量极小。然而，它目前处于 1.0 之前的阶段。一个很好的类比是这样的: IPyVolumee volshow 是 3D 阵列，Matplotlib 的 imshow 是 2D 阵列。你可以在其文档中读到更多关于它的信息。

安装：

Usingpip$pipinstallipyvolumeConda/Anaconda$condainstall-cconda-forgeipyvolume

例子：

动画：

体绘制：

Dash

Dash 是一个用于构建 Web 应用程序的高效 Python 框架。它构建于 Flask、Plotty.js 和 Response.js 之上，将下拉菜单、滑块和图形等流行 UI 元素与你的 Python 分析代码联系起来，而不需要JavaScript。Dash 非常适合构建可在 Web 浏览器中呈现的数据可视化应用程序。有关详细信息，请参阅其用户指南。

安装：

pipinstalldash==0.29.0#Thecoredashbackendpipinstalldash-html-components==0.13.2#HTMLcomponentspipinstalldash-core-components==0.36.0#Superchargedcomponentspipinstalldash-table==3.1.3#InteractiveDataTablecomponent(new!)

例子：

下面的示例显示了一个具有下拉功能的高度交互的图表。当用户在下拉列表中选择一个值时，应用程序代码将数据从 Google Finance 动态导出到 Pandas 数据框架中。

Gym

从 OpenAI 而来的 Gym 是开发和比较强化学习算法的工具包。它与任何数值计算库兼容，如 TensorFlow 或 Theano。Gym 是一个测试问题的集合，也称为“环境”，你可以用它来制定你的强化学习算法。这些环境有一个共享的接口，允许您编写通用算法。

安装：

pipinstallgym

例子：

以下示例将在 CartPole-v0 环境中，运行 1000 次，在每一步渲染环境。

你可以在 Gym 网站上读到其它的环境。

 </div> <div class="zixun-tj-product adv-bottom"></div> </div> </div> <div class="prve-next-news">

本文：Python中常见的科学类库怎么用的详细内容，希望对您有所帮助，信息来源于网络。

Python中常见的科学类库怎么用(python,开发技术)

目录

Wget

钟摆

不平衡学习

FlashText

模糊处理

PyFlux

IPyvolume

Dash

Gym

3 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计