NLTK怎么安装使用(nltk,开发技术)

NLTK怎么安装使用

导读：本文共3863字符，通常情况下阅读需要13分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：安装第一种方法，可以用Anaconda来安装NLTK：condainstallnltk第二种方法，可以用pip，在Jupyter Notebook的单元中运行安装NLTK：!pipinstall--upgradenltk如果以下 Python 代码运行没有错误，则说明安装是成功的：importnltkNLTK 附带了大量可以下载的数据（语料库、语法、模型等），所... ...

音频解说

接下来，我们构建从评论文件中读取的所有单词的列表。我们保留一个单独的正面和负面词列表，以确保在我们选取最重要的词时保持平衡。（我还在没有将单词列表分开的情况下对其进行了测试，结果发现大多数正面评论都被归类为负面评论。）同时，我们还可以创建所有正面评论和所有负面评论的列表。

运行此代码可能需要一段时间，因为有很多文件。

然后，我们只保留正面和负面词列表中的前N 个词（在本例中为 2000 个词）并将它们组合起来。

现在我们可以编写一个特征提取器。如前所述，它应该返回一个字典，其中每个最上面的单词作为键，True或者False作为值，这取决于该单词是否存在于文本中。

然后我们创建一个训练集，我们将其提供给朴素贝叶斯分类器。训练集应该是一个元组列表，其中每个元组的第一个元素是特征集，第二个元素是标签。

上面的行占用大量 RAM 并且速度很慢，因此您可能希望通过获取评论列表的一部分来使用评论的子集。

训练分类器很简单：

要立即对评论进行分类，请classify在新功能集上使用该方法：

如果你想要查看每个标签的概率，可以用prob_classify替代：

分类器具有基于测试集确定模型准确性的内置方法。该测试集的形状与训练集相同。电影评论数据集有一个单独的目录，其中包含可用于此目的的评论。

使用 N = 2000，在训练集中有 5000 条正面评论和 5000 条负面评论，我用这段代码获得了大约 85% 的准确率。

本文：NLTK怎么安装使用的详细内容，希望对您有所帮助，信息来源于网络。

NLTK怎么安装使用(nltk,开发技术)

目录

20 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计