NLTK怎么安装使用(nltk,开发技术)

时间:2024-05-07 22:46:30 作者 : 石家庄SEO 分类 : 开发技术
  • TAG :

    NLTK%E6%80%8E%E4%B9%88%E5%AE%89%E8%A3%85%E4%BD%BF%E7%94%A8

第一种方法,可以用Anaconda来安装NLTK:

第二种方法,可以用pip,在Jupyter Notebook的单元中运行安装NLTK:

如果以下 Python 代码运行没有错误,则说明安装是成功的:

NLTK 附带了大量可以下载的数据(语料库、语法、模型等),所以只需运行以下的 Python 命令就会出现一个显示交互式下载窗口:

对于此模块,你还需要安装“停用词”的语料库。下载后,还要再创建一个名为NLTK_DATA包含下载目录路径的环境变量(如果你进行集中安装,则不需要;有关安装数据的完整指南,请参阅文档)。

对文本进行分类意味着要为其分配标签。我们可以采用多种方式对文本进行分类,例如情感分析(正面/负面/中性)、垃圾邮件分类(垃圾邮件/非垃圾邮件)、按文档主题等。

在本模块中,我们将使用大型电影评论数据集演练文本分类示例,该数据集提供 25,000 条电影评论(正面和负面)用于训练和相同数量的测试。

NLTK 提供了一个朴素贝叶斯分类器来处理机器学习工作。我们的工作主要是编写一个从文本中提取“特征”的函数。分类器使用这些特征来执行其分类。

我们的函数称为feature extractor,它接受一个字符串(文本)作为参数,并返回一个将特征名称映射到它们的值的字典,称为feature set。

对于电影评论,我们的特征将是前N 个词(不包括停用词)。因此,特征提取器将返回一个特征集,其中包含这N 个单词作为键,并返回一个布尔值,表示它们的存在或不存在作为值。

第一步是浏览评论,存储所有单词(停用词除外),并找到最常用的单词。

首先,这个辅助函数接受一个文本并输出它的非停用词:

word_tokenize将文本拆分为一个标记列表(仍然保留标点符号)。

mark_negation用 _NEG 标记否定后的标记。所以,例如,“我不喜欢这个。”在标记化和标记否定之后变成这个:

["I", "did", "not", "enjoy_NEG", "this_NEG", "."].

最后一行删除所有停用词(包括否定词)和标点符号。文中还有很多没用的词,比如“我”或者“这个”,但是这个过滤就足够我们演示了。

接下来,我们构建从评论文件中读取的所有单词的列表。我们保留一个单独的正面和负面词列表,以确保在我们选取最重要的词时保持平衡。(我还在没有将单词列表分开的情况下对其进行了测试,结果发现大多数正面评论都被归类为负面评论。)同时,我们还可以创建所有正面评论和所有负面评论的列表。

运行此代码可能需要一段时间,因为有很多文件。

然后,我们只保留正面和负面词列表中的前N 个词(在本例中为 2000 个词)并将它们组合起来。

现在我们可以编写一个特征提取器。如前所述,它应该返回一个字典,其中每个最上面的单词作为键,True或者False作为值,这取决于该单词是否存在于文本中。

然后我们创建一个训练集,我们将其提供给朴素贝叶斯分类器。训练集应该是一个元组列表,其中每个元组的第一个元素是特征集,第二个元素是标签。

上面的行占用大量 RAM 并且速度很慢,因此您可能希望通过获取评论列表的一部分来使用评论的子集。

训练分类器很简单:

要立即对评论进行分类,请classify在新功能集上使用该方法:

如果你想要查看每个标签的概率,可以用prob_classify替代:

分类器具有基于测试集确定模型准确性的内置方法。该测试集的形状与训练集相同。电影评论数据集有一个单独的目录,其中包含可用于此目的的评论。

使用 N = 2000,在训练集中有 5000 条正面评论和 5000 条负面评论,我用这段代码获得了大约 85% 的准确率。

本文:NLTK怎么安装使用的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:HTML的onclick属性怎么实现单击处理下一篇:

20 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18