Python jieba分词怎么添加自定义词和去除不需要长尾词(jieba,python,开发技术)

时间:2024-05-09 21:33:17 作者 : 石家庄SEO 分类 : 开发技术
  • TAG :

通过如下代码,读取一个txt的高频词汇:

#找到高频词汇tmp_content=self.getContent(tmp_path)keyword_list=tmp_content.split('\n')word_count=dict()forkeywordinkeyword_list:forword,flaginjp.cut(keyword):ifwordinword_count:word_count[word]=word_count[word]+1else:word_count[word]=1forword,countinword_count.items():print('%s\t%s'%(word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

Python jieba分词怎么添加自定义词和去除不需要长尾词

一、添加自定义词

通过添加自定义词

importjiebaimportjieba.possegasjpjieba.load_userdict(r'jieba_dict.txt')

Python jieba分词怎么添加自定义词和去除不需要长尾词

就可以看到,统计出来的词是这个自定义词

Python jieba分词怎么添加自定义词和去除不需要长尾词

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

importjiebaimportjieba.possegasjpjieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

Python jieba分词怎么添加自定义词和去除不需要长尾词

 </div> <div class="zixun-tj-product adv-bottom"></div> </div> </div> <div class="prve-next-news">
本文:Python jieba分词怎么添加自定义词和去除不需要长尾词的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:uni-app开发微信小程序之H5压缩上传图片的问题怎么解决下一篇:

4 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18