Python jieba分词怎么添加自定义词和去除不需要长尾词
导读:本文共1070.5字符,通常情况下阅读需要4分钟。同时您也可以点击右侧朗读,来听本文内容。按键盘←(左) →(右) 方向键可以翻页。
摘要: 通过如下代码,读取一个txt的高频词汇:#找到高频词汇tmp_content=self.getContent(tmp_path)keyword_list=tmp_content.split('\n')word_count=dict()forkeywordinkeyword_list:forword,flaginjp.cut(keywor... ...
音频解说
目录
(为您整理了一些要点),点击可以直达。通过如下代码,读取一个txt的高频词汇:
#找到高频词汇tmp_content=self.getContent(tmp_path)keyword_list=tmp_content.split('\n')word_count=dict()forkeywordinkeyword_list:forword,flaginjp.cut(keyword):ifwordinword_count:word_count[word]=word_count[word]+1else:word_count[word]=1forword,countinword_count.items():print('%s\t%s'%(word,count))
很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下
建立
和 可视化
是2个独立的单词
一、添加自定义词
通过添加自定义词
importjiebaimportjieba.possegasjpjieba.load_userdict(r'jieba_dict.txt')
就可以看到,统计出来的词是这个自定义词
二、去除不需要长尾词
有时 统计出来的某些词汇jieba
认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:
importjiebaimportjieba.possegasjpjieba.del_word('创建活动')
此时 jieba 就会不认定 创建活动
是一个词,它会将它们分开统计
</div> <div class="zixun-tj-product adv-bottom"></div> </div> </div> <div class="prve-next-news">
本文:
Python jieba分词怎么添加自定义词和去除不需要长尾词的详细内容,希望对您有所帮助,信息来源于网络。