基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的(CRF,java,编程语言)

基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的

导读：本文共2113.5字符，通常情况下阅读需要7分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于最大熵依存句法分析器的实现，分析速度翻了一倍，达到了1262.8655 sent/s开源项目本文代码已集成到HanLP中开源项目中，最新hanlp1.7版本已经发布CRF简介CRF是序列标注场景中常用的... ...

音频解说

标准的维特比算法假定所有标签都是合法的，但是在本CRF模型中，标签还受到句子的约束。比如最后一个词的标签不可能是+nPos，必须是负数，而且任何词的[+/-]nPos都得保证后面（或前面，当符号为负的时候）有n个词语的标签是Pos。所以我覆写了CRF的维特比tag算法，代码如下：

基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的

注意上面的

1.if (!isLegal(j, i, table)) continue;

保证了标签的合法性。

这一步的结果：

基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的

后续处理

有了依存的对象，还需要知道这条依存关系到底是哪种具体的名称。我从树库中统计了两个词的词与词性两两组合出现概率，姑且称其为2gram模型，用此模型接受依存边两端的词语，输出其最可能的关系名称。

最终结果

转换为CoNLL格式输出：

基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的

 </div> <div class="zixun-tj-product adv-bottom"></div> </div> </div> <div class="prve-next-news">

本文：基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的的详细内容，希望对您有所帮助，信息来源于网络。

基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的(CRF,java,编程语言)

目录

11 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计