大数据自然语言处理的技术难点与解决方案(大数据分析技术方案,关键词优化)

大数据自然语言处理的技术难点与解决方案

导读：本文共1933.5字符，通常情况下阅读需要6分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：我们谈到大数据算法，自然会想到最常用的自然语言处理。可以说目前非常多的应用场景都涉及到这个部分。例如：舆情系统，智能客服，服务满意度调查，社区民生分析等等。都是自然语言处理技术的使用场景。很多人觉得不就是个分词+语义分析吗？有什么技术？其实不然，这部分确实存在着一些难题，我们今天就一起来探讨一下。我们做自然语言的处理（以中文为例）都需要分析什么呢？无外乎“字”“词”“句”“文”所以我们首先会用到分... ...

音频解说

所以我们首先会用到分词算法，因为自然语言的分析不太容易从字来分析，因为总会有些上下语意存在，比如“好”字是正向还是负向？单讲这个字好像是正向意义，但是还有语境，比如一个人恶狠狠的说：“好”。这就是负面的情绪。

所以我们做自然语言的分析，先从最小语意单元“词”来说起。

一我们通过几个实力来看看分词的技术难点有哪些

北京德塔精要信息技术有限公司，这个要进行分词，就出现了第一个问题，颗粒度问题。

例如：北京德塔精要信息技术有限公司，信息技术，德塔精要，北京德塔，有限公司等等我们觉得很明确的分词，但接下来就出现问题了，例如：技术有限，精要信息等不准确的分词。

同义词和近义词判断问题：比如：年报和年度报告这样的同义词好判断，德塔精要和北京德塔这样的专有名词不好判断。

上下文依赖性问题判断：比如上文中提到的“好”，还有例如：什么意思，小意思，意思意思等等

文中的指代词代表什么的判断：比如：我司决定中的我司代表什么公司，甲方承担一切责任的甲方代表什么公司，等等

转意词的判断：美元持续疲软的疲软是指什么意思？

二上面介绍了词的关键难点，下面我们再来了解一下句子处理的关键点

歧义的语句排查与判断，例如：两个公司的CTO，到底是两个CTO还是一个人兼任了两家公司的CTO又或是一个公司有两个CTO？。

短句问题带来的问题判断与排除：限量的网球拍卖了。是”网球拍“卖了，还是”网球“”拍卖“了。

三相关领域的语言习惯知识图谱构建难度

专有名词库的构建

行业词汇转译词库的构建

关系关联知识构建

……

那么，我们利用大数据该如何解决以上的问题呢？

首先，我们从词，句，文，三个阶段去分析

词分析：分词，词性，词的颗粒度，词所在语句的位置，同义词，转意词

句分析：句法结构，包含词的重要性分析，文本纠错，省略转换，代词转换，语意主题分析，词串结构分析等。

文分析：关键信息提取，情感意见分析，知识图谱，文档内容分析等等。

然后，我们需要根据场景构建语言模型库

例如：计算机专业领域文本语言模型，医疗专业领域文本语言模型等等，这是从行业角度来构建的文本语言模型。还有从场景角度来构建文本语言模型，例如：评论类别语言模型，新闻类别语言模型，合同类别语言模型等等。

利用机器学习实现泛化能力

泛化能力（generalizationability）是指算法对新样本的适应能力，俗称“举一反三”的能力，传统的做法都是建立词汇库，然后进行算法比对，那么，这个词库就需要频繁的更新，效果也会逐渐降低。所以，我们让程序自动优化模型，自主学习，增强泛化能力，持续提升文本语言分析效果。

本文：大数据自然语言处理的技术难点与解决方案的详细内容，希望对您有所帮助，信息来源于网络。

大数据自然语言处理的技术难点与解决方案(大数据分析技术方案,关键词优化)

目录

4 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计