人工智能项目中的中文分词方案,一个人工智能项目里的中文分词方案

一个人工智能项目里的中文分词方案

摘要：

所有的搜索者都知道，汉语分词通常从建立词库开始，然后根据词库进行分词。如果你想减少这样的问题，现在的主要解决方案是在后端构建一个条目系统，通过积累找到高频词，将高频词添加到词库中，然后对词进行分段。然而，仍然存在时间滞后问题，不适合即时内容判断。最近，我接手了一个舆论人工智能项目。为了避免上述问题，采取了以下措施。

做搜索的都知道，中文分词，一般都是先建一个词库，再根据词库进行分词。但是这样做有两个问题：1.存在歧义词，2.不容易发现新词。尤其第2点，在处理舆情类内容时更是如此。如果想减少这类问题，现在的主要解决手段，一般都是在后端建一个词条系统，通过累积找到高频词，然后把高频词加到词库中，再进行分词。但是这样做仍然有一个时间差问题，不适合即时性的内容判断。
最近接手了一个舆情类的人工智能项目，为了避免上述问题，采用以下手段。方法如下：
1. 拿到整个文本。
2. 按照文本段落，分成多个文本块。
3. 每个文本块，根据标点符号，切成多个文本句。
4. 对文本句进行二元分词。
5. 统计高频词，记录这些高频词的文本位置。
6. 以高频词为断点，重新对文本句进行分词，得到非高频词。
7. 结合词库分词。
8. 统计词条出现频率，标记属性，提交给后续任务做内容分析。
试验下来，用时基本相同，效果比单纯的词库分词要好，容易发现新词和敏感词，这对分析舆情内容非常有帮助。

免责声明：文章转载自《一个人工智能项目里的中文分词方案》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

一个人工智能项目里的中文分词方案

相关文章

redis的搜索组件 redis-search4j

自然语言中的词法分析、语法分析、句法分析

【中文分词】二阶隐马尔可夫模型2-HMM

文本摘要

[转]智能聊天机器人小黄鸡及其制作方法

域选项

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表