一个人工智能项目里的中文分词方案

摘要:
所有的搜索者都知道,汉语分词通常从建立词库开始,然后根据词库进行分词。如果你想减少这样的问题,现在的主要解决方案是在后端构建一个条目系统,通过积累找到高频词,将高频词添加到词库中,然后对词进行分段。然而,仍然存在时间滞后问题,不适合即时内容判断。最近,我接手了一个舆论人工智能项目。为了避免上述问题,采取了以下措施。

做搜索的都知道,中文分词,一般都是先建一个词库,再根据词库进行分词。但是这样做有两个问题:1.存在歧义词,2.不容易发现新词。尤其第2点,在处理舆情类内容时更是如此。如果想减少这类问题,现在的主要解决手段,一般都是在后端建一个词条系统,通过累积找到高频词,然后把高频词加到词库中,再进行分词。但是这样做仍然有一个时间差问题,不适合即时性的内容判断。
最近接手了一个舆情类的人工智能项目,为了避免上述问题,采用以下手段。方法如下:
1. 拿到整个文本。
2. 按照文本段落,分成多个文本块。
3. 每个文本块,根据标点符号,切成多个文本句。
4. 对文本句进行二元分词。
5. 统计高频词,记录这些高频词的文本位置。
6. 以高频词为断点,重新对文本句进行分词,得到非高频词。
7. 结合词库分词。
8. 统计词条出现频率,标记属性,提交给后续任务做内容分析。
试验下来,用时基本相同,效果比单纯的词库分词要好,容易发现新词和敏感词,这对分析舆情内容非常有帮助。

免责声明:文章转载自《一个人工智能项目里的中文分词方案》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇iOS歌词解析Sql server 实用技巧总结下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

redis的搜索组件 redis-search4j

redis-search4j是一款基于redis的搜索组件。 特点 1.基于redis,性能高效 2.实时更新索引 3.支持Suggest前缀、拼音查找(AutoComplete功能) 4.支持单个或多个分词搜索 5.可根据字段进行结果排序 环境 1.jdk 1.6+ 2.redis 2.2+ 依赖包 1.Jedis-2.1.0 2.commons-...

自然语言中的词法分析、语法分析、句法分析

1.词法分析 词是自然语言中能够独立运用的最小单位,是自然语言处理的基本单位。词法分析就是利用计算机对自然语言的形态 (morphology) 进行分析,判断词的结构和类别等。 词法分析的主要任务是:①:能正确的把一串连续的字符切分成一个一个的词 ②:能正确地判断每个词的词性,以便于后续的句法分析的实现。 常见的中文分词算法:(分为三类,1.基于字符串匹配...

【中文分词】二阶隐马尔可夫模型2-HMM

在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(context)。对于此,本文将介绍更为复杂的二阶HMM以及开源实现。 1...

文本摘要

整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用 再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码 其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习   1). text-rank基于的...

[转]智能聊天机器人小黄鸡及其制作方法

转自http://www.cnblogs.com/huj690/archive/2013/01/24/2875114.html      讲前先预热一下,如果有还不熟悉小黄鸡的亲~欢迎大家戳这里http://mysimi.sinaapp.com/ 自制小黄鸡一枚,欢迎测试。。暂且叫他小黄鸡2号~1号在后面哈        大家好,我是沐儿,今天很荣...

域选项

【名词】 文档 :文件,相当于数据表中的一条记录 域(Field) :数据中一列(字段)就称为域,在这里域就是文档的一个属性 【Field.Store】 YES :在索引文件中存储域的内容,存储的内容可以方便文档恢复 NO :不在索引文件中存储域内容,恢复时无法完整进行恢复(无法通过doc.get()进行获取) 注:实际使用时一般正文是不会进行存储的...