中文分词工具包 PKUSeg

摘要:
GitHub地址:https://github.com/lancopku/PKUSeg-pythonMSRA数据:http://sighan.cs.uchicago.edu/bakeoff2005/参考文件:https://www.codercto.com/a/50439.htmlPKUSeg提供了三个预训练模型,其中一个是在不同类型的数据集上训练的。使用MSRA(新闻语料库)训练的模型:https:

GitHub地址:https://github.com/lancopku/PKUSeg-python

MSRA数据:http://sighan.cs.uchicago.edu/bakeoff2005/

参考文档:https://www.codercto.com/a/50439.html

PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的

一. 用MSRA (新闻语料) 训练出的模型:

https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

二. 用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:

https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

三. 在微博 (网络文本语料) 上训练的模型:

https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

免责声明:文章转载自《中文分词工具包 PKUSeg》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇virtualbox 虚拟ubuntu如何设置分辨率[Forwored]控件中国网:WebGrid.NET Enterprise®,一个为ASP.NET平台下WEB开发而设计的高级数据表格控件。(最新版本发布)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

中文分词工具探析(一):ICTCLAS (NLPIR)

【开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具探析(六):Stanford CoreNLP 开源中文分词工具探析(七):LTP 1...

Lucene实践之中文分词IKAalyzer

做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词。 Game Starts 参考文档   1) 中文分词之Java实现使用IK Analyzer实现   2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包   1) IKAnalyzer2012FF_u1.jar 最好使用这个版本下面说 [百度网盘下载]   2...

一个人工智能项目里的中文分词方案

做搜索的都知道,中文分词,一般都是先建一个词库,再根据词库进行分词。但是这样做有两个问题:1.存在歧义词,2.不容易发现新词。尤其第2点,在处理舆情类内容时更是如此。如果想减少这类问题,现在的主要解决手段,一般都是在后端建一个词条系统,通过累积找到高频词,然后把高频词加到词库中,再进行分词。但是这样做仍然有一个时间差问题,不适合即时性的内容判断。最近接手了...

【盘古分词】Lucene.Net 盘古分词 实现公众号智能自动回复

盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/的/确实/在理/...

Elasticsearch 建立ik中文分词器和自定义分词

一、建立ik中文分词器 1、下载ik中文分词器 进入https://github.com/medcl/elasticsearch-analysis-ik 使用第一种方式安装,进入https://github.com/medcl/elasticsearch-analysis-ik/releases 选择版本7.4.2 。和ES7.4.2的版本保持一致。...

基于Tire树和最大概率法的中文分词功能的Java实现

对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订。 1.   Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计、排序及存储的一种树形结构。其具有如下三个性质: 1)      根节点不包含字符(或汉字),除根节点以外的每个节点只能包含一个字符(汉字) 2)      从根节点到任一节点的路径上...