常用中文分词工具分词&词性标注简单应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)

摘要:
与约24小时前相比,美国的确诊病例和死亡病例分别增加了至少20400例和466例。目前,美国最严重的疫情仍在纽约州,确诊病例至少为52410例。此外,新泽西州有11124例确诊病例,加利福尼亚州有5065例,密歇根州有4650例,马萨诸塞州有4257例,华盛顿州有4008例,2: “x”},{1:'',2:'x'}]2.pythanlp分词&词性标记#-*-编码:utf-8-*-frompythanlimp

1、jieba分词&词性标注

import jieba
import jieba.posseg as posseg
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
# 精确模式
seg_list = jieba.cut(txt1,cut_all=False)
# seg_list = jieba.cut_for_search(txt1)
print("jieba分词:" + "/ ".join(seg_list)) # 精确模式
list = posseg.cut(txt1)
tag_list =[]
for tag in list :
    pos_word = {  }
    pos_word[1] = tag.word
    pos_word[2] = tag.flag
    tag_list.append(pos_word)
print('jieba词性标注:',tag_list)
结果展示:
jieba分词:
/ 文本/ 一/ :/ 
/ 人民网/ 华盛顿/ 3/ 月/ 28/ 日电/ (/ 记者/ 郑琪/ )/ 据/ 美国/ 约翰斯/ ·/ 霍普金斯大学/ 疫情/ 实时/ 监测/ 系统/ 显示/ ,/ 截至/ 美/ 东/ 时间/ 3/ 月/ 28/ 日/ 下午/ 6/ 时/ ,/ 
/ 美国/ 已经/ 至少/ 有/ 新冠/ 病毒感染/ 病例/ 121117/ 例/ ,/ 其中/ 包括/ 死亡/ 病例/ 2010/ 例/ 。/ 
/ 与/ 大约/ 24/ 小时/ 前/ 相比/ ,/ 美国/ 确诊/ 病例/ 至少/ 增加/ 了/ 20400/ 例/ ,/ 死亡/ 病例/ 至少/ 增加/ 了/ 466/ 例/ 。/ 
/ 目前/ 美国/ 疫情/ 最为/ 严重/ 的/ 仍/ 是/ 纽约州/ ,/ 共有/ 确诊/ 病例/ 至少/ 52410/ 例/ 。/ 此外/ ,/ 新泽西州/ 有/ 确诊/ 病例/ 11124/ 例/ ,/ 加利福尼亚州/ 有/ 5065/ 例/ ,/ 
/ 密歇根州/ 有/ 4650/ 例/ ,/ 马塞诸塞/ 州/ 有/ 4257/ 例/ ,/ 华盛顿州/ 有/ 4008/ 例/ 。/ 

jieba词性标注: [{1: '
', 2: 'x'}, {1: '文本', 2: 'n'}, {1: '', 2: 'm'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}, {1: '人民网', 2: 'n'}, {1: '华盛顿', 2: 'ns'}, {1: '3', 2: 'm'}, {1: '', 2: 'm'}, {1: '28', 2: 'm'}, {1: '日电', 2: 'j'}, {1: '', 2: 'x'}, {1: '记者', 2: 'n'}, {1: '郑琪', 2: 'nr'}, {1: '', 2: 'x'}, {1: '', 2: 'p'}, {1: '美国', 2: 'ns'}, {1: '约翰斯', 2: 'nrt'}, {1: '·', 2: 'x'}, {1: '霍普金斯大学', 2: 'nt'}, {1: '疫情', 2: 'n'}, {1: '实时', 2: 'd'}, {1: '监测', 2: 'vn'}, {1: '系统', 2: 'n'}, {1: '显示', 2: 'v'}, {1: '', 2: 'x'}, {1: '截至', 2: 'v'}, {1: '', 2: 'ns'}, {1: '', 2: 'ns'}, {1: '时间', 2: 'n'}, {1: '3', 2: 'm'}, {1: '', 2: 'm'}, {1: '28', 2: 'm'}, {1: '', 2: 'm'}, {1: '下午', 2: 't'}, {1: '6', 2: 'm'}, {1: '', 2: 'n'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}, {1: '美国', 2: 'ns'}, {1: '已经', 2: 'd'}, {1: '至少', 2: 'd'}, {1: '', 2: 'v'}, {1: '', 2: 'a'}, {1: '', 2: 'n'}, {1: '病毒感染', 2: 'n'}, {1: '病例', 2: 'n'}, {1: '121117', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '其中', 2: 'r'}, {1: '包括', 2: 'v'}, {1: '死亡', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '2010', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}, {1: '', 2: 'p'}, {1: '大约', 2: 'd'}, {1: '24', 2: 'm'}, {1: '小时', 2: 'n'}, {1: '', 2: 'f'}, {1: '相比', 2: 'v'}, {1: '', 2: 'x'}, {1: '美国', 2: 'ns'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '增加', 2: 'v'}, {1: '', 2: 'ul'}, {1: '20400', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '死亡', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '增加', 2: 'v'}, {1: '', 2: 'ul'}, {1: '466', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}, {1: '目前', 2: 't'}, {1: '美国', 2: 'ns'}, {1: '疫情', 2: 'n'}, {1: '最为', 2: 'd'}, {1: '严重', 2: 'a'}, {1: '', 2: 'uj'}, {1: '', 2: 'd'}, {1: '', 2: 'v'}, {1: '纽约州', 2: 'ns'}, {1: '', 2: 'x'}, {1: '共有', 2: 'v'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '52410', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '此外', 2: 'c'}, {1: '', 2: 'x'}, {1: '新泽西州', 2: 'ns'}, {1: '', 2: 'v'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '11124', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '加利福尼亚州', 2: 'ns'}, {1: '', 2: 'v'}, {1: '5065', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}, {1: '密歇根州', 2: 'ns'}, {1: '', 2: 'v'}, {1: '4650', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '马塞诸塞', 2: 'nr'}, {1: '', 2: 'n'}, {1: '', 2: 'v'}, {1: '4257', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '华盛顿州', 2: 'ns'}, {1: '', 2: 'v'}, {1: '4008', 2: 'm'}, {1: '', 2: 'v'}, {1: '', 2: 'x'}, {1: '
', 2: 'x'}]

2、pyhanlp分词&词性标注

# -*- coding: utf-8 -*-
from pyhanlp import*
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
tag_word = HanLP.segment(txt1)
print('hanlp词性标注:',tag_word)

结果展示:

hanlp词性标注: [
/w, 文本/n, 一/m, :/w, 
/w, 人民网/nz, 华盛顿/nrf, 3月/t, 28/m, 日电/j, (/w, 记者/nnt, 郑琪/nr, )/w, 据/p, 美国/nsf, 约翰斯·/nrf, 霍普金斯大学/ntu, 疫情/n, 实时/n, 监测/vn, 系统/n, 显示/v, ,/w, 截至/v, 美东/ns, 时间/n, 3月/t, 28/m, 日/b, 下午/t, 6/m, 时/qt, ,/w, 
/w, 美国/nsf, 已经/d, 至少/d, 有/vyou, 新/a, 冠/ng, 病毒感染/nz, 病例/n, 121117/m, 例/n, ,/w, 其中/rz, 包括/v, 死亡/vi, 病例/n, 2010/m, 例/n, 。/w, 
/w, 与/cc, 大约/d, 24/m, 小时/n, 前/f, 相比/vi, ,/w, 美国/nsf, 确诊/v, 病例/n, 至少/d, 增加/v, 了/ule, 20400/m, 例/n, ,/w, 死亡/vi, 病例/n, 至少/d, 增加/v, 了/ule, 466/m, 例/n, 。/w, 
/w, 目前/t, 美国/nsf, 疫情/n, 最为/d, 严重/a, 的/ude1, 仍/d, 是/vshi, 纽约/nsf, 州/n, ,/w, 共有/v, 确诊/v, 病例/n, 至少/d, 52410/m, 例/n, 。/w, 此外/c, ,/w, 新泽西州/nsf, 有/vyou, 确诊/v, 病例/n, 11124/m, 例/n, ,/w, 加利福尼亚州/nsf, 有/vyou, 5065/m, 例/n, ,/w, 
/w, 密歇根州/nsf, 有/vyou, 4650/m, 例/n, ,/w, 马塞诸塞/nz, 州/n, 有/vyou, 4257/m, 例/n, ,/w, 华盛顿州/nsf, 有/vyou, 4008/m, 例/n, 。/w, 
/w]

3、pkuseg分词&词性标注

# -*- coding: utf-8 -*-
import pkuseg
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
#postag=False表示不词性标注,=True表示进行词性标注
seg = pkuseg.pkuseg(model_name='news',postag= False)
sge_word = seg.cut(txt1)
print('pkuseg分词:',sge_word)
tag = pkuseg.pkuseg(model_name='news',postag= True)
tag_word = tag.cut(txt1)
print('pkuseg词性标注:',tag_word)
pkuseg分词: ['文本', '', '', '人民网', '华盛顿', '3月28日', '', '', '记者', '郑琪', '', '', '美国', '约翰斯·霍普金斯大学', '疫情', '实时', '监测', '系统', '显示', '', '截至', '美东时间3月28日', '下午6时', '', '美国', '已经', '至少', '', '', '', '病毒', '感染', '病例', '121117例', '', '其中', '包括', '死亡', '病例', '2010例', '', '', '大约', '24小时', '', '相比', '', '美国', '确诊', '病例', '至少', '增加', '', '20400例', '', '死亡', '病例', '至少', '增加', '', '466例', '', '目前', '美国', '疫情', '最为', '严重', '', '仍是', '纽约州', '', '共有', '确诊', '病例', '至少', '52410例', '', '此外', '', '新泽西州', '', '确诊', '病例', '11124例', '', '加利福尼亚州', '', '5065例', '', '密歇根州', '', '4650例', '', '马塞诸塞州', '', '4257例', '', '华盛顿州', '', '4008例', '']
pkuseg词性标注: [('文本', 'n'), ('', 'm'), ('', 'w'), ('人民网', 'n'), ('华盛顿', 'ns'), ('3月28日', 'n'), ('', 'n'), ('', 'w'), ('记者', 'n'), ('郑琪', 'nr'), ('', 'w'), ('', 'p'), ('美国', 'ns'), ('约翰斯·霍普金斯大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'vn'), ('系统', 'n'), ('显示', 'v'), ('', 'w'), ('截至', 'v'), ('美东时间3月28日', 't'), ('下午6时', 't'), ('', 'w'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('', 'v'), ('', 'a'), ('', 'n'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('121117例', 'n'), ('', 'w'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'v'), ('病例', 'n'), ('2010例', 'n'), ('', 'w'), ('', 'p'), ('大约', 'd'), ('24小时', 'v'), ('', 'f'), ('相比', 'v'), ('', 'w'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'u'), ('20400例', 'n'), ('', 'w'), ('死亡', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'u'), ('466例', 'n'), ('', 'w'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('', 'u'), ('仍是', 'd'), ('纽约州', 'ns'), ('', 'w'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('52410例', 'v'), ('', 'w'), ('此外', 'c'), ('', 'w'), ('新泽西州', 'ns'), ('', 'v'), ('确诊', 'v'), ('病例', 'n'), ('11124例', 'n'), ('', 'w'), ('加利福尼亚州', 'ns'), ('', 'v'), ('5065例', 'n'), ('', 'w'), ('密歇根州', 'ns'), ('', 'v'), ('4650例', 'n'), ('', 'w'), ('马塞诸塞州', 'ns'), ('', 'v'), ('4257例', 'n'), ('', 'w'), ('华盛顿州', 'ns'), ('', 'v'), ('4008例', 'n'), ('', 'w')]

4、foolnltk分词&词性标注

# -*- coding: utf-8 -*-
import fool
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
#cut函数分词
cut_word = fool.cut(txt1)
print('foolnltk分词:',cut_word)
#pos_cut函数词性标注
tag_word = fool.pos_cut(txt1)
print('foolnltk词性标注:',tag_word)
#analysis函数命名实体识别

结果展示:

foolnltk分词: [['
', '文本', '', '', '
', '人民网', '华盛顿', '3月', '28日', '', '', '记者', '郑琪', '', '', '美国', '约翰斯·霍普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '', '截至', '美东', '时间', '3月', '28日', '下午', '6时', '', '
', '美国', '已经', '至少', '', '新冠', '病毒', '感染', '病例', '121117', '', '', '其中', '包括', '死亡', '病例', '2010', '', '', '
', '', '大约', '24', '小时', '', '相比', '', '美国', '确诊', '病例', '至少', '增加', '', '20400', '', '', '死亡', '病例', '至少', '增加', '', '466', '', '', '
', '目前', '美国', '疫情', '最为', '严重', '', '', '', '纽约州', '', '共有', '确诊', '病例', '至少', '52410', '', '', '此外', '', '新泽西州', '', '确诊', '病例', '11124', '', '', '加利福尼亚州', '', '5065', '', '', '
', '密歇根州', '', '4650', '', '', '马塞', '诸塞州', '', '4257', '', '', '华盛', '顿州', '', '4008', '', '', '
']]
2020-04-01 19:45:50.693558: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] Device interconnect StreamExecutor with strength 1 edge matrix:
2020-04-01 19:45:50.693761: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1165]      
foolnltk词性标注: [[('
', 'ns'), ('文本', 'n'), ('', 'm'), ('', 'wm'), ('
', 'nx'), ('人民网', 'n'), ('华盛顿', 'ns'), ('3月', 't'), ('28日', 't'), ('', 'n'), ('', 'wkz'), ('记者', 'n'), ('郑琪', 'nr'), ('', 'wky'), ('', 'p'), ('美国', 'ns'), ('约翰斯·霍普金斯', 'ns'), ('大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'n'), ('系统', 'n'), ('显示', 'v'), ('', 'wd'), ('截至', 'v'), ('美东', 'n'), ('时间', 'n'), ('3月', 't'), ('28日', 't'), ('下午', 't'), ('6时', 't'), ('', 'wd'), ('
', 'ns'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('', 'vyou'), ('新冠', 'nz'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('121117', 'm'), ('', 'q'), ('', 'wd'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'n'), ('病例', 'n'), ('2010', 'm'), ('', 'q'), ('', 'wj'), ('
', 'n'), ('', 'c'), ('大约', 'd'), ('24', 'm'), ('小时', 'n'), ('', 'f'), ('相比', 'vi'), ('', 'wd'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'y'), ('20400', 'n'), ('', 'n'), ('', 'wd'), ('死亡', 'n'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'y'), ('466', 'ns'), ('', 'n'), ('', 'wj'), ('
', 'n'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('', 'ude'), ('', 'd'), ('', 'vshi'), ('纽约州', 'n'), ('', 'wd'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('52410', 'v'), ('', 'n'), ('', 'wj'), ('此外', 'c'), ('', 'wd'), ('新泽西州', 'ns'), ('', 'vyou'), ('确诊', 'v'), ('病例', 'n'), ('11124', 'n'), ('', 'n'), ('', 'wd'), ('加利福尼亚州', 'ns'), ('', 'vyou'), ('5065', 'm'), ('', 'q'), ('', 'wd'), ('
', 'ns'), ('密歇根州', 'ns'), ('', 'vyou'), ('4650', 'm'), ('', 'q'), ('', 'wd'), ('马塞', 'ns'), ('诸塞州', 'ns'), ('', 'vyou'), ('4257', 'm'), ('', 'q'), ('', 'wd'), ('华盛', 'nz'), ('顿州', 'n'), ('', 'vyou'), ('4008', 'm'), ('', 'q'), ('', 'wj'), ('
', 'm')]]

5、thulac分词&词性标注

# -*- coding: utf-8 -*-
import thulac
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
#seg_only设置词性标注与否,deli设置分词以后以什么分隔
thu1 = thulac.thulac(seg_only=False, deli='_')
text = thu1.cut(txt1, text=True)
print('thulac分词:',text)
print('thulac词性标注:',text)

结果展示:

Model loaded succeed
thulac分词: 文本_n 一_m :_w
人民网_n 华盛顿_ns 3月_t 28日_t 电_n (_w 记者_n 郑琪_np )_w 据_p 美国_ns 约翰斯_np ·_w 霍普金斯_nz 大学_n 疫情_n 实时_a 监测_v 系统_n 显示_v ,_w 截至_v 美东_ns 时间_n 3月_t 28日_t 下午_t 6时_t ,_w
美国_ns 已经_d 至少_d 有_v 新_a 冠_v 病毒_n 感染_v 病例_n 121117_m 例_q ,_w 其中_r 包括_v 死亡_v 病例_n 2010_m 例_n 。_w
与_p 大约_d 24_m 小时_n 前_f 相比_v ,_w 美国_ns 确诊_v 病例_n 至少_d 增加_v 了_u 20400_m 例_q ,_w 死亡_v 病例_n 至少_d 增加_v 了_u 466_m 例_q 。_w
目前_t 美国_ns 疫情_n 最为_d 严重_a 的_u 仍_d 是_v 纽约州_ns ,_w 共有_v 确诊_v 病例_n 至少_d 52410_m 例_n 。_w 此外_c ,_w 新泽西州_ns 有_v 确诊_v 病例_n 11124_m 例_q ,_w 加利福尼亚州_ns 有_v 5065_m 例_q ,_w
密歇根州_ns 有_v 4650_m 例_q ,_w 马塞诸塞州_ns 有_v 4257_m 例_q ,_w 华盛顿州_ns 有_v 4008_m 例_q 。_w
thulac词性标注: 文本_n 一_m :_w
人民网_n 华盛顿_ns 3月_t 28日_t 电_n (_w 记者_n 郑琪_np )_w 据_p 美国_ns 约翰斯_np ·_w 霍普金斯_nz 大学_n 疫情_n 实时_a 监测_v 系统_n 显示_v ,_w 截至_v 美东_ns 时间_n 3月_t 28日_t 下午_t 6时_t ,_w
美国_ns 已经_d 至少_d 有_v 新_a 冠_v 病毒_n 感染_v 病例_n 121117_m 例_q ,_w 其中_r 包括_v 死亡_v 病例_n 2010_m 例_n 。_w
与_p 大约_d 24_m 小时_n 前_f 相比_v ,_w 美国_ns 确诊_v 病例_n 至少_d 增加_v 了_u 20400_m 例_q ,_w 死亡_v 病例_n 至少_d 增加_v 了_u 466_m 例_q 。_w
目前_t 美国_ns 疫情_n 最为_d 严重_a 的_u 仍_d 是_v 纽约州_ns ,_w 共有_v 确诊_v 病例_n 至少_d 52410_m 例_n 。_w 此外_c ,_w 新泽西州_ns 有_v 确诊_v 病例_n 11124_m 例_q ,_w 加利福尼亚州_ns 有_v 5065_m 例_q ,_w
密歇根州_ns 有_v 4650_m 例_q ,_w 马塞诸塞州_ns 有_v 4257_m 例_q ,_w 华盛顿州_ns 有_v 4008_m 例_q 。_w

6、nlpir分词&词性标注

# -*- coding: utf-8 -*-
import pynlpir
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
pynlpir.open()
#pos_tagging:是否进行词性标注
tag_seg = pynlpir.segment(txt1,pos_tagging=False)
print('pynlpir分词:',tag_seg)
tag_word = pynlpir.segment(txt1, pos_tagging=True)
print('pynlpir词性标注:',tag_word)
pynlpir.close()

结果展示:

pynlpir分词: ['文本', '', '', '
人民网', '华盛顿', '3月', '28日', '', '', '记者', '郑琪', '', '', '美国', '约翰斯·霍普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '', '截至', '', '', '时间', '3月', '28日', '下午', '6时', '', '
美国', '已经', '至少', '', '', '', '病毒', '感染', '病例', '121117', '', '', '其中', '包括', '死亡', '病例', '2010', '', '', '', '大约', '24', '小时', '', '相比', '', '美国', '确诊', '病例', '至少', '增加', '', '20400', '', '', '死亡', '病例', '至少', '增加', '', '466', '', '', '
目前', '美国', '疫情', '最为', '严重', '', '', '', '纽约州', '', '共有', '确诊', '病例', '至少', '52410', '', '', '此外', '', '新泽西州', '', '确诊', '病例', '11124', '', '', '加利福尼亚州', '', '5065', '', '', '
密歇根州', '', '4650', '', '', '马塞诸塞州', '', '4257', '', '', '华盛顿州', '', '4008', '', '']
pynlpir词性标注: [('文本', 'noun'), ('', 'numeral'), ('', 'punctuation mark'), ('
人民网', 'multiword expression'), ('华盛顿', 'noun'), ('3月', 'time word'), ('28日', 'time word'), ('', 'noun'), ('', 'punctuation mark'), ('记者', 'noun'), ('郑琪', 'noun'), ('', 'punctuation mark'), ('', 'preposition'), ('美国', 'noun'), ('约翰斯·霍普金斯', 'noun'), ('大学', 'noun'), ('疫情', 'noun'), ('实时', 'noun'), ('监测', 'verb'), ('系统', 'noun'), ('显示', 'verb'), ('', 'punctuation mark'), ('截至', 'verb'), ('', 'distinguishing word'), ('', 'distinguishing word'), ('时间', 'noun'), ('3月', 'time word'), ('28日', 'time word'), ('下午', 'time word'), ('6时', 'time word'), ('', 'punctuation mark'), ('
美国', 'noun'), ('已经', 'adverb'), ('至少', 'adverb'), ('', 'verb'), ('', 'adjective'), ('', 'noun'), ('病毒', 'noun'), ('感染', 'verb'), ('病例', 'noun'), ('121117', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('其中', 'pronoun'), ('包括', 'verb'), ('死亡', 'verb'), ('病例', 'noun'), ('2010', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('', 'preposition'), ('大约', 'adverb'), ('24', 'numeral'), ('小时', 'noun'), ('', 'noun of locality'), ('相比', 'verb'), ('', 'punctuation mark'), ('美国', 'noun'), ('确诊', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('增加', 'verb'), ('', 'particle'), ('20400', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('死亡', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('增加', 'verb'), ('', 'particle'), ('466', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('
目前', 'time word'), ('美国', 'noun'), ('疫情', 'noun'), ('最为', 'adverb'), ('严重', 'adjective'), ('', 'particle'), ('', 'adverb'), ('', 'verb'), ('纽约州', 'noun'), ('', 'punctuation mark'), ('共有', 'verb'), ('确诊', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('52410', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('此外', 'conjunction'), ('', 'punctuation mark'), ('新泽西州', 'noun'), ('', 'verb'), ('确诊', 'verb'), ('病例', 'noun'), ('11124', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('加利福尼亚州', 'noun'), ('', 'verb'), ('5065', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('
密歇根州', 'noun'), ('', 'verb'), ('4650', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('马塞诸塞州', 'noun'), ('', 'verb'), ('4257', 'numeral'), ('', 'classifier'), ('', 'punctuation mark'), ('华盛顿州', 'noun'), ('', 'verb'), ('4008', 'numeral'), ('', 'classifier'), ('', 'punctuation mark')]

7、snownlp分词&词性标注

# -*- coding: utf-8 -*-
from snownlp import SnowNLP
txt1 ='''
文本一:
人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时,
美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。
与大约24小时前相比,美国确诊病例至少增加了20400例,死亡病例至少增加了466例。
目前美国疫情最为严重的仍是纽约州,共有确诊病例至少52410例。此外,新泽西州有确诊病例11124例,加利福尼亚州有5065例,
密歇根州有4650例,马塞诸塞州有4257例,华盛顿州有4008例。
'''
s = SnowNLP(txt1)
print('snownlp分词:',s.words)
tag_list = []
for tag in s.tags:
    tag_list.append(tag)
print('snownlp词性标注:', tag_list)

结果展示:

snownlp分词: ['文本', '', '', '人民', '', '华盛顿', '3', '', '28', '', '', '', '记者', '郑琪', '', '', '美国', '约翰斯', '·', '', '普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '', '截至', '', '', '时间', '3', '', '28', '', '下午', '6', '', '', '美国', '已经', '至少', '', '', '', '病毒', '感染', '病例', '121117', '', '', '其中', '包括', '死亡', '病例', '2010', '', '', '', '大约', '24', '小时前', '相比', '', '美国', '确诊', '病例', '至少', '增加', '', '20400', '', '', '死亡', '病例', '至少', '增加', '', '466', '', '', '目前', '美国', '疫情', '最为', '严重', '', '', '', '纽约州', '', '共有', '确诊', '病例', '至少', '52410', '', '', '此外', '', '', '', '西州', '', '确诊', '病例', '11124', '', '', '加利福尼亚州', '', '5065', '', '', '密歇', '根州', '', '4650', '', '', '马塞', '诸塞州', '', '4257', '', '', '华盛顿', '', '', '4008', '', '']
snownlp词性标注: [('文本', 'n'), ('', 'm'), ('', 'w'), ('人民', 'n'), ('', 'n'), ('华盛顿', 'ns'), ('3', 'nz'), ('', 'n'), ('28', 'm'), ('', 'q'), ('', 'n'), ('', 'w'), ('记者', 'n'), ('郑琪', 'k'), ('', 'w'), ('', 'p'), ('美国', 'ns'), ('约翰斯', 's'), ('·', 'w'), ('', 'nr'), ('普金斯', 'nr'), ('大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'vn'), ('系统', 'n'), ('显示', 'v'), ('', 'w'), ('截至', 'v'), ('', 'j'), ('', 'j'), ('时间', 'n'), ('3', 'vvn'), ('', 'n'), ('28', 'm'), ('', 'q'), ('下午', 't'), ('6', 'Ag'), ('', 'Ng'), ('', 'w'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('', 'v'), ('', 'a'), ('', 'j'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('121117', 'm'), ('', 'q'), ('', 'w'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'v'), ('病例', 'n'), ('2010', 'u'), ('', 'n'), ('', 'w'), ('', 'c'), ('大约', 'd'), ('24', 'Dg'), ('小时前', 'Vg'), ('相比', 'v'), ('', 'w'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'u'), ('20400', 'm'), ('', 'q'), ('', 'w'), ('死亡', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('', 'u'), ('466', 'm'), ('', 'q'), ('', 'w'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('', 'u'), ('', 'd'), ('', 'v'), ('纽约州', 'ns'), ('', 'w'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('52410', 'Vg'), ('', 'n'), ('', 'w'), ('此外', 'c'), ('', 'w'), ('', 'a'), ('', 'nr'), ('西州', 'nr'), ('', 'v'), ('确诊', 'v'), ('病例', 'n'), ('11124', 'm'), ('', 'q'), ('', 'w'), ('加利福尼亚州', 'ns'), ('', 'v'), ('5065', 'm'), ('', 'q'), ('', 'w'), ('密歇', 'e'), ('根州', 'e'), ('', 'v'), ('4650', 'y'), ('', 'n'), ('', 'w'), ('马塞', 'ns'), ('诸塞州', 'Tg'), ('', 'v'), ('4257', 'Tg'), ('', 'n'), ('', 'w'), ('华盛顿', 'ns'), ('', 'n'), ('', 'v'), ('4008', 'Bg'), ('', 'n'), ('', 'w')]

免责声明:文章转载自《常用中文分词工具分词&词性标注简单应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇vuex页面刷新数据丢失的解决办法Spring-AOP(面向切面编程)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

十二、ES分词器

一、ES分词介绍 我们使用搜索引搜索我们想要查询的内容时,ES数据库会对我们输入的内容进行分词,再按分词的评分进行排序,优先显示评分高的内容。 如在某宝搜索双飞燕蓝牙无线鼠标,某宝的搜索引擎就可能会将该内容分为双飞燕,蓝牙,无线,鼠标,并将评分高的结果优先显示。 如上图,双飞燕就跟无线蓝牙鼠标分开了,这就是分词 因为默认的ES分词器对中文支持不是很好,这里...

基于分布式的短文本命题实体识别之----人名识别(python实现)

目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。 1.理论简介 命名实体识别(Named Ent...

【中文分词】二阶隐马尔可夫模型2-HMM

在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(context)。对于此,本文将介绍更为复杂的二阶HMM以及开源实现。 1...

ES之5:分词器

一、分词器概念 1、Analysis 和 Analyzer Analysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词。Analysis是通过Analyzer来实现的。 当一个文档被索引时,每个Field都可能会创建一个倒排索引(Mapping可以设置不索引该Field)。 倒排索引的过程就是将文档通过Analyzer分...

Lucene实践之中文分词IKAalyzer

做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词。 Game Starts 参考文档   1) 中文分词之Java实现使用IK Analyzer实现   2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包   1) IKAnalyzer2012FF_u1.jar 最好使用这个版本下面说 [百度网盘下载]   2...

lucene.net 详解

转自:http://www.360doc.com/content/09/0216/17/32573_2562131.shtml 1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 ...