pyhanlp安装教程

摘要:
HanLP具有功能齐全、性能高、架构清晰、语料库更新和可定制等特点。注意:下载数据包后,不要将其解压缩,并将其直接放在您的目录中。然后输入以下代码:从python import*运行,它将自动解压缩。成功后,开始测试。

1、hanlp简介

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

Hanlp具有以下功能:

  • 中文分词
  • 词性标注
  • 命名实体识别
  • 依存句法分析
  • 关键词提取新词发现
  • 短语提取
  • 自动摘要
  • 文本分类
  • 拼音简繁

2、hanlp安装

第一步:hanlp提供了python库模块,需要在系统命令框(ctrl+r,enter :cmd)中输入如下代码,即可安装pyhanlp库

pip install pyhanlp

第二步:hanlp库依赖数据包,因此要成功使用还需要下载特定的数据包,需要的数据包有:data-for-1.7.7.zip(最新版),

data下载地址:https://github.com/hankcs/HanLP/releases

下载后,放入文件目录,目录根据你安装python编译器的位置而定,如我的目录是:E: oolpythonLibsite-packagespyhanlpstatic,找不到你的路径可以在命令框中重新输入一遍安装命令,即可。注意,下载好数据包后,不用解压,直接放到你的目录下。然后输入以下代码:

from python import*

 运行,即可自动解压,成功后,开始测试。

3、hanlp功能测试

输入简单的测试代码,测试hanlp的功能:

from pyhanlp import*

sentence = "我喜欢当个作家,那种写自己爱看的书的作家,写能让很多读者看来欲罢不能的书的作家,写那种酣畅淋漓的书的作家"

terms = HanLP.segment(sentence )
print(terms)

结果展示:

输出:[我/rr, 喜欢/vi, 当/p, 个/q, 作家/nnt, ,/w, 那种/r, 写/v, 自己/rr, 爱看/v, 的/ude1, 书/n, 的/ude1, 作家/nnt, ,/w, 写/v, 能/v, 让/v, 很多/m, 读者/n, 看来/v, 欲罢不能/vl, 的/ude1, 书/n, 的/ude1, 作家/nnt, ,/w, 写/v, 那种/r, 酣畅淋漓/al, 的/ude1, 书/n, 的/ude1, 作家/nnt]

4、hanlp参考文档

pyhanlp的参考文档:https://github.com/hankcs/pyhanlp

hanlp的参考文档:https://github.com/hankcs/HanLP/blob/master/README.md

5、注意事项

pynlp和hanlp都是hanlp旗下的分词、词性标注工具,HanLP是一个Java工具包,python是基于python的工具包,如果是用pycharm编译python程序,安装pyhanlp足以。

免责声明:文章转载自《pyhanlp安装教程》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇MongoDB基础入门003--使用官方驱动操作mongo,C#(论文笔记Arxiv2021)Walk in the Cloud: Learning Curves for Point Clouds Shape Analysis下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

怒肝半月!Python 学习路线+资源大汇总

Python 学习路线 by 鱼皮。 原创不易,请勿抄袭,违者必究! 大家好,我是鱼皮,肝了十天左右的 Python 学习路线终于来了~ 和之前一样,在看路线前,建议大家先通过以下视频了解几个问题: Python 为什么这么火? 为什么都在说学 Python 找不到工作?Python 真香么? 我要学 Python 么? 怎么快速学习? 视频地址:...

使用Python Requests上传表单数据和文件

在Python环境下写一个HTTP客户端,发送POST请求,同时上传表单数据和文件,我们可以使用Requests模块来实现。代码如下: data = { 'name': 'nginx' } files = {'file': open("abc.csv", 'rb')} response = requests.post(url, data=data...

python基础作业

1、 执行 Python 脚本的两种方式 ./python.py python python.py 2、 简述位、字节的关系 1字节 = 8位 3、 简述 ascii、unicode、utf-­‐8、gbk 的关系 ASCII 英文 Unicode =utf-16 utf-8 GBK 中文 4、 请写出 “李杰” 分别用 utf-­‐8 和 gbk 编码所...

基于Python的Web应用开发实战——3 Web表单

第2章中介绍的 请求对象 包含客户端发出的所有请求信息。 其中, request.form 能获取 POST请求 中提交的表单数据。 尽管Flask的请求对象提供的信息足够用于处理Web表单,但有些任务很单调,而且要重复操作。 比如,生成表单的HTML代码和验证提交的表单数据。 Flask-WTF(https://flask-wtf.readthedocs...

python正则表达式(5)--findall、finditer方法

findall方法 相比其他方法,findall方法有些特殊。它的作用是查找字符串中所有能匹配的字符串,并以结果存于列表中,然后返回该列表 注意: match 和 search 是匹配一次 findall 匹配所有。 1 pattern.findall方法 该方法的作用是在string[pos, endpos]区间从pos下标处开始查找所有满足patter...

【Python学习笔记】之格式化输入输出

1. python3设置print输出不换行 函数原型 print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False) 对应参数含义如下 objects -- 复数,表示可以一次输出多个对象。输出多个对象时,需要用 , 分隔。 sep -- 用来间隔多个对象,默认值是一个空格。 end...