pyltp环境的搭建

摘要:
Windows安装Python 3.7教程PyCharm采用最新社区版本PyCharm安装教程2.2 LTP和LTP_建议从数据下载地址下载此版本。解压缩下载的压缩包并将其存储在任何位置。
1.简介     1.1    LTP

    语言技术平台 (Language Technology Platform)中文语言处理系统 哈工大社会计算与信息检索研究中心独立研发,(官网)。2011年,LTP正式开源。

LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看,LTP为用户提供了下列组件:

    -针对单一自然语言处理任务,生成统计机器学习模型的工具

    -针对单一自然语言处理任务,调用模型进行分析的编程接口

    -使用流水线方式将各个分析工具结合起来,形成一套统一的中文自然语言处理系统

    -系统可调用的,用于中文语言处理的模型文件

    -针对单一自然语言处理任务,基于云端的编程接口

    如果你的公司需要一套高性能的中文语言分析工具以处理海量的文本,或者你的在研究工作建立在一系列底层中文自然语言处理任务之上,或者你想将自己的科研成果与前沿先进工作进行对比,LTP都可能是你的选择。

    1.2    pyltp

    是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

    另外,如果想在java上使用,LTP也提供了相应的封装: ltp4j - Language Technology Platform for Java

2.环境安装

    本人采用【python:3.7    LTP:3.3.1    ltp_data(模型):3.4.0    pyltp:0.1.9.1】

   依赖支持情况:

 
pyltp环境的搭建第1张
                  LTP依赖支持情况

    2.1    python和PyCharm安装

    建议使用python 3.7版本,安装参考其他博客。

    windows 安装python3.7版本教程

    PyCharm采用最新版社区版

    PyCharm安装教程

    2.2    LTP和ltp_data下载

    地址

 
pyltp环境的搭建第2张
                          建议下载此版本

将下载好的压缩包解压,可存放在任意位置。

    2.3    安装pyltp

采用pip方式,安装版本为0.1.9.1

    pip install pyltp==0.1.9.1

到这一步,基本的环境也就搭建完成,在安装pyltp的时候,可能需要先安装其他软件,按照cmd提示操作即可。可能还会出现一些其他问题,如“cl.exe”字样,安装vs2008即可解决(微软官网下载:VS2008ExpressENUX1397868.iso)。

免责声明:文章转载自《pyltp环境的搭建》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇如何配置Drupal数据库信息?迭代测试下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Web挖掘技术

  一、数据挖掘 数据挖掘是运用计算机及信息技术,从大量的、不全然的数据集中获取隐含在当中的实用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。 数据挖掘...

NLP入门之语音模型原理

这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们讲解一下是如何将声音变成文字,如果有兴趣的同学,我们可以深入的研究. 首先我们知道声音其实是一种波,常见的MP3等都是压缩的格式,必须要转化成非压缩的纯...

python+NLTK 自然语言学习处理四:获取文本语料和词汇资源

在前面我们通过fromnltk.bookimport*的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1古腾堡语料库 古腾堡是一个大型的电子图书在线网站,网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书,因此也是一个大型的预料库。NLTK也包含了其中的一部分 。通过nltk.corpus.gutenbe...

Word2vec 基本原理

词嵌入算法 基于神经网络的表示一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation)。其核心是上下文的表示以及上下文与目标词之间的关系映射,主要通过神经网络对上下文,以及上下文和目标词之间的关系进行建模。 词向量 最常见的方法是用 One-hot。它假设词之间的语义和语法关系是相互...

神经机器翻译(NMT)相关资料整理

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。最近几年相关的论文,开源系统也是层出不穷。本文主要梳理了神经机器翻译入门、进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总...

R语言自然语言处理:关键词提取(TF-IDF)

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R/Python),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》、《文本数据挖掘——基于R语言》(《文本数据挖掘 基于R语言》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R...