自然语言中的词法分析、语法分析、句法分析

摘要:
词汇分析的主要任务是:①: 将一串连续字符正确地分割成一个单词;②: 正确判断每个单词的词性,以便于后续句法分析的实施。分析句子中单词的语法功能。使用语法树表示3.语义分析4.语用分析5.常用词:未知词:命名实体、新词和专业术语称为未知词。

1.词法分析

词是自然语言中能够独立运用的最小单位,是自然语言处理的基本单位。词法分析就是利用计算机对自然语言的形态 (morphology) 进行分析,判断词的结构和类别等。

词法分析的主要任务是:①:能正确的把一串连续的字符切分成一个一个的词 ②:能正确地判断每个词的词性,以便于后续的句法分析的实现。

常见的中文分词算法:(分为三类,1.基于字符串匹配(机械分词)的分词方法、2.基于理解的分词方法、3.基于统计的分词方法)

  最大匹配法(正向、逆向)    1基于字符串匹配

  基于词典的中文分词       1基于字符串匹配

  基于标记法

  约束矩阵法

  句模切分法

  神经网络分析算法         2.基于理解

  基于统计语言模型(共现率)    3.基于统计

  专家系统分词算法         

 常见分词项目:

  word分词

  FudanNLP

  Paoding

  MMSEG4J

  jcseg

  ICTCLAS

  智呈分词

  MFSOU分词

  SCWS

  jieba

  

2.句法分析(语法分析)

运用自然语言的句法和其他知识来确定组成输入句各成分功能。对句子中的词语语法功能进行分析。(每个词充当的角色,主语、谓语等)。

句法分析的基本任务是:确定句子的语法结构或句子中词汇之间的依存关系。

句法分析分为:句法结构分析和依存关系分析两种。

 采用语法树来表示

3.语义分析

4.语用分析

5.常见的术语:

  未登录词:命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。

自然语言中的词法分析、语法分析、句法分析第1张

自然语言中的词法分析、语法分析、句法分析第2张

自然语言中的词法分析、语法分析、句法分析第3张

自然语言中的词法分析、语法分析、句法分析第4张

 自然语言中的词法分析、语法分析、句法分析第5张

免责声明:文章转载自《自然语言中的词法分析、语法分析、句法分析》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Ubuntu 16.04下减小/释放/清理VirtualBox虚拟硬盘文件的大小详解2进制,10进制,16进制,8进制,36进制下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

十二、ES分词器

一、ES分词介绍 我们使用搜索引搜索我们想要查询的内容时,ES数据库会对我们输入的内容进行分词,再按分词的评分进行排序,优先显示评分高的内容。 如在某宝搜索双飞燕蓝牙无线鼠标,某宝的搜索引擎就可能会将该内容分为双飞燕,蓝牙,无线,鼠标,并将评分高的结果优先显示。 如上图,双飞燕就跟无线蓝牙鼠标分开了,这就是分词 因为默认的ES分词器对中文支持不是很好,这里...

中文分词工具包 PKUSeg

GitHub地址:https://github.com/lancopku/PKUSeg-python MSRA数据:http://sighan.cs.uchicago.edu/bakeoff2005/ 参考文档:https://www.codercto.com/a/50439.html PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的 一...

PostgreSQL全文检索zhparser使用

本文引用自: http://blog.chinaunix.net/uid-20726500-id-4820580.html 防止文章丢失才进行复制 PostgreSQL支持全文检索,其内置的缺省的分词解析器采用空格分词。因为中文的词语之间没有空格分割,所以这种方法并不适用于中文。要支持中文的全文检索需要额外的中文分词插件。网上查了下,可以给PG用的开源中文...

常用中文分词工具分词&词性标注简单应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)

1、jieba分词&词性标注 import jieba import jieba.posseg as posseg txt1 =''' 文本一: 人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时, 美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。 与大约24...

文本摘要

整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用 再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码 其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习   1). text-rank基于的...

gensim学习笔记

1、词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型   在Gensim中实现word2vec模型非常简单。首先,我们需要将原始的训练语料转化成一个sentence的迭代器;每一次迭代返回的sentence是一个word(utf8格式)的列表: class MySentences(object): def __init__...