几本自然语言处理入门书

摘要:
在我看来,统计学部分更受欢迎,因此以下两本书更适合需要了解统计自然语言处理的读者进行基础阅读。

来自:“我爱自然语言处理”:http://www.52nlp.cn/

如果你刚接触自然语言处理并对她感兴趣,最好读几本这方面的书籍,除了能让你知道自然语言处理各个领域是干什么的外,还能培养一下NLP的感觉。以下四本书是我读研期间阅读和接触过的,如果您还有好书推荐,欢迎补充。

1、 《自然语言处理综论》(Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition)
  这本书的权威自不用说,译者是冯志伟老师和孙乐老师,当年读这本书的时候,还不知道冯老师是谁,但是读起来感觉非常好,想想如果没有在这个领域积攒多年的实力,是不可能翻译的这么顺畅的。这本书在国内外的评价都比较好,对自然语言处理的两个学派(语言学派和统计学派)所关注的内容都有所包含,但因此也失去一些侧重点。从我的角度来说更偏向于统计部分,所以需要了解统计自然语言处理的读者下面两本书更适合做基础阅读。不过这本书的N-gram语言模型部分写得非常不错,是SRILM的推荐阅读参考。

2、《统计自然语言处理基础》(Foundations of Statistical Natural Language Processing)
  我比较喜欢这本书,这两年的学习过程中也经常拿这本书作为参考,可能与我做统计机器翻译有关吧。看china pub上的评论说这本书的翻译比较差,自己的感觉是还行。当然,这是国内翻译图书的一个通病:除了很难有翻译的非常好的书外,另外一个原因就是滞后性。如果e文足够好的坏,就及时看英文版吧。这本书在统计基本部分的介绍很不错,另外n元语法部分讲得也比较好,也是SRILM的推荐阅读。

3、《统计自然语言处理》
  这是北京自动化所宗成庆老师今年5月出版的一本专著,我有幸较早的阅读了这本书的很多章节。一个很强的感觉是:如果你想了解相关领域的国内外最新进展,这本书非常值得一读。上面两本书在由于出版稍早的缘故,很多领域最新的方法都没有介绍。而这本书刚刚出版,宗老师对国内外现状把握的也比较好,因此书中充分体现了这方面的信息。另外统计机器翻译这一部分写得很详细很不错,这可能与宗老师亦是这个领域的研究者有关吧。

4、《计算机自然语言处理》
  这是我最早看的一部自然语言处理方面的书籍,和上面几部大部头的书籍相比,这本书很薄,可以很快的看完。书的内容我都有点忘了,但是印象中可以在每个章节看到国内这个领域的研究历史和相关单位。这时才发现母校HIT在这个领域的超强实力,只是可惜这时候已经离开冰城了。

  这些书籍怎么读都行,泛览也罢,精读也行,只要有时间,多读书是没坏处的。我自己的经验是,先泛泛的浏览或阅读一篇,对于比较晦涩的部分可以先跳过去,然后对自己感兴趣的领域或者将要从事的领域的相关章节进行精读,当然,书籍一般在开始的几个章节讲些基础性的知识,这部分最好也仔细揣摩一下。真正要对自己研究的领域深刻了解,还得好好读一下本领域的相关论文。

免责声明:文章转载自《几本自然语言处理入门书》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇解决UItableView cell的间隔线 separatorStyle ( plain group 两种类型)NoSql数据库CounchDB的介绍下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

自然语言处理--jieba和gensim的分词功能

一、jieba分词功能 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典  2、算法 基于前缀词典实现高效的词图扫描,生...

pyltp环境的搭建

1.简介     1.1    LTP     语言技术平台 (Language Technology Platform)中文语言处理系统 ,哈工大社会计算与信息检索研究中心独立研发,(官网)。2011年,LTP正式开源。 LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看,LTP...

PyTorch实现Seq2Seq机器翻译

Seq2Seq简介 Seq2Seq由Encoder和Decoder组成,Encoder和Decoder又由RNN构成。Encoder负责将输入编码为一个向量。Decoder根据这个向量,和上一个时间步的预测结果作为输入,预测我们需要的内容。 Seq2Seq在训练阶段和预测阶段稍有差异。如果Decoder第一个预测预测的输出就错了,它会导致“蝴蝶效应“,影...

自然语言处理-中文语料预处理

自然语言处理——中文文本预处理 近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。 1、中文语料的特点   第一点:中文语料中词与词之间是紧密相连的,这一点不同与英文或者其它语种的语料,因此在...

【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用

一、前述视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the ima...

【自然语言处理】利用朴素贝叶斯进行新闻分类(自己处理数据)

读完这篇博文,你能够收获什么? 从数据处理到利用朴素贝叶斯进行分类的整个过程 本文更关注于数据处理阶段,朴素贝叶斯模型直接使用sklearn库中自带的 先给出整个算法的流程:  采用的是sogou语料库的部分数据,每个C开头的文件各代表一类,里面包含着若干篇txt类型的文章,具体类别如下: 1.数据审视阶段(查看是否有不符合规范或异常的数据),由于...