献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一

摘要:
这对在自然语言处理公司工作的员工来说并不难。因此,业余爱好者,例如花园里的人,很难获得详细的语料库。目前,只有搜狗实验室向网友开放了中文文本分类语料库。参见:http://www.sogou.com/labs/dl/c.html 。 我提供的语料库自然不像搜狗实验室提供的语料库那样标准和整洁,毕竟人们是手动整理的。我的语料库是使用新闻爬虫从网络上直接抓取的。

作者:finallyliuyu(注意:转载请标明作者和出处)

献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二

题记:

    做研究,尤其是基于统计学方法的研究,常常需要大量的训练数据。详细这些东西在读研究生不难得到。在自然语言处理公司工作的工作人员也不难得到。但是这些东西属于机密,实验室和公司是不会轻易外传的。所以对于业余的爱好者来说,比如园子里的(蛙蛙,overred)是很难得到详实的语料库的。目前中文文本分类语料库只有搜狗实验室一家对广大网友开放了,见:http://www.sogou.com/labs/dl/c.html。笔者在实验中用过它提供的完整版(107M)的语料库。确实还是不错的,分为汽车,财经,IT,健康,体育,旅游,教育,招聘,文化,军事 10个类别,每个类别有8000篇新闻,每篇新闻大概是100-300个字左右,属于短新闻。

在这里首先要对搜狗实验室的无私奉献表示感谢。我所提供的语料库自然不如搜狗实验室提供的语料库那么标准和整洁,毕竟人家是有人工整理的,我的是用新闻爬虫直接从网络上爬取的。我可以保证我所提供的语料库大部分新闻文本纯度比较高,但是不排除有一部分新闻只有标题,没有正文,而获正文里面掺杂了很多其他语义不相关的内容(如广告等)。下面说一下我的语料库和搜狗实验室提供的语料库(以下简称搜狗语料库)相比有何特点吧。

1。 长新闻比较多,新闻语义内容丰富:有很多评论新闻高达几千字

2。拥有新闻标题:搜狗语料库的新闻标题统一用数字表示,而我的语料库中的新闻都有自己的标题,这可以帮助研究者从语义的直观感觉上上判断各种分类算法的效果。抽象的准确率和召回率等数学指标,常常使研究者不能具体地感受到分类或聚类算法的巨大威力与魅力。

这里上个图:(看到了新闻的标题,我们就很容易评判聚类是否准确了)

无标题

下面介绍下:语料库的情况。

新闻正文提取所用到网页正文提取的算法见《驴子的新闻采阅系统》此系列博文中所讲的算法为我大学本科毕业设计中所实现的算法。此语料库搜集时间为2009年12月-2010年1月。是我在中科院自动化所读研一期间利用业余时间搜集的。当时为了完成王斌老师的《现代信息检索》课程的项目大作业,我将本科毕设的算法又做了进一步的改进,写了一个集成爬虫,正文提取算法,分类器为一体的大型程序。鉴于爬虫破坏力,遂不提供源代码给网友。

语料资源来源:腾讯新闻,凤凰新闻,新浪新闻,网易新闻

语料库存储在MSSQLServer2000数据库中。存储字段等视图如下

语料库内在视图

下面给出语料库内部的一些统计信息

类别: history, culture,reading,miltary, it, society$law, entertaiment, education

各个类别的文章篇数:

select count(*)from News where Categorization='history'

1

ArticleId 分布范围 1-1905

select count(*)from News where Categorization='culture'

2

ArticleId分布范围 1906-4725

select count(*)from News where Categorization='reading'

3

 ArticleId分布范围4726-12860

select count(*)from News where Categorization='military'

4

ArticleId分布范围12861-14702

select count(*)from News where Categorization='it'

5

ArticleId分布范围14703-15064

select count(*)from News where Categorization='society&law'

6

ArticleId分布范围15065-38041

select count(*)from News where Categorization='entertainment'

7

 ArticleId分布范围 38042-39147

select count(*)from News where Categorization='education'

8

ArticleId分布范围39148-39247

从上面的数据我们可以看出,我的语料库分布“不平衡”,“不标准”。但我认为这样它更接近实际生活中的问题。接下来的时间里我将利用我自己的分类语料库来验证各种分类算法以及聚类算法的效果,和 牛人论文中的实验数据进行对比(主:论文中给出的准确率召回率等指标都是在标准的分类语料库上运行得出的),所以我想我的验证更有实践意义。

在本系列博文写完后,

我将提供特征预处理代码供大家下载 目前部分预处理代码下载地址见《Kmeans系列》其中只实现了DF 特征选择方法,接下来我会实现 IG,卡方等方法,并且也会次采用多种TF-IDF模式实现VSM模型,敬请大家关注我的博客。

语料库大小160M最后备份压缩到54.8M,感谢DUDU在博客园帮忙提供空间也感谢博客园团队。中心祝愿你们越办越好!

(今天太晚了,我得先回家,明天上传后,会在第一时间将地址通知给大家)

语料库搜集整理者:刘禹

工作单位:中科院自动化所综合信息中心

语料库下载及出处地址:博客园(空间提供方)

免责声明:文章转载自《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ubuntu ceph集群安装以及简单使用Win7 “Bluetooth设置”对话框无法打开,及无法查找到设备下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

word2vec 独热编码One-Hot

独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和f...

keras使用word2vec pretrained vector注意事项

在使用预训练的embedding层的时候,一定要注意词表的index,在word2vec中, model.wv.index2word 这个是一个list, index就是词的index,这个是固定的,即便是换到linux平台,这个index也是不变的,所以使用这个。 w2v_for_s2s = Word2Vec.load('model/word2vec_6...

R语言自然语言处理:关键词提取(TF-IDF)

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R/Python),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》、《文本数据挖掘——基于R语言》(《文本数据挖掘 基于R语言》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R...

神经机器翻译(NMT)相关资料整理

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。最近几年相关的论文,开源系统也是层出不穷。本文主要梳理了神经机器翻译入门、进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总...

Web挖掘技术

  一、数据挖掘 数据挖掘是运用计算机及信息技术,从大量的、不全然的数据集中获取隐含在当中的实用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。 数据挖掘...

自然语言中的词法分析、语法分析、句法分析

1.词法分析 词是自然语言中能够独立运用的最小单位,是自然语言处理的基本单位。词法分析就是利用计算机对自然语言的形态 (morphology) 进行分析,判断词的结构和类别等。 词法分析的主要任务是:①:能正确的把一串连续的字符切分成一个一个的词 ②:能正确地判断每个词的词性,以便于后续的句法分析的实现。 常见的中文分词算法:(分为三类,1.基于字符串匹配...