中文词频统计与词云生成

摘要:
《追风筝的人》.txt2.从文件读取待分析文本。pipinstalljiebaimportjiebajieba.lcut4.更新词库,加入所分析对象的专业词汇。jieba.add_word#逐个添加jieba.load_userdict#词库文本文件参考词库下载地址:https://pinyin.sogou.com/dict/转换代码:scel_to_text5.生成词频统计6.排序7.排除语法型词汇,代词、冠词、连词等停用词。

本次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

《追风筝的人》.txt

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库,加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵') #逐个添加

jieba.load_userdict(word_dict) #词库文本文件

参考词库下载地址:https://pinyin.sogou.com/dict/

转换代码:scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇,代词、冠词、连词等停用词。

stops

tokens=[token for token in wordsls if token not in stops]

8. 输出词频最大TOP20,把结果存放到文件里

中文词频统计与词云生成第1张

9. 生成词云。

中文词频统计与词云生成第2张

10.

#-*- coding: utf-8 -*-
from wordcloud importWordCloud
importmatplotlib.pyplot as plt
importpandas as pd
importjieba
defstopwordslist():
    stopwords = [line.strip() for line in open('F:stops_chinese.txt', encoding='UTF-8').readlines()]
    returnstopwords
txt = open('cipher.txt', 'r', encoding='utf-8').read()
stopwords =stopwordslist()
wordsls =jieba.lcut(txt);
wcdict ={}
for word inwordsls:
    if word not instopwords:
        if len(word) == 1:
            continue
        else:
            wcdict[word] = wcdict.get(word, 0) + 1
wcls =list(wcdict.items())
wcls.sort(key=lambda x: x[1], reverse=True)
for i in range(20):
    print(wcls[i])
cut_text = " ".join(wordsls)
'print(cut_text)'
mywc =WordCloud().generate(cut_text)
plt.imshow(mywc)
plt.axis("off")
plt.show()
pd.DataFrame(data=wcls).to_csv('dldl.csv',encoding='utf-8')

免责声明:文章转载自《中文词频统计与词云生成》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇按回车Enter键后自动隐藏软键盘ncurses库的一些函数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因,近期笔者开始持续关注一些安全咨询网站,一来是多了解业界安全咨询提升自身安全知识,二来也是需要从各类安全网站上收集漏洞情报。 作为安全情报领域的新手,面对大量的安全咨询,多少还是会感觉无从下手力不从心。周末闲来无事,突发奇想,如果搞个爬虫,先把网络安全类文章爬下来,然后用机器学习先对文章进行分析,自动提取文章主成分关键词,然后再根据实际需求有...

PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpg255ml7f' -> '/tmp/jieba.cache'

跑一个使用jieba分词的脚本出现问题 报错如下: Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Dumping model to file cache /tmp/jieba.cache Dump cache fi...

常用中文分词工具分词&词性标注简单应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)

1、jieba分词&词性标注 import jieba import jieba.posseg as posseg txt1 =''' 文本一: 人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时, 美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。 与大约24...

中文分词组件:thulac及jieba试用手记

一、THULAC THULAC由《清华大学自然语言处理与社会人文计算实验室》研制推出的一套中文词法分析工具包。官网地址:http://thulac.thunlp.org,该项目提供了多种语言,本文以java版为例,先下载以下二个组件:1、THULAC_lite_v1_2分词java版可执行的jar包:THULAC_lite_java_v1_2_run.ja...

自然语言处理--jieba和gensim的分词功能

一、jieba分词功能 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典  2、算法 基于前缀词典实现高效的词图扫描,生...

中文分词工具探析(一):ICTCLAS (NLPIR)

【开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具探析(六):Stanford CoreNLP 开源中文分词工具探析(七):LTP 1...