中文词频统计与词云生成,根据词频生成词云

中文词频统计与词云生成

摘要：

《追风筝的人》.txt2.从文件读取待分析文本。pipinstalljiebaimportjiebajieba.lcut4.更新词库，加入所分析对象的专业词汇。jieba.add_word#逐个添加jieba.load_userdict#词库文本文件参考词库下载地址：https://pinyin.sogou.com/dict/转换代码：scel_to_text5.生成词频统计6.排序7.排除语法型词汇，代词、冠词、连词等停用词。

本次作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

《追风筝的人》.txt

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库，加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵') #逐个添加

jieba.load_userdict(word_dict) #词库文本文件

参考词库下载地址：https://pinyin.sogou.com/dict/

转换代码：scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇，代词、冠词、连词等停用词。

stops

tokens=[token for token in wordsls if token not in stops]

8. 输出词频最大TOP20，把结果存放到文件里

中文词频统计与词云生成第1张

9. 生成词云。

中文词频统计与词云生成第2张

10.

#-*- coding: utf-8 -*-
from wordcloud importWordCloud
importmatplotlib.pyplot as plt
importpandas as pd
importjieba
defstopwordslist():
    stopwords = [line.strip() for line in open('F:stops_chinese.txt', encoding='UTF-8').readlines()]
    returnstopwords
txt = open('cipher.txt', 'r', encoding='utf-8').read()
stopwords =stopwordslist()
wordsls =jieba.lcut(txt);
wcdict ={}
for word inwordsls:
    if word not instopwords:
        if len(word) == 1:
            continue
        else:
            wcdict[word] = wcdict.get(word, 0) + 1
wcls =list(wcdict.items())
wcls.sort(key=lambda x: x[1], reverse=True)
for i in range(20):
    print(wcls[i])
cut_text = " ".join(wordsls)
'print(cut_text)'
mywc =WordCloud().generate(cut_text)
plt.imshow(mywc)
plt.axis("off")
plt.show()
pd.DataFrame(data=wcls).to_csv('dldl.csv',encoding='utf-8')

免责声明：文章转载自《中文词频统计与词云生成》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因，近期笔者开始持续关注一些安全咨询网站，一来是多了解业界安全咨询提升自身安全知识，二来也是需要从各类安全网站上收集漏洞情报。作为安全情报领域的新手，面对大量的安全咨询，多少还是会感觉无从下手力不从心。周末闲来无事，突发奇想，如果搞个爬虫，先把网络安全类文章爬下来，然后用机器学习先对文章进行分析，自动提取文章主成分关键词，然后再根据实际需求有...

PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpg255ml7f' -&gt; '/tmp/jieba.cache'

跑一个使用jieba分词的脚本出现问题报错如下： Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Dumping model to file cache /tmp/jieba.cache Dump cache fi...

常用中文分词工具分词&amp;词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

1、jieba分词&词性标注 import jieba import jieba.posseg as posseg txt1 =''' 文本一：人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。与大约24...

中文分词组件：thulac及jieba试用手记

一、THULAC THULAC由《清华大学自然语言处理与社会人文计算实验室》研制推出的一套中文词法分析工具包。官网地址：http://thulac.thunlp.org，该项目提供了多种语言，本文以java版为例，先下载以下二个组件：1、THULAC_lite_v1_2分词java版可执行的jar包：THULAC_lite_java_v1_2_run.ja...

自然语言处理--jieba和gensim的分词功能

一、jieba分词功能 1、主要模式支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 2、算法基于前缀词典实现高效的词图扫描，生...

中文分词工具探析（一）：ICTCLAS (NLPIR)

【开源中文分词工具探析】系列：开源中文分词工具探析（一）：ICTCLAS (NLPIR) 开源中文分词工具探析（二）：Jieba 开源中文分词工具探析（三）：Ansj 开源中文分词工具探析（四）：THULAC 开源中文分词工具探析（五）：FNLP 开源中文分词工具探析（六）：Stanford CoreNLP 开源中文分词工具探析（七）：LTP 1...

中文词频统计与词云生成

相关文章

Scrapy+eChart自动爬取生成网络安全词云

PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpg255ml7f' -&gt; '/tmp/jieba.cache'

常用中文分词工具分词&amp;词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

中文分词组件：thulac及jieba试用手记

自然语言处理--jieba和gensim的分词功能

中文分词工具探析（一）：ICTCLAS (NLPIR)

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

中文词频统计与词云生成

相关文章

Scrapy+eChart自动爬取生成网络安全词云

PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpg255ml7f' -&amp;gt; '/tmp/jieba.cache'

常用中文分词工具分词&amp;amp;词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

中文分词组件：thulac及jieba试用手记

自然语言处理--jieba和gensim的分词功能

中文分词工具探析（一）：ICTCLAS (NLPIR)

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpg255ml7f' -> '/tmp/jieba.cache'

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）