中文分词与词云绘制,词云制作代码

摘要：

中文分词与词云绘制1.数据采集数据来源，B站视频弹幕。同时支持词性标注。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。jieba.dt为默认分词器，所有全局分词相关函数都是该分词器的映射。词频省略时使用自动计算的能保证分出该词的词频。

中文分词与词云绘制

1.数据采集

数据来源，B站视频弹幕。

得到的结果是xml格式；使用正则表达式进行数据解析；

# -*- coding: utf-8 -*-
'''
@Time    : 2021/12/19 12:27
@Author  : ziqingbaojian
@File    : 01.爱意随风起.py
'''
import requests
import re


# B站接口apihttp://api.bilibili.com/x/v1/dm/list.so?oid=拼接视频id；
url="http://api.bilibili.com/x/v1/dm/list.so?oid=376189345"

def get_word(url):
    response=requests.get(url).text.encode('iso-8859-1').decode("utf8")
    ex="<d.*?>(.*?)</d>"
    datas=re.findall(ex,response,re.S)
    with open('a.txt','w',encoding='utf8')as fp:
        for li in datas:
            fp.write(li)
            fp.write('\n')
    print("记录完成")
if __name__ == '__main__':

    get_word(url)

2.jieba分词

2.1 安装

pip install jieba #安装jieba分词库

特点：
支持四种分词模式：jieba分词github官网
- 精确模式 : 试图将句子最精确地切开，适合文本分析；
- 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
- paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，pip install jieba --upgrade 。paddlepaddle官网
支持繁体分词
支持自定义词典
MIT 授权协议

2.2 使用

jieba.cut 方法接受四个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型；use_paddle 参数用来控制是否使用paddle模式下的分词模式，paddle模式采用延迟加载方式，通过enable_paddle接口安装paddlepaddle-tiny，并且import相关代码；
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。
代码示例

# -*- coding: utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("返回值是对象",seg_list)
print("Full Mode,全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: 精确模式" + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("默认是精确模式",", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
# 注意图上没有标注搜索引擎模式

2.3 载入词典

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
词语词频词性
创新办 3 i
云计算 5 可省略
台中可省略可省略
例如
创新办 3 i
云计算 5
凱特琳 nz
台中
更改分词器（默认为 jieba.dt）的 tmp_dir 和 cache_file 属性，可分别指定缓存文件所在的文件夹及其文件名，用于受限的文件系统。
- 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
- 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。
- 注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

词语	词频	词性
创新办	3	i
云计算	5	可省略
台中	可省略	可省略

# -*- coding: utf-8 -*-
'''
@Time    : 2021/12/20 15:10
@Author  : ziqingbaojian
@File    : 01.载入字典.py
'''

import jieba

# 载入字典文件
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg#导入词性分析

jieba.add_word('石墨烯')#动态想字典中加入分词
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

print("="*40)#分割线

result = pseg.cut(test_sent)

for w in result:
    print(w.word, "/", w.flag, ", ", end=' ')#end结束不换行

print("\n" + "="*40)

terms = jieba.cut('easy_install is great')
print('/'.join(terms))
terms = jieba.cut('python 的正则表达式是好用的')
print('/'.join(terms))

print("="*40)
# test frequency tune
testlist = [
('今天天气不错', ('今天', '天气')),
('如果放到post中将出错。', ('中', '将')),
('我们中出了一个叛徒', ('中', '出')),
]

for sent, seg in testlist:
    print('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    #获取词的词频，并进行修改分词的词频。
    print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))
    print('/'.join(jieba.cut(sent, HMM=False)))
    print("-"*40)

2.4 词性分析

# -*- coding: utf-8 -*-
'''
@Time    : 2021/12/20 15:12
@Author  : ziqingbaojian
@File    : 02.词性分析.py
'''
import jieba.posseg as posseg#导入该函数进行词性的分析

text = "征战四海只为今日一胜，我不会再败了。"
# generator形式形如pair(‘word’, ‘pos’)的结果
seg = posseg.cut(text)
print([se for se in seg])

# list形式的结果
seg = posseg.lcut(text)
print(seg)

补充：cut与lcut的区别是返回值的不同，前者返回对象，后者返回列表。

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

2.5 关键字提取

2.5.1 基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 为待提取的文本
- topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
- withWeight 为是否一并返回关键词权重值，默认值为 False
- allowPOS 仅包括指定词性的词，默认值为空，即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

2.5.2基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默认过滤词性。
jieba.analyse.TextRank() 新建自定义 TextRank 实例。

# -*- coding: utf-8 -*-
'''
@Time    : 2021/12/20 15:43
@Author  : ziqingbaojian
@File    : 03.关键字提取.py
'''
import jieba.analyse as analyse
text = "征战四海只为今日一胜，我不会再败了。"
# TF-IDF
tf_result = analyse.extract_tags(text, topK=5) # topK指定数量，默认20
print(tf_result)
# TextRank
tr_result = analyse.textrank(text, topK=5) # topK指定数量，默认20
print(tr_result)

3. 词云绘制

# -*- coding: utf-8 -*-
'''
@Time    : 2021/12/19 12:50
@Author  : ziqingbaojian
@File    : 03.绘制词云图.py
'''
from pyecharts import options as opts
from pyecharts.charts import Page,WordCloud
from pyecharts.globals import SymbolType
import jieba
from jieba import analyse


# 创建停用词
def stop_word_list():
    with open('stopwords.txt','r',encoding='UTF-8')as fp:
        stopword_list=fp.read()
    return stopword_list

def get_tfidf(outstr):
    ous="".join(outstr)
    jieba.analyse.set_stop_words('./stopwords.txt')
    tags= jieba.analyse.extract_tags(ous,topK=100,withWeight=True)
    dr_list=[]
    for v,n in tags:
        dr_list.append((v,str(int(n*10000))))
    return dr_list

def wordcloud_base(words) -> WordCloud:
    c = (
        WordCloud()
        .add("", words, word_size_range=[20, 100])
        .set_global_opts(title_opts=opts.TitleOpts(title="爱意随风起"))
    )
    return c


if __name__ == '__main__':
    with open('a.txt', 'r', encoding='utf-8') as fp:
        datas = fp.read()
    outsrt=get_tfidf(datas)
    wd=wordcloud_base(outsrt)
    wd.render("wordcloud.html")

中文分词与词云绘制

中文分词与词云绘制

1.数据采集

2.jieba分词

2.1 安装

2.2 使用

代码示例

2.3 载入词典

2.4 词性分析

补充：`cut`与`lcut`的区别是返回值的不同，前者返回对象，后者返回列表。

2.5 关键字提取

2.5.1 基于 TF-IDF 算法的关键词抽取

2.5.2基于 TextRank 算法的关键词抽取

3. 词云绘制

相关文章

vsto下开发wps插件

lucene.net 详解

R语言自然语言处理：关键词提取（TF-IDF）

Word如何接受修订快捷键

一个人工智能项目里的中文分词方案

es版本2.x的string和5.x的keyword，text的区别和联系

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

中文分词与词云绘制

中文分词与词云绘制

1.数据采集

2.jieba分词

2.1 安装

2.2 使用

代码示例

2.3 载入词典

2.4 词性分析

补充：cut与lcut的区别是返回值的不同，前者返回对象，后者返回列表。

2.5 关键字提取

2.5.1 基于 TF-IDF 算法的关键词抽取

2.5.2基于 TextRank 算法的关键词抽取

3. 词云绘制

相关文章

vsto下开发wps插件

lucene.net 详解

R语言自然语言处理：关键词提取（TF-IDF）

Word如何接受修订 快捷键

一个人工智能项目里的中文分词方案

es版本2.x的string和5.x的keyword，text的区别和联系

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

补充：`cut`与`lcut`的区别是返回值的不同，前者返回对象，后者返回列表。

Word如何接受修订快捷键