python使用jieba实现中文文档分词和去停用词

摘要:
分词工具的选择:现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
分词工具的选择:

现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulacSnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

分词前的准备:
  • 待分词的中文文档
  • 存放分词之后的结果文档
  • 中文停用词文档(用于去停用词,在网上可以找到很多)
分词之后的结果呈现:

python使用jieba实现中文文档分词和去停用词第1张

去停用词和分词前的中文文档

python使用jieba实现中文文档分词和去停用词第2张

去停用词和分词之后的结果文档

分词和去停用词代码实现:
1 importjieba
2 
3 #创建停用词列表
4 defstopwordslist():
5     stopwords = [line.strip() for line in open('chinsesstoptxt.txt',encoding='UTF-8').readlines()]
6     returnstopwords
7 
8 #对句子进行中文分词
9 defseg_depart(sentence):
10     #对文档中的每一行进行中文分词
11     print("正在分词")
12     sentence_depart =jieba.cut(sentence.strip())
13     #创建一个停用词列表
14     stopwords =stopwordslist()
15     #输出结果为outstr
16     outstr = ''
17     #去停用词
18     for word insentence_depart:
19         if word not instopwords:
20             if word != '':
21                 outstr +=word
22                 outstr += " "
23     returnoutstr
24 
25 #给出文档路径
26 filename = "Init.txt"
27 outfilename = "out.txt"
28 inputs = open(filename, 'r', encoding='UTF-8')
29 outputs = open(outfilename, 'w', encoding='UTF-8')
30 
31 #将输出结果写入ou.txt中
32 for line ininputs:
33     line_seg =seg_depart(line)
34     outputs.write(line_seg + '')
35     print("-------------------正在分词和去停用词-----------")
36 outputs.close()
37 inputs.close()
38 print("删除停用词和分词成功!!!")

免责声明:文章转载自《python使用jieba实现中文文档分词和去停用词》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇jvm内存设置vue 中使用 cesium下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Windows下Python虚拟环境安装及新建django项目及简单流程

---恢复内容开始--- (1-7)为第一种创建虚拟环境的方法 1. 安装Python 2. 在cmd命令行中使用pip安装:pip install virtualenv 3. 新建虚拟环境:virtualenv testvir 4. 进入该虚拟环境:cd testvir 5. cd Scripts 6. activate.bat就进入了该虚拟环境 如图所...

python基础知识5——赋值与深浅拷贝——整数和字符串,列表元组字典

深浅copy      和很多语言一样,Python中也分为简单赋值、浅拷贝、深拷贝这几种“拷贝”方式。 在学习过程中,一开始对浅拷贝理解很模糊。不过经过一系列的实验后,我发现对这三者的概念有了进一步的了解。 一、赋值 赋值算是这三种操作中最常见的了,我们通过一些例子来分析下赋值操作: str例 1 >>> a = 'hello' 2 &...

使用IDEA写Python之pytest环境搭建及第一个程序编写

一、准备篇 Python环境:3.8.3 开发工具:IDEA,对你没有看错 二、IDEA下安装开发环境 1. python的下载 https://www.python.org/downloads/ PS:关于Python的环境搭建,此处略 2. idea下python插件的安装 点击File->Settings...->Plugins,点击ma...

python 下载安装setuptools及pip应用

1、首先下载python安装程序,下载地址:https://www.python.org/download/releases/2.7.8/   如下图:     因为我的机器是32位的就选择了Windows x86 MSI Installer (2.7.8)   安装成功后 2、下载安装setuptools   具体办法:   进入页面:https://...

pycharm重置配置

问题描述:   python右键编译出现异常,  每次右键编译都是Module name: 每次需要手工修改为Script path,手贱点了小箭头看看了,就出现异常了! 问题解决:   删除python的个性配置,注意删除请考虑清除,不得已才可以这样操作。pycharm的license需要再次认证及修改的配置对丢失了(可以提前把配置导出来)...

初中信息技术(Python) 源代码

本博客原文地址:https://www.cnblogs.com/BobHuang/p/15531908.html,原文体验更佳 编程集中出现在八年级上册,为高中信息技术必修的前置内容。大多数题目都可以使用在线评测平台测试练习,详见 初中信息技术(Python)TZOJ题单 第一单元 Python程序设计基础 第1课 初识Python P4 输出语句 pri...