Jieba

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因,近期笔者开始持续关注一些安全咨询网站,一来是多了解业界安全咨询提升自身安全知识,二来也是需要从各类安全网站上收集漏洞情报。 作为安全情报领域的新手,面对大量的安全咨询,多少还是会感觉无从下手力不从心。周末闲来无事,突发奇想,如果搞个爬虫,先把网络安全类文章爬下来,然后用机器学习先对文章进行分析,自动提取文章主成分关键词,然后再根据实际需求有...

自然语言处理-中文语料预处理

自然语言处理——中文文本预处理 近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。 1、中文语料的特点   第一点:中文语料中词与词之间是紧密相连的,这一点不同与英文或者其它语种的语料,因此在...

中文分词工具探析(一):ICTCLAS (NLPIR)

【开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具探析(六):Stanford CoreNLP 开源中文分词工具探析(七):LTP 1...

中文词频统计与词云生成

本次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 《追风筝的人》.txt 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut...

文本摘要

整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用 再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码 其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习   1). text-rank基于的...

中文分词组件:thulac及jieba试用手记

一、THULAC THULAC由《清华大学自然语言处理与社会人文计算实验室》研制推出的一套中文词法分析工具包。官网地址:http://thulac.thunlp.org,该项目提供了多种语言,本文以java版为例,先下载以下二个组件:1、THULAC_lite_v1_2分词java版可执行的jar包:THULAC_lite_java_v1_2_run.ja...

jieba gensim 相似度实现

博客引自:https://www.cnblogs.com//DragonFire/p/9220523.html 简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当...

中文分词与词云绘制

中文分词与词云绘制 1.数据采集 数据来源,B站视频弹幕。 得到的结果是xml格式;使用正则表达式进行数据解析; # -*- coding: utf-8 -*- ''' @Time : 2021/12/19 12:27 @Author : ziqingbaojian @File : 01.爱意随风起.py ''' import request...

自然语言处理--jieba和gensim的分词功能

一、jieba分词功能 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典  2、算法 基于前缀词典实现高效的词图扫描,生...

常用中文分词工具分词&词性标注简单应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)

1、jieba分词&词性标注 import jieba import jieba.posseg as posseg txt1 =''' 文本一: 人民网华盛顿3月28日电(记者郑琪)据美国约翰斯·霍普金斯大学疫情实时监测系统显示,截至美东时间3月28日下午6时, 美国已经至少有新冠病毒感染病例121117例,其中包括死亡病例2010例。 与大约24...