文本摘要

摘要:
POS标签和关键字提取的使用https://www.letiantian.me/2014-06-10-pagerank/这从矩阵层面解释了https:

整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用

再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码

其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习

  1). text-rank基于的pagerank:

  这个通俗易懂  https://www.letiantian.me/2014-06-10-pagerank/

  这个从矩阵层面讲解 https://zhuanlan.zhihu.com/p/32276862

              https://hunglish.github.io/2018/05/31/20180531TextRank%E6%8F%90%E5%8F%96%E5%85%B3%E9%94%AE%E8%AF%8D%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/

  2).tf-idf:一个单词在这篇文章中出现的次数很多的时候,这个词语更加重要;但如果它在所有文章中出现的次数都很多,那么它就显得不那么重要

         https://zhuanlan.zhihu.com/p/60839697

  3). java实现TDIDF,TextRank

https://wulc.me/2016/05/28/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95%E7%9A%84%E7%A0%94%E7%A9%B6/

其他相关知识

Hanlp :  https://github.com/hankcs/HanLP#14-%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96

 Hanlp的word2vec  https://github.com/hankcs/HanLP/wiki/word2vec

4.文本聚类,然后取簇中心的词做主语

https://www.jianshu.com/p/695eb0fd3745

7.N-gram模型(主要看第二部分,句子分词)

https://blog.csdn.net/baimafujinji/article/details/51281816

免责声明:文章转载自《文本摘要》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇SpringBoot起飞系列-拦截器和统一错误处理(七)判断表法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

漂亮的无序列表样式

时间如流水,只能流去不流回! 点赞再看,养成习惯,这是您给我创作的动力! 本文 Dotnet9 https://dotnet9.com 已收录,站长乐于分享dotnet相关技术,比如Winform、WPF、ASP.NET Core等,亦有C++桌面相关的Qt Quick和Qt Widgets等,只分享自己熟悉的、自己会的。 阅读导航: 一、先看效果...

Attributes学习笔记20091116:页面按钮的二次确认之JS实现

今天在网上看到一篇文章,是关于按钮的二次确认,建立页面参照着做了下,有以下心得: 1、取指定页面,发生点击操作的对象的ID属性:         var btnId=event.srcElement.getAttribute('ID'); 2、获得指定Id的控件的Text值,这里的控件指的是服务器端控件         var btnText=doc...

中文分词:双向匹配最大算法(BI-MM)

中文分词:双向匹配最大算法(BI-MM) 启发式规则: 1.如果正反向分词结果词数不同,则取分词数量较少的那个 2.如果分词结果词数相同 a. 分词结果相同,就说明没有歧义,可返回任意一个 b. 分词结果不同,返回其中单字较少的那个 代码实现 #使用双向最大匹配算法实现中文分词 words_dic = [] import BMM #引入逆向匹配算...

13.solr学习速成之IK分词器

IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最大词长两种分词方式,速度最大支持80W字/秒(1600KB/秒)。   b. 支持多子处理器分析模式:中文、数字、字母,并兼容日文、韩文。  c. 较小的...

[原创]智能聊天机器人小黄鸡及其制作方法

本文转自http://www.cnblogs.com/huj690/archive/2013/01/24/2875114.html           讲前先预热一下,如果有还不熟悉小黄鸡的亲~欢迎大家戳这里http://mysimi.sinaapp.com/ 自制小黄鸡一枚,欢迎测试。。暂且叫他小黄鸡2号~1号在后面哈        大家好,我是沐儿...

计算 Python 代码的内存和模型显存消耗的小技巧

了解Python代码的内存消耗是每一个开发人员都必须要解决的问题,这个问题不仅在我们使用pandas读取和处理CSV文件的时候非常重要,在我们使用GPU训练的时候还需要规划GPU的显存使用。尤其是我们在白嫖使用kaggle和colab时显得更为重要。 本篇文章我们将介绍两个 Python 库 memory_profiler和Pytorch-Memory-U...