Tweepy1_抓取Twitter数据

摘要:
courseId=1005269003&utm_campaign=commission&utm_source=cp-4000000000398149&utm_Medium=share一直想用爬虫登录并获取Twitter数据。它尝试了一些包,如scratch和requests,但失败了。这可能是我不熟悉的原因。然而,今天我发现了一个名为tweety的新包,它专门用于处理Python中的Twitter API。首先尝试本教程的第一个示例。稍作修改后,代码如下:Tweepy获取twitter数据1importreiportTweepyauth=Tweepy.OAuthHandlerauth。set_access_tokenapi=tweepy.API高点=re。compilepublictweets=api。home_timeline()num=0forweetinpublic_tweets:printnumnum+=1text_noem=高点。subtext_noem=text_noem。编码代码说明:第3-4行:导入tweety和re模块。第6-9行:设置API和令牌,需要在apps.twitter.com注册并创建应用程序后获取。

python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

Tweepy1_抓取Twitter数据第1张

之前一直想用爬虫登陆并抓取twitter数据,试过scrapy,requests等包,都没成功,可能是我还不太熟悉的原因,不过

今天发现了一个新包tweepy,专门用于在Python中处理twitter API。先尝试一下教程的第一个例子,经过了自己的一点修改

代码如下:

Tweepy抓取twitter数据 1 
   
import re  
import tweepy  
  
auth = tweepy.OAuthHandler("xxxxx",  
                           "xxxxx")  
auth.set_access_token("xxxxx",  
                      "xxxxx")  
  
api = tweepy.API(auth)  
  
  
highpoints = re.compile(u'[uD800-uDBFF][uDC00-uDFFF]')  
public_tweets = api.home_timeline()  
num = 0  
for tweet in public_tweets:  
    print num  
    num += 1  
    text_noem = highpoints.sub('--emoji--', tweet.text)  
    text_noem = text_noem.encode('utf8')        
  

代码解释:

第3-4行:导入tweepy和re模块。之所以这么简单的代码中要用re是因为在提取推文过程中遇到了emoji表情,而emoji unicode是无法编码成 gbk 的,所以要用正则表达式把所有表情都替换掉。

第6-9行:设置API和token,这个需要注册后在apps.twitter.com新建application后获得。

第11行:根据auth返回API对象,用于具体返回responses

第14行:设置emoji表情的正则表达式,用于过滤出所有的表情,此处参考了下面注明的一篇stackoverflow文章。

第15行:获取用户时间线上的信息

第16行:设置一个计数的变量

第17行:遍历所有的推文:

循环内:

第18-22行:输出序号,并输出推文内容,将所有的emoji unicode用 ’--emoji--‘ 替代并将unicode编码为utf8以解决不能输出的问题。



抓取Twitter数据的重点是twitter要求所有requets都必须经过OAuth认证,而tweepy这个包在这方面的设定让authentication变得十分方便。



参考文献:

http://stackoverflow.com/questions/13729638/how-can-i-filter-emoji-characters-from-my-input-so-i-can-save-in-mysql-5-5

 
http://tweepy.readthedocs.io/en/v3.5.0/getting_started.html

Tweepy 3.5.0 Doc (1) Getting started 开始

简介

如果你是第一次接触Tweepy,就请从这里开始。这个教程的目标是提供你学习Tweepy所需的信息,让你学习完本教程后能熟练使用Tweepy。我们在这主要谈论重要的基础内容,而不会涉及太多细节,


你好 Tweepy

  1. import tweepy  
  2.   
  3. auth = tweepy.OAuthHandler(consumer_key, consumer_secret)  
  4. auth.set_access_token(access_token, access_token_secret)  
  5.   
  6. api = tweepy.API(auth)  
  7.   
  8. public_tweets = api.home_timeline()  
  9. for tweet in public_tweets:  
  10.     print tweet.text  

这 个例子可以下载你Twitter主页上的推文,并且把相应的文本内容打印到控制台。Twitter要求所有请求(requests)都通过OAuth协议 进行授权(身份认证)。Authentication Tutorial(身份认证教程)(链接)中有授权的详细介绍。


API

API类为Twitter的所以REST API方法提供接口(The API class provides access to the entire twitter RESTful API methods.)每种方法接受不同的参数,但是都返回response。更多请参见API Reference(链接)


模型

当我们使用一种API方法时,我们大多数情况下会得到一个Tweepy model 类实例,其中包含了从Twitter返回的可以让我们应用到app中的数据。比如下面这行代码就返回了一个User model:

  1. # Get the User object for twitter...  
  2. user = api.get_user('twitter')  


Model中包含了数据和一些有用的方法:

  1. print user.screen_name  
  2. print user.followers_count  
  3. for friend in user.friends():  
  4.    print friend.screen_name  

更多内容请参见 ModelsReference(链接)


 

免责声明:文章转载自《Tweepy1_抓取Twitter数据》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Android读取JSON格式数据freeswitch 对接IMS下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

ASP.NET CORE3.0 API Swagger+IdentityServer4授权验证

一、配置IdentityServer4服务端 这里介绍两种方法 ①直接创建identityserver4的模板,在模板的基础上修改 ②创建新项目,自己搭建 第一种 参考 我的identityServer4学习,创建一个identityServer4模板后 修改config文件 public static IEnumerable<IdentityRes...

JimuReport积木报表 — API数据源报表制作

积木报表 ,一个开源免费的报表工具,像搭建积木一样在线设计报表!功能涵盖数据报表设计、打印设计、图表设计、大屏设计等! 领先的企业级Web报表平台软件,采用纯Web在线技术,专注于解决企业报表快速制作难题。 快速体验: www.jimureport.com 以下讲解一下,API数据源报表制作步骤: 一、数据源报表制作、新建数据库表(以student学生表...

Spark(十六)DataSet

  Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替RDD的场景。本文聚焦DataFrame和Datase...

asp.net web api 测试帮助页面建立并测试

asp.net web api 测试帮助页面建立并测试 现在使用WEB API来开发,越来越流行。 在开发过程中的测试调试,可以使用Fiddler等工具来帮助测试外,还有: 在asp.net 中有种方式可以建立一个帮助测试页面来帮助测试调试API接口,非常的方便。 英文原文地址: http://blogs.msdn.com/b/yaohuang1/arch...

guava API整理

1,大纲 让我们来熟悉瓜娃,并体验下它的一些API,分成如下几个部分: Introduction Guava Collection API Guava Basic Utilities IO API Cache API 2,为神马选择瓜娃? 瓜娃是java API蛋糕上的冰激凌(精华) 高效设计良好的API. 被google的开发者设计,实现和使用。...

记一次Hvv中遇到的API接口泄露而引起的一系列漏洞

引言 最近朋友跟我一起把之前废弃的公众号做起来了,更名为鹿鸣安全团队,后面陆续会更新个人笔记,有趣的渗透经历,内网渗透相关话题等,欢迎大家关注 前言 Hvv中的一个很有趣的漏洞挖掘过程,从一个简单的API泄露到一系列漏洞。这次的经历更让我体会到了细心的重要性。 挖掘起始 Hvv中拿到了一大堆的资产,有IP和URL的,我一般会先去手动挖掘已经给了的URL资产...