面向webGitHub:爬虫集合微博、Twitter玩加知网虎牙斗鱼B站WeGame猫眼豆瓣安居客居理新房等

twitter爬虫插件

面向Web Archive的交际媒体信息收罗工具比较研究

2018年01月31日 08:48 出处:《图书馆学研究:理论版》 作者:陈为东 王萍 等

字号
KeyWords:网络信息资源保存;交际媒体;信息收罗;收罗工具

内容摘要: 交际媒体承载着丰富的网络信息资源,网络信息资源保存能实现信息资源的常期存取,为交际媒体信息收罗和常期保存奠基了底子。

KeyWords: 网络信息资源保存;交际媒体;信息收罗;收罗工具

作者简介:
2 交际媒体信息收罗工具的分类

交际媒体种类众多,衍生了60多种信息收罗与保存工具,根据交际媒体信息收罗工具的捕捉情势、插件技能方法、保存对象、!专门针对某一资源或交际媒体、其他种类共分别为5大类,每一类包含多个种类和多种收罗工具,如表1所示。

2.1 捕捉情势下交际媒体信息收罗工具

交际媒体根据抓取信息方法分别:(1)API(Application Programming Interface,应用程序编程接口)访问获取,以API访问获取数据的交际媒体除X1 Social Discovery、RegEd、Backupify、Hearsay Social、Convogence、Reed Archives和Smarsh 7种外,外加Flick API(提供开放的API)与Parallel-Flickr(使用API实现JSON文件的获取),Flick API和Parallel-Flickr这两种专门保存备份Flicker上的照片,故表1中将其归入专门针对某一资源或交际媒体这一类;(2)网络爬虫抓取,Iterasi工具用网络爬虫获取整个交际媒体网站内容,而Convogence使用网络爬虫和API来获取内容;(3)捕捉URL(Uniform Resource Locator,统一资源定位符)或重写URL,Archive-it“按需”捕捉每个URL,Aleph Archives对URL进行重写并以WARC格式存储,而Sitesucker可制作网站的当地副本,是Macintosh应用程序,通过它异步复制站点的网页、图像、PDF文件、样式表和其他文件到用户的当地硬盘驱动器且复制站点的目次布局,用户只要输入一个URL,按回车就可以下载整个网站⑩。

2.2 插件技能方法的交际媒体信息收罗工具

该类交际媒体信息收罗工具以browser和WordPress的插件情势存在,ArchiveFacebook和Memento插件仅支持火狐browser,Archify插件应用于主流browserChrome、Firefox、Safari、IE等;BackupBuddy和WP-DBManager是WordPress的插件,两者均可主动备份,BackupBuddy是第一个安装在WordPress的插件,重点在于帮助用户恢复、迁徙WordPress内容(11),而WP-DBManager容许用户优化、查询、修复、删除、备份数据库,使用PHP+Mysql情势天生备份数据(12)。

2.3 专门针对某一资源或交际媒体的信息收罗工具

2.3.1 Flickr平台照片的备份工具

收集Flickr平台照片的工具有4种:Flick API、Parallel-Flickr、Flickredit、Flickr Downloadr,此中Flick API和Parallel-Flickr使用API捕捉照片,Flick API还具备上传照片和视频的功能,支持多种协议如REST、SOAP、XMLRPC,相应多种格式如XML、XML-RPC、JSON and PHP等(13);Parallel-Flickr在备份照片的同时天生数据库,使用Flick API作为供给商进行单一登录,使用API获取JSON文件(14);Flickredit是Java桌面应用程序,容许用户上传、下载、编辑和备份照片(15);Flickr Downloadr是一款跨平台的桌面应用程序,容许用户从Flickr上搜索、下载照片到自己的电脑上,依据照片的EXIF、IPTC与标签实现搜索与备份(16)。

2.3.2 YouTube视频的常期保存工具

保存YouTube视频的收罗工具有YTD Video Downloader和Free YouTube Download,此中YTD Video Downloader容许从YouTube、Facebook、Bing和Yahoo网站上下载视频并可将!视频转换成MOV、MP4、3GP、WMV、AVI格式(17),而Free YouTube Download通过用户通道下载YouTube视频并保存为原始格式(18)。

2.3.3 Twitter和Facebook平台的信息收罗工具

关于Twitter的信息收罗工具有11种,Tweet Archivist是Windows应用程序,提供归档网络内容的数据发掘与分析并自带可视化功能,丰富存档资源的视觉感知(19);Tweetbook可以创建用户嘻歡的交际媒体内容的PDF电子书,由于受到Twitter API限定,容许最多获取最新的3200条Tweet内容(20);Tweet Library创建一个当地可查找的交际媒体档案库,满意用户收藏和转发,同时可导出档案、时间轴、资源聚集到当地盘算机,最多容许下载3200个Tweets APP操作(21);Tweet Nest由Pongsocket提出,用户可以存储、欣赏、搜索Web服务器上备份的Tweets(22);Tweetstream提供简单的Ruby来访问Twitter平台的API,通过连接Twitter的APIS来使用Twitter的信息资源(23);Twlnbox是一个免费插件,安装后,用户像欣赏电子邮件一样查阅Tweets信息(24);Twitter API through manual backup工具容许用户通过Twitter API提交查询指示,用户可以手动备份数据比方备份微博,也可以手动保存每个页面为XML文件;Twitter Archive Download满意用户从Twitter中请求一份Twitter档案库(25);由Martin Hawksey推出的Twitter Archiving Google Spreadsheet(TAGS),使用Twitter的API和脚本将数据保存在谷歌电子表格中,便于资源管理和访问(26);TwitterBackup将Twitter内容以XML的格式进行存储(27);TwitterScribe工具针对Tweets和retweets,容许用户将保存的Twitter内容导出为CSV或PDF格式文件。别的,使用Facebook Download Service工具收罗备份Facebook平台的信息资源。

hello,小同伴们大家好,今日给大家建议的开源项目是 : CxSpider ,这个开源整合了作者自己的收罗过的全部产品,包括微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame!、猫眼、豆瓣、安居客、居理新居感爱好的小同伴可以下载看看,应该可以给你提供一个可鉴戒的思绪。

Project


爬虫详情


1. Twitter用户信息爬虫(twitter.user_info)

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08

使用第三方模块twitter-scraper收罗Twitter用户信息;由于该模块收罗的粉丝数和关注数大概存在偏差,因此再通过Selenium抓取Twitter用户信息,以改正该模块收罗的数目。

  • 收罗信息:粉丝数和关注数为twitter-scraper收罗并配合Selenium爬虫检察,其他字段为twitter-scraper收罗。
  • 应用设置:无需使用代理IP,需要使用Selenium

2. Twitter用户推文爬虫(twitter.user_tweet)

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08

微博热搜榜及时爬虫(weibo.hot_ranking)


@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08

定时收罗微博热搜榜。

  • 收罗信息:每5分钟收罗1次,每次约50条记载→天天约14400条记载
  • 数据洗濯:热搜榜置顶热搜(固定第1条)和广告热搜(标注建议)
  • 应用设置:无需使用代理IP、无需使用Selenium

环境变量


爬虫功能的正常使用需要设置如下环境变量,可以直接修改environment.py中的环境变量值,也可以修改设置Json文件。

环境设置


Python/Pip环境

  • Python >= 3.8.0
  • requests >= 2.23.0
    • idna >= 2.9
    • urllib3 >= 1.25.9
    • certifi >= 2020.4.5.1
    • chardet >= 3.0.4
  • bs4 >= 0.0.1
    • beautifulsoup4 >= 4.9.0
    • soupsieve >= 2.0
  • apscheduler >= 3.6.3
    • pytz >= 2019.3
    • six >= 1.14.0
    • tzlocal >= 2.1
    • setuptools
  • mysql-connector >= 2.2.9
  • lxml >= 4.5.0
  • selenium >= 3.141.0 (用于Selenium爬虫)
  • twitter-scraper >= 0.4.1 (用于Twitter用户信息爬虫)
    • requests-html >= 0.10.0
    • MachanicalSoup >= 0.12.0
开源地点: github.com/ChangxingJi…

今日的建议不知道大家嘻歡吗?假如你们嘻歡话,请在文章底部留言或点赞,以表现对我的支持,你们的留言,点赞,转发关注是我连续更新的动力哦!

关注订阅号回答:" 1024 ",免费领取一大波学习资源,先到先得哦!

近来在研究facebook,推特爬虫,发现网站加载了一大堆的js代码,网上查询了一下,这是使用了chunk技能,由服务器一段一段的分发!加密数据给客户端,然后由js解密。我想实现只用python 请!求库来完成这个爬虫,不用splash等主动化插件,但是发现很难动手,哪位兄弟能指教一下我该怎么继续下去,求指教

本文网址: https://www.4008140202.com/pp/202081517191_1081_800076450/home

推荐阅读

tags

最新发布