Rat's

使用Tumblr爬虫,结合h5ai创建图库
Tumblr内容丰富,特别是图片和视频。下面利用Tumblr爬虫,结合h5ai目录直读程序,或者其他图床程序,创建...
扫描右侧二维码阅读全文
25
2017/05

使用Tumblr爬虫,结合h5ai创建图库

Tumblr内容丰富,特别是图片和视频。下面利用Tumblr爬虫,结合h5ai目录直读程序,或者其他图床程序,创建图库。

本方法需要一个Python 2.7的环境,CentOS 6升级Python 2.7方法请参考CentOS 6升级Python 2.6至Python 2.7的方法,CentOS 7自带python 2.7,下面使用CentOS 7和python 2.7

使用tumblr-crawler爬虫

tumblr-crawler爬虫github项目地址:https://github.com/dixudx/tumblr-crawler

1、安装可能使用的依赖

yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel
yum -y install gcc automake autoconf libtool make
yum install gcc gcc-c++
yum -y install readline-devel

2、安装tumblr-crawler

git clone https://github.com/dixudx/tumblr-crawler.git
cd tumblr-crawler
pip install -r requirements.txt

3、使用tumblr-crawler下载图片和视频
1、在sites.txt中添加tumblr站,用逗号分开,但不需要.tumblr.com后缀。如rat.tumblr.comrats.tumblr.com

rat,rats

保存后,运行

python tumblr-photo-video-ripper.py

2、直接下载

python tumblr-photo-video-ripper.py rat,rats

最后将所有图片和视频均保存在当前路径的与tumblr博客名字相同的文件夹

安装、使用h5ai

具体安装方法参考:一款不错的PHP目录列表程序:h5ai安装教程

Vultr注册就送$50,可开日本/新加坡等机房,【点击注册】。
最后修改:2017 年 05 月 25 日 11 : 26 AM

发表评论

5 条评论

  1. 豆子豆

    博主有没有推特爬虫

    1. Rat's
      @豆子豆

      没有,你可以去Github上找找

      1. 豆子豆
        @Rat's

        Github逛了一圈貌似没有

  2. GanZiB

    哦 看错了 这个是组装图片链接的

  3. GanZiB

    大佬 我想请问 一下这个爬去照片可以翻页吗?
    我在代码里看了一下
    def _handle_medium_url(self, medium_type, post):

    try: if medium_type == "photo": return post["photo-url"][1]["#text"]

    我把 [0] 改成[1]了之后就在一直下载不知道对不对