spider rosioo

今天练习写爬虫,爬取了rosioo的图

  1. 由于是初学.
  2. 再加上自己也没有帐号。

故 爬取都是免账号,非高清大图的。

分页代码

1
2
3
4
5
6
7
8
9
urls = response.xpath('//*[@id="imgBox"]/li/a/@href').extract()
if urls:
for url in urls:
yield scrapy.Request(url=r"http://www.rosiok.com"+url, callback=self.parse2)
next_page = response.xpath('//*[@class="cPage"]/li[last()]/a/@href') # next page
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse)

下载代码

1
2
3
4
5
6
7
8
9
10
def get_media_requests(self, item, spider):
for image_url in item['img_url']:
yield scrapy.Request(image_url)
def item_completed(self, results, item, spider):
image_paths = [x['path'] for ok, x in results if ok]
if not image_paths:
raise DropItem("Item contains no images")
item['image_paths'] = image_paths
return results

上运行图:

运行图

爬取的图片就不上了~

项目地址:项目地址

×

打赏一下

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

文章目录
  1. 1. 今天练习写爬虫,爬取了rosioo的图
  2. 2. 故 爬取都是免账号,非高清大图的。
  3. 3. 分页代码
  4. 4. 下载代码
,