104學習

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

不可不知的Scrapy框架爬取下一層網頁資料實作

本文以INSIDE硬塞的網路趨勢觀察網站( https://www.inside.com.tw/ )首頁的熱門文章為例，來和大家分享如何在Scrapy框架中爬取下一層的網頁內容。

Q: Scrapy網頁爬蟲爬取下一層網頁內容

建立Scrapy網頁爬蟲檔案(hot_news.py)，在parse()方法(Method)的地方，透過Scrapy框架的xpath()方法(Method)，來爬取INSIDE硬塞的網路趨勢觀察網站的所有熱門文章下一層網頁網址，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

詳細的Scrapy xpath定位元素方法教學可以參考[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法文章( https://www.learncodewithmike.com/2021/01/scrapy-xpath-selectors.html )。取得了所有熱門文章的下一層網頁網址後，就可以透過迴圈來進行請求，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

for post_url in post_urls:

yield scrapy.Request(post_url, self.parse_content)

其中Request方法(Method)的第一個參數，就是「請求網址」，也就是熱門文章的下一層網頁網址，而第二個參數就是請求該網址後，所要執行的方法(Method)，而parse_content()方法(Method)中，就是來爬取熱門文章的下一層網頁內容，以本文為例就是包含「文章標題」及「文章摘要」。

接著，就可以在parse_content()方法(Method)中，同樣使用Scrapy框架的xpath()方法(Method)，來爬取「文章標題」及「文章摘要」，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

...

def parse_content(self, response):

# 熱門文章標題

hot_news_title = response.xpath(

"//h1[@class='post_header_title js-auto_break_title']/text()").get()

# 熱門文章摘要

hot_news_intro = response.xpath(

"//div[@class='post_introduction']/text()").get()

print(f"熱門文章標題：{hot_news_title}，\n熱門文章摘要：{hot_news_intro}")