「Selenium」在職進修、線上學習、共學教室

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

在Scrapy框架整合Selenium套件爬取動態網頁的實作

本文以Accupass網站的精選活動為例，來分享Scrapy框架整合Selenium套件，開發Python網頁爬蟲的流程。

Q: 如何建立Scrapy網頁爬蟲?

首先，利用以下指令安裝Scrapy框架：

$ pip install scrapy

接著，新增一個資料夾，並且使用命令提示字元切換到該資料夾的目錄下，建立Scrapy專案，如下：

$ scrapy startproject accupass_scraper .

有了專案後，就能夠利用以下指令建立Scrapy網頁爬蟲：

$ scrapy genspider accupass accupass.com

Q:如何安裝scrapy-selenium套件?

而Scrapy框架想要使用Selenium套件來發送請求與接收回應，就需要一個Middleware來使用Selenium套件。

其中的Middleware，也就是在Scrapy發送請求前，以及將回應結果傳給Scrapy網頁爬蟲前，能夠在Middleware中來進行前處理。

所以，Scrapy框架想要使用Selenium套件來發送請求與接收回應結果，就需要定義Middleware，當然，已經有大大寫好了scrapy-selenium Middleware可以使用，安裝方式如下指令：

$ pip install scapy-selenium

接下來，前往下載Selenium的瀏覽器驅動，並且放置於Scrapy專案資料夾中。開啟settings.py檔案，加入scrapy-selenium Middleware的相關設定，如下範例：

DOWNLOADER_MIDDLEWARES = {

'scrapy_selenium.SeleniumMiddleware': 800

}

SELENIUM_DRIVER_NAME = 'chrome'

SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'

SELENIUM_DRIVER_ARGUMENTS = ['-headless']

Q:如何Scrapy整合Selenium爬取動態網頁?

開啟Scrapy專案的accupass.py檔案，引用scrapy-selenium的SeleniumRequest模組，如下範例：

import scrapy

from scrapy_selenium import SeleniumRequest

而想要讓Scrapy框架使用Selenium套件發送請求，就可以新增start_requests()方法，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

以上的callback參數就是收到網頁的回應結果之後，所要執行的方法，也就是爬取網頁上的資料，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

def parse(self, response):

titles = response.css("p.style-f13be39c-event-name::text").getall()

for title in titles:

print(title)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

3 0 230 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

熱門精選

104學習精靈 | 熱門文章推薦

關注

104學習精靈

產品

04/25 15:52

【限量:免費報名】利用AI自動化行銷｜直播講座

搶先卡位：https://meet.104.com.tw/event/48575464-4b83-42ab-8cc4-276446f5276c

講座詳細資訊

時間：04/30（二） 20:00 - 21:00

講者：圭話行銷創辦人何佳勳 / 業界資深的數位廣告行銷專家

主題：行銷新篇章：AI如何革新檔期活動策略

在這個數位化的時代，AI技術正以驚人的速度改變著我們的行銷方式。檔期促銷活動面對的受眾眾多，難以精準定位目標受眾，進而影響活動效果、每次規劃檔期活動都需要創造吸引人的內容和促銷方式，但長期以來，創意卻逐漸耗盡、想要掌握AI如何革新檔期活動策略的最新動向嗎？

你也在苦思如何創造不同以往、有別競品的檔期活動嗎？104學習精靈與緯育TibaMe，攜手邀請到數位廣告界專家圭話行銷創辦人何佳勳老師。學員們都稱呼他為小圭老師，不僅熱愛與學員社群互動、對學員有問必答，更善於為客戶的製造許多驚喜及營收，一起期待老師分享如何透過 AI 工具提升30%的檔期活動成效吧~

立即報名：https://meet.104.com.tw/event/48575464-4b83-42ab-8cc4-276446f5276c

meet.104.com.tw

【免費報名】行銷新篇章：如何使用AI規劃行銷活動｜直播講座｜104活動吧

1 0 1453 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

學習精靈

10/24 00:00

youtube.com

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

72 0

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

掌握3個降低Scrapy網頁爬蟲被封鎖的技巧

Q: Scrapy網頁爬蟲框架如何輪流替換User-Agent(使用者代理)?

在Scrapy網頁爬蟲爬取網頁時，網站都會使用User-Agent(使用者代理)來識別所使用的瀏覽器版本資訊，而當Scrapy網頁爬蟲每次爬取都使用相同的User-Agent(使用者代理)，就很容易被懷疑是網頁爬蟲而被封鎖。

所以，如果Scrapy網頁爬蟲在發送請求的過程中，隨機使用不同的User-Agent(使用者代理)，就可以大幅降低被偵測的風險。

而要達到這樣的功能，就能夠利用以下指令來安裝scrapy-user-agents套件，讓Scrapy網頁爬蟲能夠隨機取用不同的User-Agent(使用者代理)：

$ pip install scrapy-user-agents

接著，開啟Scrapy網頁爬蟲專案的settings.py檔案，在DOWNLOAD_MIDDLEWARES的地方，加入以下的設定：

DOWNLOADER_MIDDLEWARES = {

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,

'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,

}

Q: Scrapy網頁爬蟲框架如何輪流替換Proxy IP(代理服務器IP)?

同樣，如果Scrapy網頁爬蟲都使用相同的IP發送請求，很容易會被反爬蟲網站發現而封鎖。這時候，就會需要隨機使用不同的Proxy IP(代理服務器IP)，降低被偵測的風險。

可以利用以下指令安裝scrapy-rotating-proxies套件，來達成上述的效果：

$ pip install scrapy-rotating-proxies

開啟Scrapy網頁爬蟲傳案的settings.py檔案，加入以下的設定：

ROTATING_PROXY_LIST_PATH = '/path/my_proxies.txt'

DOWNLOADER_MIDDLEWARES = {

'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,

'rotating_proxies.middlewares.BanDetectionMiddleware': 620,

}

其中，在自訂的Proxy IP檔案(my_proxies.txt)中加入Proxy IP，如下範例：

ROTATING_PROXY_LIST = [

'proxy_ip_1:8000',

'proxy_ip_2:8031',

...

]

Q: Scrapy網頁爬蟲框架如何使用無頭瀏覽器(Headless Browser)?

無頭瀏覽器(Headless Browser)也就是沒有圖形化的使用者介面瀏覽器，能夠模擬使用者在網頁上的操作，降低反爬蟲網站的偵測。

其中，Selenium就是最常被用來啟用無頭瀏覽器(Headless Browser)的套件，而Scrapy結合Selenium套件的實作方式可以參考[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南文章( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html )。

當然，除了本文所分享的3個Scrapy網頁爬蟲克服反爬蟲網站的方法外，還可以參考[Python爬蟲教學]7個降低Python網頁爬蟲被偵測封鎖的實用方法文章( https://www.learncodewithmike.com/2020/09/7-tips-to-avoid-getting-blocked-while-scraping.html )，不外乎就是避免像Python網頁爬蟲機器人一樣有規則模式的爬取資料，才有機會不被反爬蟲網站抓到唷。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/12/3-tips-for-scrapy-without-getting-blocked.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學13]掌握3個降低Scrapy網頁爬蟲被封鎖的技巧

2 0 336 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

學習精靈

07/14 00:00

youtube.com

【python】selenium 網頁自動化、網路爬蟲 #爬蟲 #python爬蟲 #自動化

135 4

分享到：

Line

Facebook

複製連結

取消

推薦給你

AI 趨勢報－科技愛好者的產地🤖

關注

知識貓星球

喵星人

2小時前

地震不再是不可預測的天災？AI 預測準確率達70%

最近，美國德州大學奧斯汀分校的研究人員開發了一種新的 AI 地震預測技術，成功預測了一週內將會發生的地震，預測準確率達到 70%！

在中國的實驗中，這個AI成功預測了320公里範圍內的14次地震，並且準確預測了地震的位置和強度。

雖然這個AI技術還是有錯過以及誤報的失誤，但70%已經是一個巨大的成果，可以有效幫助減少經濟損失和人員傷亡。

▶ Al地震預測技術如何運作？◀

● Al地震預測技術主要通過以下三個步驟來實現：

1. 數據收集：首先，需要收集大量的地震數據，包括地震波數據、地質數據、氣象數據等。

2. 數據分析：然後，利用AI技術對這些數據進行分析，找出地震發生前的規律和特徵。

3. 預測地震：最後，根據這些規律和特徵，預測未來可能發生的地震。

● Al地震預測技術具有以下優勢：

❶ 準確率高：AI技術可以從大量數據中找出傳統方法難以發現的規律和特徵，從而提高地震預測的準確率。

❷ 速度快：AI技術可以快速分析大量數據，從而縮短地震預測的時間。

❸ 範圍廣：AI技術可以對廣泛的地區進行地震預測，不受傳統地震儀的限制。

▶ Al地震預測技術的未來展望 ◀

AI地震預測技術的發展還處於起步階段，但其潛力巨大。隨著AI技術的進一步發展，地震預測的準確率和範圍將會進一步提高，為人們的生命和財產安全提供更加有效的保障。

● 以下是一些AI地震預測技術未來發展的可能方向：

❶ 開發更準確的AI模型：通過不斷研究和完善AI模型，提高地震預測的準確率。

❷ 融合多種數據源：將地震波數據、地質數據、氣象數據等多種數據源融合在一起，進行分析，提高地震預測的準確率和範圍。

❸ 開發實時地震預警系統：開發實時地震預警系統，為人們提供更及時有效的預警信息。

Al地震預測技術的發展，為地震預測和防災減災工作帶來了新的希望。相信在不久的將來，地震將不再是不可預測的天災，人們將能夠更加有效地應對地震災害，減少地震造成的損失！

➤ 立即關注【AI趨勢報－科技愛好者的產地】獲得更多科技新知！

0 0 43 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精靈

Selenium

Selenium 學習推薦

熱門精選

推薦給你