104學習精靈

資料搜集

資料搜集
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 14 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 14 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料搜集 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

在Scrapy框架整合Selenium套件爬取動態網頁的實作
本文以Accupass網站的精選活動為例,來分享Scrapy框架整合Selenium套件,開發Python網頁爬蟲的流程。
Q: 如何建立Scrapy網頁爬蟲?
首先,利用以下指令安裝Scrapy框架:
$ pip install scrapy
接著,新增一個資料夾,並且使用命令提示字元切換到該資料夾的目錄下,建立Scrapy專案,如下:
$ scrapy startproject accupass_scraper .
有了專案後,就能夠利用以下指令建立Scrapy網頁爬蟲:
$ scrapy genspider accupass accupass.com
Q:如何安裝scrapy-selenium套件?
而Scrapy框架想要使用Selenium套件來發送請求與接收回應,就需要一個Middleware來使用Selenium套件。
其中的Middleware,也就是在Scrapy發送請求前,以及將回應結果傳給Scrapy網頁爬蟲前,能夠在Middleware中來進行前處理。
所以,Scrapy框架想要使用Selenium套件來發送請求與接收回應結果,就需要定義Middleware,當然,已經有大大寫好了scrapy-selenium Middleware可以使用,安裝方式如下指令:
$ pip install scapy-selenium
接下來,前往下載Selenium的瀏覽器驅動,並且放置於Scrapy專案資料夾中。開啟settings.py檔案,加入scrapy-selenium Middleware的相關設定,如下範例:
DOWNLOADER_MIDDLEWARES = {
'scrapy_selenium.SeleniumMiddleware': 800
}
SELENIUM_DRIVER_NAME = 'chrome'
SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'
SELENIUM_DRIVER_ARGUMENTS = ['-headless']
Q:如何Scrapy整合Selenium爬取動態網頁?
開啟Scrapy專案的accupass.py檔案,引用scrapy-selenium的SeleniumRequest模組,如下範例:
import scrapy
from scrapy_selenium import SeleniumRequest
而想要讓Scrapy框架使用Selenium套件發送請求,就可以新增start_requests()方法,如下範例:
class AccupassSpider(scrapy.Spider):
name = 'accupass'
allowed_domains = ['accupass.com']
start_urls = ['http://accupass.com/']
def start_requests(self):
yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)
以上的callback參數就是收到網頁的回應結果之後,所要執行的方法,也就是爬取網頁上的資料,如下範例:
class AccupassSpider(scrapy.Spider):
name = 'accupass'
allowed_domains = ['accupass.com']
start_urls = ['http://accupass.com/']
def start_requests(self):
yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)
def parse(self, response):
titles = response.css("p.style-f13be39c-event-name::text").getall()
for title in titles:
print(title)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html
)網站觀看更多精彩內容。
3 0 322 2

熱門精選

104學習精靈

產品

10/30 16:13

雙11精選加碼課程,不要錯過喔!
雙11精選加碼課程,不要錯過喔 !
第一波 11/1 00:00 ~ 11/10 23:59
想要增加職場技能,要保握學習優惠喔!讓你學習更輕鬆!
【 領『 88折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🔵 ChatGPT x Excel | 職場必學商務數據分析術
🔵 從Excel到Power BI數據視覺化
🔵 .NET開發資料庫應用系統全方位-ADO.NET與Entity Framework(.NET Core)攻略
🔵 成為 AI 科學家|資料分析師必備視覺化技能 Power BI
🔵 C# .Net Framework系統基礎實作攻略
🔵 學程式也能很好玩:不背語法寫Java
🔵 快速活用 MySQL,精準設計關聯式資料庫
🔵 全端工程師必修-Python迅速開發網站實戰
🔵 第一次就上手,前端工程新手指南
🔵 成為前端工程師|透過 HTML 與 CSS 認識網頁設計,從 0 到 1 打造實用介面 (上集)
🔵 白帽駭客入門 I 基礎網頁滲透實作
【 領『 85折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🟠 一次搞懂 ChatGPT 工作法 | 5分鐘看懂,立即上手 AI 應用觀念!
🟠 商務簡報技巧
🟠 Python基礎課程:17小時學會寫程式
🟠 訴訟基本觀念十堂課:教你避免法律風險,掌握官司的主導權
🟠 多益全制霸:必考文法全攻略
🟠 英文簡報表達力 | 商務溝通實戰技巧
🟠 多益全制霸:必考字群獨家記憶法
🟠 Offer Get ! 現在開始找份好工作
🟠 如何談升職加薪
🟠 讀懂財報的基礎入門
🟠 產品思維-像產品經理一樣思考
🟠 認識孩子的九大氣質:讓親子關係更緊密的一堂課
【 領『 85折送2百LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
⚡ 畫出迷人風格 | iPad電繪Procreate插畫課
⚡ 新手的第一堂Procreate動畫課|療癒風格動起來
⚡ 【自我和解的8堂課】用金剛經破除生命誤會,找回快樂的自己
⚡ 居家水電自己來!水電爸爸的水電實務課
⚡ 【化輸入為輸出】九堂課教你輸出高品質內容
⚡ 手沖咖啡學|搞懂原理,成為咖啡職人
【更多課程優惠|查看留言處】
1 13 6499 2
學習精靈

01/23 00:00

35 2
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

掌握3個降低Scrapy網頁爬蟲被封鎖的技巧
Q: Scrapy網頁爬蟲框架如何輪流替換User-Agent(使用者代理)?
在Scrapy網頁爬蟲爬取網頁時,網站都會使用User-Agent(使用者代理)來識別所使用的瀏覽器版本資訊,而當Scrapy網頁爬蟲每次爬取都使用相同的User-Agent(使用者代理),就很容易被懷疑是網頁爬蟲而被封鎖。
所以,如果Scrapy網頁爬蟲在發送請求的過程中,隨機使用不同的User-Agent(使用者代理),就可以大幅降低被偵測的風險。
而要達到這樣的功能,就能夠利用以下指令來安裝scrapy-user-agents套件,讓Scrapy網頁爬蟲能夠隨機取用不同的User-Agent(使用者代理):
$ pip install scrapy-user-agents
接著,開啟Scrapy網頁爬蟲專案的settings.py檔案,在DOWNLOAD_MIDDLEWARES的地方,加入以下的設定:
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}
Q: Scrapy網頁爬蟲框架如何輪流替換Proxy IP(代理服務器IP)?
同樣,如果Scrapy網頁爬蟲都使用相同的IP發送請求,很容易會被反爬蟲網站發現而封鎖。這時候,就會需要隨機使用不同的Proxy IP(代理服務器IP),降低被偵測的風險。
可以利用以下指令安裝scrapy-rotating-proxies套件,來達成上述的效果:
$ pip install scrapy-rotating-proxies
開啟Scrapy網頁爬蟲傳案的settings.py檔案,加入以下的設定:
ROTATING_PROXY_LIST_PATH = '/path/my_proxies.txt'
DOWNLOADER_MIDDLEWARES = {
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
其中,在自訂的Proxy IP檔案(my_proxies.txt)中加入Proxy IP,如下範例:
ROTATING_PROXY_LIST = [
'proxy_ip_1:8000',
'proxy_ip_2:8031',
...
]
Q: Scrapy網頁爬蟲框架如何使用無頭瀏覽器(Headless Browser)?
無頭瀏覽器(Headless Browser)也就是沒有圖形化的使用者介面瀏覽器,能夠模擬使用者在網頁上的操作,降低反爬蟲網站的偵測。
其中,Selenium就是最常被用來啟用無頭瀏覽器(Headless Browser)的套件,而Scrapy結合Selenium套件的實作方式可以參考[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南文章( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html )。
當然,除了本文所分享的3個Scrapy網頁爬蟲克服反爬蟲網站的方法外,還可以參考[Python爬蟲教學]7個降低Python網頁爬蟲被偵測封鎖的實用方法文章( https://www.learncodewithmike.com/2020/09/7-tips-to-avoid-getting-blocked-while-scraping.html ),不外乎就是避免像Python網頁爬蟲機器人一樣有規則模式的爬取資料,才有機會不被反爬蟲網站抓到唷。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/12/3-tips-for-scrapy-without-getting-blocked.html
)網站觀看更多精彩內容。
2 0 420 2
學習精靈

07/10 00:00

5 0

推薦給你

知識貓星球

喵星人

21小時前

辦公用品英文合集:釘書機、長尾夾、便利貼、迴紋針等辦公文書用具的英文原來是這個!
常見辦公室文具用品的英文該怎麼說呢?一篇教你釘書機、長尾夾、便利貼、迴紋針的英文怎麼說,來學習各種工具的英文吧!
1. 書寫工具
• Ballpoint Pen - 原子筆
• Mechanical Pencil - 自動鉛筆
• Highlighter - 螢光筆
• Eraser - 橡皮擦
• Correction Tape - 修正帶
2. 夾子和裝訂文件工具
• Stapler - 釘書機
• Staples - 釘書針
• Paperclip - 迴紋針
• Binder Clip - 長尾夾
• Hole Punch - 打孔機
3. 黏貼工具
• Push Pin - 圖釘
• Tape Dispenser - 膠帶座
• Glue Stick - 口紅膠
• Rubber Bands - 橡皮筋
4. 量測工具
• Ruler - 尺
• Calculator - 計算機
5. 文件夾等辦公用品
• Folder - 資料夾
• Post-it Notes - 便利貼
• Clipboard - 寫字夾板
記得關注我們的共學教室,不要錯過任何文章喔!
0 1 470 1
你可能感興趣的教室