104學習

Proxy

Proxy
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「Proxy:主要負責代表組織進行業務溝通與決策,確保團隊目標的實現與執行,以促進與客戶及合作夥伴之間的良好關係。需要具備卓越的跨部門協作能力及溝通技巧,以有效調解不同利益相關者的需求,並在快速變化的市場環境中適應與分析各類情境。此職位需了解台灣商業文化,尤其是在快速變動的科技及創新領域,能夠應對當地的商業規範及市場挑戰,提供高效的解決方案及建議。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

Proxy 學習推薦

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

掌握3個降低Scrapy網頁爬蟲被封鎖的技巧
Q: Scrapy網頁爬蟲框架如何輪流替換User-Agent(使用者代理)?
在Scrapy網頁爬蟲爬取網頁時,網站都會使用User-Agent(使用者代理)來識別所使用的瀏覽器版本資訊,而當Scrapy網頁爬蟲每次爬取都使用相同的User-Agent(使用者代理),就很容易被懷疑是網頁爬蟲而被封鎖。
所以,如果Scrapy網頁爬蟲在發送請求的過程中,隨機使用不同的User-Agent(使用者代理),就可以大幅降低被偵測的風險。
而要達到這樣的功能,就能夠利用以下指令來安裝scrapy-user-agents套件,讓Scrapy網頁爬蟲能夠隨機取用不同的User-Agent(使用者代理):
$ pip install scrapy-user-agents
接著,開啟Scrapy網頁爬蟲專案的settings.py檔案,在DOWNLOAD_MIDDLEWARES的地方,加入以下的設定:
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}
Q: Scrapy網頁爬蟲框架如何輪流替換Proxy IP(代理服務器IP)?
同樣,如果Scrapy網頁爬蟲都使用相同的IP發送請求,很容易會被反爬蟲網站發現而封鎖。這時候,就會需要隨機使用不同的Proxy IP(代理服務器IP),降低被偵測的風險。
可以利用以下指令安裝scrapy-rotating-proxies套件,來達成上述的效果:
$ pip install scrapy-rotating-proxies
開啟Scrapy網頁爬蟲傳案的settings.py檔案,加入以下的設定:
ROTATING_PROXY_LIST_PATH = '/path/my_proxies.txt'
DOWNLOADER_MIDDLEWARES = {
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
其中,在自訂的Proxy IP檔案(my_proxies.txt)中加入Proxy IP,如下範例:
ROTATING_PROXY_LIST = [
'proxy_ip_1:8000',
'proxy_ip_2:8031',
...
]
Q: Scrapy網頁爬蟲框架如何使用無頭瀏覽器(Headless Browser)?
無頭瀏覽器(Headless Browser)也就是沒有圖形化的使用者介面瀏覽器,能夠模擬使用者在網頁上的操作,降低反爬蟲網站的偵測。
其中,Selenium就是最常被用來啟用無頭瀏覽器(Headless Browser)的套件,而Scrapy結合Selenium套件的實作方式可以參考[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南文章( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html )。
當然,除了本文所分享的3個Scrapy網頁爬蟲克服反爬蟲網站的方法外,還可以參考[Python爬蟲教學]7個降低Python網頁爬蟲被偵測封鎖的實用方法文章( https://www.learncodewithmike.com/2020/09/7-tips-to-avoid-getting-blocked-while-scraping.html ),不外乎就是避免像Python網頁爬蟲機器人一樣有規則模式的爬取資料,才有機會不被反爬蟲網站抓到唷。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/12/3-tips-for-scrapy-without-getting-blocked.html
)網站觀看更多精彩內容。
看更多
2 0 1174 2

熱門精選

104學習

產品

01/31 12:02

轉職首選!3 週從零到上手的數據分析師養成營 —— 104人力銀行 × 104學習 × 緯育 TibaMe 聯合推出
想跨入高薪、有前景,又能左右商業決策的數據分析師職涯,但擔心自己沒有程式背景、時間不夠嗎?
這堂【數據分析師學習營】或許是你理想的起點。
✨ 首次跨界合作,更強大資源整合✨
這次由 104學習精靈 首度攜手 緯育 TibaMe 聯合打造。
⚡104人力銀行 × 104學習精靈:深耕職涯數據多年,最了解台灣企業用人需求,課程更貼近市場實際職缺。
⚡緯育 TibaMe:累積多年產業培訓經驗,專注於 IT、數據、AI 等熱門技能轉職養成,培訓模式完整,輔導成效有口碑。
這樣的合作,讓學員享有真實的培訓經驗,學習效果與轉職落地率都更具保障。
課程亮點一次看
🔥3 週密集實戰:短短三週密集訓練,快速掌握職場必備技能,不必耗費半年、一年時間啃課表。
🔥零基礎設計:無需工程背景,也不用寫程式,由淺入深帶你學會資料庫查詢(SQL)與數據視覺化工具 Power BI。
🔥實戰作品累績履歷實力:課程設計強調實務操作,結訓不僅懂工具,更手上有完成的作品,讓履歷直接升級。
🔥專屬平台與支援:透過共學社群與專業助教協助,學習不再孤單。
為什麼你該報名?
🟢快速起步,快速看成果:三週聚焦提速進展,是在職或時間有限者的最佳選擇。
🟢具備市場需求核心技能:SQL 與 Power BI,完全符合企業當前的數據分析需求。
🟢履歷實力落地具體化:實作作品比起只學理論更能打動雇主眼光。
🟢104 × 緯育 TibaMe 強強聯手:把資源與專業結合,讓學習不只停留在課程,而是直通「就業」與「轉職」。
【名額倒數中,不要錯過現正優惠】
看更多
1 0 3151 0
你可能感興趣的教室