104學習

Proxy

Proxy
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「Proxy:主要負責代表組織進行業務溝通與決策,確保團隊目標的實現與執行,以促進與客戶及合作夥伴之間的良好關係。需要具備卓越的跨部門協作能力及溝通技巧,以有效調解不同利益相關者的需求,並在快速變化的市場環境中適應與分析各類情境。此職位需了解台灣商業文化,尤其是在快速變動的科技及創新領域,能夠應對當地的商業規範及市場挑戰,提供高效的解決方案及建議。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

Proxy 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

掌握3個降低Scrapy網頁爬蟲被封鎖的技巧
Q: Scrapy網頁爬蟲框架如何輪流替換User-Agent(使用者代理)?
在Scrapy網頁爬蟲爬取網頁時,網站都會使用User-Agent(使用者代理)來識別所使用的瀏覽器版本資訊,而當Scrapy網頁爬蟲每次爬取都使用相同的User-Agent(使用者代理),就很容易被懷疑是網頁爬蟲而被封鎖。
所以,如果Scrapy網頁爬蟲在發送請求的過程中,隨機使用不同的User-Agent(使用者代理),就可以大幅降低被偵測的風險。
而要達到這樣的功能,就能夠利用以下指令來安裝scrapy-user-agents套件,讓Scrapy網頁爬蟲能夠隨機取用不同的User-Agent(使用者代理):
$ pip install scrapy-user-agents
接著,開啟Scrapy網頁爬蟲專案的settings.py檔案,在DOWNLOAD_MIDDLEWARES的地方,加入以下的設定:
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}
Q: Scrapy網頁爬蟲框架如何輪流替換Proxy IP(代理服務器IP)?
同樣,如果Scrapy網頁爬蟲都使用相同的IP發送請求,很容易會被反爬蟲網站發現而封鎖。這時候,就會需要隨機使用不同的Proxy IP(代理服務器IP),降低被偵測的風險。
可以利用以下指令安裝scrapy-rotating-proxies套件,來達成上述的效果:
$ pip install scrapy-rotating-proxies
開啟Scrapy網頁爬蟲傳案的settings.py檔案,加入以下的設定:
ROTATING_PROXY_LIST_PATH = '/path/my_proxies.txt'
DOWNLOADER_MIDDLEWARES = {
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
其中,在自訂的Proxy IP檔案(my_proxies.txt)中加入Proxy IP,如下範例:
ROTATING_PROXY_LIST = [
'proxy_ip_1:8000',
'proxy_ip_2:8031',
...
]
Q: Scrapy網頁爬蟲框架如何使用無頭瀏覽器(Headless Browser)?
無頭瀏覽器(Headless Browser)也就是沒有圖形化的使用者介面瀏覽器,能夠模擬使用者在網頁上的操作,降低反爬蟲網站的偵測。
其中,Selenium就是最常被用來啟用無頭瀏覽器(Headless Browser)的套件,而Scrapy結合Selenium套件的實作方式可以參考[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南文章( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html )。
當然,除了本文所分享的3個Scrapy網頁爬蟲克服反爬蟲網站的方法外,還可以參考[Python爬蟲教學]7個降低Python網頁爬蟲被偵測封鎖的實用方法文章( https://www.learncodewithmike.com/2020/09/7-tips-to-avoid-getting-blocked-while-scraping.html ),不外乎就是避免像Python網頁爬蟲機器人一樣有規則模式的爬取資料,才有機會不被反爬蟲網站抓到唷。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/12/3-tips-for-scrapy-without-getting-blocked.html
)網站觀看更多精彩內容。
看更多
2 0 1109 2
104學習

12/16 00:00

1 0
0 0

推薦給你

104學習

產品

09/30 13:26

2025.9月證照排行榜:AWS、AI認證引領職場新趨勢
104學習近一個月用戶數據顯示,AWS雲端認證、AI人工智慧證照成為求職轉職及提升職場競爭力熱門首選。從基礎級的雲端從業人員到進階的解決方案架構師,再到新興的Gemini認證與生成式AI課程,科技類證照需求大幅領先傳統會計、多益等證照,反映企業對數位人才的迫切需求。
❇️Top1 AWS 認證的雲端從業人員-基礎級認證
通過率約為70%,此級別對於初學者友好,專門為對雲端相對陌生,且可能沒有資訊科技 (IT) 背景的考生而設計,本考試旨在幫助銷售、行銷、產品或專案管理等業務線的角色取得對 AWS 雲端的基本了解。
❇️Top2 AWS 認證的人工智慧從業人員-基礎級認證
此認證專為 AI 領域初學者設計,適合行銷、產品管理、教育等非技術職位者。考試內容包括機器學習、生成式 AI、倫理與應用場景,通過率約 65%
❇️Top3 Gemini 認證教師證書
專為教育工作者設計,證明持有人具備Gemini相關教學能力及專業,推動數位學習與課程設計。
❇️Top4 AWS 認證的解決方案架構師-助理級認證
適合具備一年以上 AWS 使用經驗者,聚焦成本與效能最佳化設計。無需程式實作背景,是雲端架構職涯的重要跳板。
❇️Top5 生成式AI課程認證
目標是讓學習者掌握生成式AI的基礎概念、實際應用及工具操作能力。內容包括大型語言模型(LLM)、生成式AI如何提升工作效率,以及Google Cloud的相關技術應用。
❇️Top6 公共工程品質管理人員 ↗️面試邀約提升:約 3倍
凡參與公共工程,需擔任品管人員(如施工、監造、管理等工程從業人員),都必須參加由工程會或其委託訓練機構舉辦的公共工程品質管理訓練課程,並取得結業證書。
❇️Top7 丙級會計事務技術士 ↗️面試邀約提升:1.4倍
▶️【點我免費做模擬測驗】
中小企業與事務所普遍需求的財會基礎證照,內容包含帳務處理、報表編製與基本稅務實務。適合準備從事會計助理、出納、財務行政等工作的求職者。根據2023年(民國112年)勞動部資料,該證照通過率為52.6%。
❇️Top8 AWS認證的開發人員-助理級認證
適合具備一年以上程式開發經驗者,考核使用 AWS 服務進行應用程式開發與部署能力,是雲端工程師與後端開發者提升職場競爭力的重要認證。
❇️Top9 TOEIC (多益測驗)
▶️【點我免費做模擬測驗】https://nabi.104.com.tw/assess/toeic/
多益成績已成為企業判斷求職者英語能力的標準,特別是外商公司。建議考取750分以上,若能獲得金色證書(860分以上),更能在職場競爭中脫穎而出。尤其對有志於外商企業、跨國集團或海外派駐的人才而言,TOEIC成績更是履歷的重要加分項。
❇️Top10 丙級電腦軟體應用技術士
行政助理、文書處理等職位的重要加分證照,通過率近六成。報考資格:年滿15歲或國民中學畢業即可報考。
想查熱門證照、掌握報名資訊與考古題?立即造訪【104證照中心】https://nabi.104.com.tw/certify
看更多
0 0 1633 2
你可能感興趣的教室