104學習

JSON

JSON
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
```JSON { "角色描述": { "主要責任": "負責設計並開發高效的數據互動介面,確保系統間數據交流的穩定性和準確性,推動數據驅動的業務決策,並進行性能優化以創造最佳使用者體驗。", "目標": "提升數據解析效率與系統整合能力,支持公司在市場競爭中的數據優勢。", "技能要求": "精通JSON數據格式,熟悉API設計與開發,具有良好的跨部門協作能力與溝通技巧,能夠解釋技術細節給非技術人員,具備問題解決能力以及良好的時間管理技巧。", "職場挑戰": "在台灣多元文化的職場環境中,需要對不同部門及技術團隊之間的需求進行有效調整,適應快速變化的科技趨勢並保持敏捷開發的思維。" } } ```
關於教室
關注人數 8 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 8 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

JSON 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/29

快速入門Scrapy框架的5個執行模組及架構
一般想要自動化蒐集網頁上的資料時,普遍都會使用像BeautifulSoup或Selenium套件開發Python網頁爬蟲來取得,但是,如果所要爬取的資料量較大,擁有複雜的邏輯處理及效率的要求,這時候就會建議使用Scrapy框架,來幫助開發人員建立一個維護性較好的Python網頁爬蟲。
而要使用Scrapy框架來開發大型的Python網頁爬蟲專案前,本文就先來帶大家瞭解一下Scrapy框架。
Q:Scrapy框架是什麼?
Srapy是一個網頁爬蟲「框架」,擁有完整的Python網頁爬蟲開發功能,也提供開發人員能夠進行客製化,並且,有一定的專案架構及執行流程,所以在未來的維護上較為容易。
另外,Scrapy框架是基於Twisted非同步網路框架所建立的,執行效率也非常的好,適用於大型的Python網頁爬蟲專案。而Scrapy框架與常應用於網頁爬蟲的BeautifulSoup及Selenium套件比較,可以參考BeautifulSoup vs Selenium vs Scrapy三大Python網頁爬蟲實作工具的比較( https://www.learncodewithmike.com/2020/11/beautifulsoup-vs-selenium-vs-scrapy-for-python-web-scraping.html )文章。
Q:Scrapy框架模組包含哪些?
Scrapy框架是由以下5個主要模組結合而成,各自有負責的職責,來達成有效率的非同步Python網頁爬蟲,其中每個模組的功能說明如下:
1.SPIDERS(爬蟲程式):撰寫Python網頁爬蟲程式碼的地方,向ENGINE(引擎)發送網頁請求,以及將ENGINE(引擎)所接收的回應結果進行解析與爬取。
2.ENGINE(引擎):Scrapy框架的核心模組,就像汽車的引擎一樣,負責控制各個模組、傳遞請求及資料。
3.SCHEDULER(調度器):將ENGINE(引擎)所接收的SPIDERS(爬蟲程式)請求進行列隊,也就是排隊的意思,來調度請求的順序。
4.DOWNLOADER(下載器):負責下載ENGINE(引擎)接收到SCHEDULER(調度器)調度請求的網頁HTML原始碼,提供回應結果給ENGINE(引擎)。
5.ITEM PIPELINE(資料模型管道):將SPIDERS(爬蟲程式)所取得的資料進行後續處理,像是資料清理、存入資料庫(例:MySQL)或存入檔案文件(例:CSV、JSON)等。
Q:Scrapy框架執行流程是如何運作的?
對Scrapy框架的5個主要模組有一個基本的認識後,各個模組間的關係及執行流程又是什麼呢?
1.ENGINE(引擎)接收SPIDERS(爬蟲程式)所發送的一至多個請求。
2.ENGINE(引擎)將請求傳遞給SCHEDULER(調度器)進行列隊。
3.ENGINE(引擎)向SCHEDULER(調度器)提取下一個所要發送的請求。
4.ENGINE(引擎)將請求傳遞給DOWNLOADER(下載器)。
5.DOWNLOADER(下載器)將ENGINE(引擎)傳遞的請求網頁HTML原始碼下載下來,並且回應結果給ENGINE(引擎)。
6.ENGINE(引擎)將回應的結果傳遞給SPIDERS(爬蟲程式)。
7.SPIDERS(爬蟲程式)進行結果的解析及資料的爬取,組成ITEMS,傳遞給ENGINE(引擎)或發送新的請求。
8.ENGINE(引擎)判斷SPIDERS(爬蟲程式)所傳遞過來的如果是ITEMS(資料),就會傳遞給ITEM PIPELINES(資料模型管道),進行後續的資料清理及儲存等。反之,如果傳遞過來的是新的請求,也就是相當於第一個步驟,接著,傳遞給SCHEDULER(調度器),以此類推,重覆這樣的流程,直到SCHEDULER(調度器)沒有請求為止。
本文簡單介紹了Scrapy是一個功能完整與快速的Python網頁爬蟲框架,包含5個主要模組,各司其職,藉由ENGINE(引擎)來進行整合,並且依照一定的執行流程,來達成非同步的網頁資料爬取,適用於大型且複雜的Python網頁爬蟲專案,希望接下來的系列教學內容能夠幫助大家對Scrapy框架有一個基本的認識。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/12/python-scrapy-architecture.html )網站觀看更多精彩內容。
看更多
2 0 835 2

104學習精選課程

看更多課程
想提升職場競爭力?專業技能課程看起來👇
104學習

04/02 00:00

156 3
104學習

04/05 00:00

375 2

推薦給你

緯育TibaMe

11/25 19:04

【限時最高抽整筆免單】即刻佈局 2026 你需要的職能力,全站 88 折開跑中
🤔 職涯盤點年年做,為何行動力總歸零?
​如果你也曾有這樣的感覺:
🔸 盤點結果總流於表面,無法連結到實際的晉升或轉型目標?
🔸 被 AI 焦慮追著跑,卻不知道怎麼將它變成個人工作槓桿?
🔸 投入大量時間學習,卻鎖定不到職涯中「高價值回報點」?
這次不僅讓你掌握不同盤點法的核心重點與使用時機,
再結合專業師資帶你導入過往經驗找到專屬「實踐→轉化」心法!
✅ 個人化「能力變現」技巧
✅ ASK+E 經驗法則策略佈局法
✅ 建構你的【終身 AI 職涯顧問】Prompt 技巧
限時預約專人從「ASK+E模型分析到建置 AI 顧問」線上教學只要 799 元
📣 新註冊會員即贈送 200 元學習金
📣 活動加碼11~19~12/18 全站 88 折優惠再抽免單
領取 88 折>> https://tibame.tw/Bx6QL
看更多
0 0 600 0
你可能感興趣的教室