Mike的Python學院

Python網路爬蟲、Framework、程式語言、Python爬蟲、Python、Terminal server、Visual Studio、Scrapy、資料擷取、框架設計、資料清理、網頁爬蟲、資料搜集、軟體程式設計

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/29

實用的Scrapy框架安裝指南,開始你的第一個專案

繼[Scrapy教學1]快速入門Scrapy框架的5個執行模組及架構( https://www.learncodewithmike.com/2020/12/python-scrapy-architecture.html )文章,瞭解Scrapy框架的5個主要模組相互之間的關係與執行流程後,本文將帶大家在Windows環境中,安裝Scrapy框架,並且提示可能會遇到的錯誤該如何解決,最後,建立屬於您的第一個Scrapy專案,來一窺其中的檔案結構。
Q:如何安裝Scrapy框架?
首先,Scrapy框架的安裝方式,就像安裝Python的套件(Package)一樣,透過以下的指令即可進行安裝:
$ pip install scrapy
而要確認Scrapy框架是否有安裝成功,可以先在命令提示字元視窗中輸入scrapy指令,其中有一個「bench」指令,用來快速執行Scrapy框架的基準測試,如下:
$ scrapy bench
執行後如果沒有顯示錯誤訊息,代表安裝成功。
Q:如何建立Scrapy專案?
Scrapy框架安裝完成後,接下來,就可以建立Scrapy專案來開發網頁爬蟲。本文以新聞網頁爬蟲專案為例,在桌面先建立一個「news_scraper」資料夾,接著,開啟Visual Studio Code,打開「news_scraper」資料夾,在Terminal視窗中即可利用以下的指令來建立Scrapy專案:
$ scrapy startproject 你的專案名稱 .
以上指令的「.」意思是在目前的目錄下,建立Scrapy專案。而執行結果則是告訴我們專案建立成功,並且引導如何開發第一個Python網頁爬蟲。
Q:Scrapy專案結構是什麼?
這時候,可以在「news_scraper」資料夾中看到Scrapy專案的檔案結構:
1. spiders資料夾:用來存放Python網頁爬蟲程式碼的地方。
2. items.py:定義想要爬取或儲存的資料欄位。
3. middlewares.py:定義「spiders與引擎(ENGINE)中間件」及「引擎(ENGINE)與下載器(DOWNLOADER)中間件」。
4. pipelines.py:定義items資料的後續處理,像是清理、儲存至資料庫或檔案等。
5. settings.py:Scrapy專案設定檔。
6. scrapy.cfg:Scrapy專案部署設定檔。
經過本文的說明,相信大家都能夠將Scrapy框架安裝起來,另外,透過建立Scrapy專案的方式,來瞭解其中各個檔案所負責的工作,將有助於未來在開發的過程中,能夠得心應手,希望對於想學習Scrapy框架的讀者有所幫助。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/12/scrapy-installation.html )網站觀看更多精彩內容。
3 0 437 2