Q:如何安裝Scrapy框架?
首先,Scrapy框架的安裝方式,就像安裝Python的套件(Package)一樣,透過以下的指令即可進行安裝:
$ pip install scrapy
而要確認Scrapy框架是否有安裝成功,可以先在命令提示字元視窗中輸入scrapy指令,其中有一個「bench」指令,用來快速執行Scrapy框架的基準測試,如下:
$ scrapy bench
執行後如果沒有顯示錯誤訊息,代表安裝成功。
Q:如何建立Scrapy專案?
Scrapy框架安裝完成後,接下來,就可以建立Scrapy專案來開發網頁爬蟲。本文以新聞網頁爬蟲專案為例,在桌面先建立一個「news_scraper」資料夾,接著,開啟Visual Studio Code,打開「news_scraper」資料夾,在Terminal視窗中即可利用以下的指令來建立Scrapy專案:
$ scrapy startproject 你的專案名稱 .
以上指令的「.」意思是在目前的目錄下,建立Scrapy專案。而執行結果則是告訴我們專案建立成功,並且引導如何開發第一個Python網頁爬蟲。
Q:Scrapy專案結構是什麼?
這時候,可以在「news_scraper」資料夾中看到Scrapy專案的檔案結構:
1. spiders資料夾:用來存放Python網頁爬蟲程式碼的地方。
2. items.py:定義想要爬取或儲存的資料欄位。
3. middlewares.py:定義「spiders與引擎(ENGINE)中間件」及「引擎(ENGINE)與下載器(DOWNLOADER)中間件」。
4. pipelines.py:定義items資料的後續處理,像是清理、儲存至資料庫或檔案等。
5. settings.py:Scrapy專案設定檔。
6. scrapy.cfg:Scrapy專案部署設定檔。
經過本文的說明,相信大家都能夠將Scrapy框架安裝起來,另外,透過建立Scrapy專案的方式,來瞭解其中各個檔案所負責的工作,將有助於未來在開發的過程中,能夠得心應手,希望對於想學習Scrapy框架的讀者有所幫助。