「XML」在職進修、線上學習、共學教室

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/10/14

開發Python網頁爬蟲前需要知道的五個基本觀念

Q: 什麼是網頁爬蟲?

網頁爬蟲可以把它想像成是一種網頁機器人，能夠依照特定的模式或規則，自動化擷取網頁原始碼，來進行解析取得資料，所以被大量的應用在網頁資料蒐集。

當然網頁爬蟲部一定只能使用Python來進行實作，其它像Java、C#及JavaScript等程式語言也可以，而因為Python語法簡潔及擁有許多成熟的套件與框架，所以筆者選擇Python來開發網頁爬蟲。

Q: 網路是如何運作方式呢?

Python網頁爬蟲事實上就是模擬使用者來瀏覽網頁，這時候就需要瞭解網路的基本架構，分為用戶端(Client)及伺服端(Server)。

其中，用戶端(Client)就是使用者瀏覽網頁的裝置(例：本機電腦)，當使用者點擊網頁時，也就代表請求(Request)的動作，存取該網頁連結的伺服端(Server)，而伺服端(Server)接收連結得知使用者所要看的網頁後，將內容回應(Response)給用戶端(Client)。

這樣的網路運作方式就跟點餐的流程非常相似，當我們進到一間餐廳看著菜單，就像到一個網站瀏覽其中的網頁，接著，到櫃檯向老闆點餐的動作就像是看到喜歡的網頁，請求(Request)伺服端(Server)想看的網頁，最後，等待老闆烹飪完成送到餐桌上，像是伺服端(Server)端處理完成回應(Response)給使用者。

Q: 網頁的基本結構是什麼?

網頁是由許多的標籤(Tag)與元素(Elements)組成，並且具有階層式的結構，所以Python網頁爬蟲就需要透過定位，來取得所需的元素(Elements)。

Q: 常見的Python網頁爬蟲套件及框架

常見的Python網頁爬蟲套件及框架包含BeautifulSoup、Selenium及Scrapy。

BeautifulSoup對於HTML及XML的解析非常友善，並且容易入門使用，適用於靜態類型的網頁及小型的Python網頁爬蟲專案。

Selenium同時擁有網頁自動化測試及爬取功能，能夠搭配 JavaScript來進行爬取，所以非常適用於爬取需要滾動捲軸來動態載入資料的網站，像是電子商務或社群平台等。

Scrapy相較於BeautifulSoup及Selenium爬取速度較快且有效率，擁有非同步的功能，所以適用於爬取大量的資料及大型網頁爬蟲專案。

Q: Python網頁爬蟲有沒有標準的開發流程?

開發Python網頁爬蟲的流程，首先，會需要知道想要蒐集什麼樣的資料來進行分析或應用，接著，就可以尋找相關的網站，來分析要爬取的網頁原始碼結構，並且觀察是否有規則或模式可循，然後，選擇程式語言及適當的套件，依照分析的網頁結構及規則開發網頁爬蟲，最後，將爬取的資料依需求寫入資料庫、CSV檔案或雲端等。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/10/python-web-scraping.html )網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Python爬蟲教學]開發Python網頁爬蟲前需要知道的五個基本觀念

2 0 1846 1

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/10/13

三大Python網頁爬蟲實作工具的比較

Q: Python有哪些常見的網頁爬蟲工具呢?

要實作Python網頁爬蟲，最受歡迎的三大工具莫過於BeautifulSoup、Selenium及Scrapy，其中各自的主要特色以及使用時機，接下來就來為大家進行簡單的分享與比較。

BeautifulSoup是一個擷取HTML/XML內容的套件，提供了非常多友善的方法(Method)，協助開發人員可以快速搜尋及取得HTML/XML中的元素，也因此被廣泛的應用在Python網頁爬蟲的技術上。

但是它並無法單獨完整實現Python網頁爬蟲的整個流程，像是發送請求與解析下載的HTML原始碼，所以需要requests及html.parser或lxml解析器等相依性模組來協助。

Selenium是一個網頁自動化測試的套件，擁有許多網頁操作的方法(Method)，像是自動化輸入資料、點擊按鈕及滾動捲軸等，同時具備網頁元素擷取與操作的功能，讓開發人員能夠輕鬆撰寫網頁的自動化測試腳本。

Scrapy本身就是一個網頁爬蟲框架，提供完整的網頁爬蟲開發功能，像是發送請求、檔案匯出、例外處理機制、偵錯(Debug)等，並且是基於Twisted非同步網路框架所建立的，所以能夠非同步的發送請求(Request)，有較佳的執行速度，學習曲線也較高。

另外，由於Scrapy是一個框架，所以有一定的專案架構及執行流程，除了未來很好維護外，也能夠輕鬆的移轉既有的專案到另一個專案。

Q: BeautifulSoup、Selenium及Scrapy各有什特色?

BeautifulSoup學習曲線較低，非常容易上手，並且適用於靜態網頁的爬取。

而Selenium能夠輕鬆與JavaScript的事件合作，可以處理網頁的AJAX請求及自動化操作網頁上的元素。

Scrapy執行速度較快，允許客製化功能來進行擴充，內建多種檔案格式輸出(JSON、XML、CSV)，支援XPath及CSS表達式來擷取資料，擁有完善的互動式偵錯工具(Scrapy Shell)。

Q: BeautifulSoup、Selenium及Scrapy的使用時機?

對於初學者想要學習入門Python網頁爬蟲，或是僅針對特定少數網頁進行爬取的小型專案，就可以選擇BeautifulSoup套件。

當所要爬取的網頁有使用JavaScript / AJAX等動態載入資料的技術，或是具有登入驗證、搜尋機制的網頁，就能夠利用Selenium套件的網頁操作方法(Method)，來開發Python網頁爬蟲。

Scrapy則適用於大型的Python網頁爬蟲專案，有一定的效率要求及需要處理複雜的爬取邏輯。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/11/beautifulsoup-vs-selenium-vs-scrapy-for-python-web-scraping.html )網站觀看更多精彩內容。

看更多

learncodewithmike.com

BeautifulSoup vs Selenium vs Scrapy三大Python網頁爬蟲實作工具的比較

4 0 2369 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精選課程

想提升職場競爭力？專業技能課程看起來👇

Power BI Desktop --從基礎到資料視覺化實戰

微軟Power BI Desktop是安裝在本機電腦的免付費商業分析工具，它容易上手也可產出較美觀的互動式圖表，並可從多種檔案類型(csv, xml等)匯入資料產出視覺化圖表。本課程除了教你從基礎到資料視覺化實戰應用，更給你大獨家，教你google表單直接連結產出視覺化圖表！

緯育TibaMe

Power BI Desktop --從基礎到資料視覺化實戰

微軟Power BI Desktop是安裝在本機電腦的免付費商業分析工具，它容易上手也可產出較美觀的互動式圖表，並可從多種檔案類型(csv, xml等)匯入資料產出視覺化圖表。本課程除了教你從基礎到資料視覺化實戰應用，更給你大獨家，教你google表單直接連結產出視覺化圖表！

緯育TibaMe

選書精靈

小編

2021/10/15

新手學 JavaＸAndroid 應用程式開發

書名：Java SE 11與Android 9.x程式設計範例教本

作者：陳會安

Android應用程式開發是目前當紅的軟體開發領域，對於不熟悉Java語言和Android Studio的讀者，本書提供完整Java程式語言與物件導向教學，直接使用筆者開發的輕量級fChart程式碼編輯器幫助讀者學習Java語言和物件導向程式設計後，才真正開始使用Android Studio整合開發環境進入Android應用程式開發，讓讀者從基礎Java語言開始來深入學習Android平台程式設計。本書不只可以作為大專院校的第一門程式語言課程教材(取代傳統Swing或AWT的Java語言)，更可以讓初學程式設計者輕鬆進入當紅的Android應用程式開發。

PART 1 Java 結構化程式設計

ch01 程式與程式邏輯的基礎

ch02 建立 Java 用程式

ch03 變數、資料型態與運算子

ch04 流程控制結構

ch05 類別方法

ch06 陣列與字串

PART 2 Java 物件導向程式設計

ch07 類別與物件

ch08 繼承、抽象類別與介面

ch09 巢狀類別、多型與套件

ch10 例外處理、執行緒、集合物件與 Lambda 運算式

PART 3 Android App 行動應用程式開發

ch11 Android 與 XML 的基礎

ch12 版面配置與使用介面元件

ch13 活動與事件處理

ch14 意圖與意圖篩選

ch15 動作列、對話方塊與清單介面

ch16 偏好設定、檔案與 SQLite 資料庫

ch17 內容提供者、廣播接收器與通知

cha18 繪圖、多媒體與定位服務

看更多

0 0 597 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習

XML

XML 學習推薦

104學習精選課程