104學習精靈

社群平台設計

社群平台設計
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

社群平台設計 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/10/14

開發Python網頁爬蟲前需要知道的五個基本觀念
Q: 什麼是網頁爬蟲?
網頁爬蟲可以把它想像成是一種網頁機器人,能夠依照特定的模式或規則,自動化擷取網頁原始碼,來進行解析取得資料,所以被大量的應用在網頁資料蒐集。
當然網頁爬蟲部一定只能使用Python來進行實作,其它像Java、C#及JavaScript等程式語言也可以,而因為Python語法簡潔及擁有許多成熟的套件與框架,所以筆者選擇Python來開發網頁爬蟲。
Q: 網路是如何運作方式呢?
Python網頁爬蟲事實上就是模擬使用者來瀏覽網頁,這時候就需要瞭解網路的基本架構,分為用戶端(Client)及伺服端(Server)。
其中,用戶端(Client)就是使用者瀏覽網頁的裝置(例:本機電腦),當使用者點擊網頁時,也就代表請求(Request)的動作,存取該網頁連結的伺服端(Server),而伺服端(Server)接收連結得知使用者所要看的網頁後,將內容回應(Response)給用戶端(Client)。
這樣的網路運作方式就跟點餐的流程非常相似,當我們進到一間餐廳看著菜單,就像到一個網站瀏覽其中的網頁,接著,到櫃檯向老闆點餐的動作就像是看到喜歡的網頁,請求(Request)伺服端(Server)想看的網頁,最後,等待老闆烹飪完成送到餐桌上,像是伺服端(Server)端處理完成回應(Response)給使用者。
Q: 網頁的基本結構是什麼?
網頁是由許多的標籤(Tag)與元素(Elements)組成,並且具有階層式的結構,所以Python網頁爬蟲就需要透過定位,來取得所需的元素(Elements)。
Q: 常見的Python網頁爬蟲套件及框架
常見的Python網頁爬蟲套件及框架包含BeautifulSoup、Selenium及Scrapy。
BeautifulSoup對於HTML及XML的解析非常友善,並且容易入門使用,適用於靜態類型的網頁及小型的Python網頁爬蟲專案。
Selenium同時擁有網頁自動化測試及爬取功能,能夠搭配 JavaScript來進行爬取,所以非常適用於爬取需要滾動捲軸來動態載入資料的網站,像是電子商務或社群平台等。
Scrapy相較於BeautifulSoup及Selenium爬取速度較快且有效率,擁有非同步的功能,所以適用於爬取大量的資料及大型網頁爬蟲專案。
Q: Python網頁爬蟲有沒有標準的開發流程?
開發Python網頁爬蟲的流程,首先,會需要知道想要蒐集什麼樣的資料來進行分析或應用,接著,就可以尋找相關的網站,來分析要爬取的網頁原始碼結構,並且觀察是否有規則或模式可循,然後,選擇程式語言及適當的套件,依照分析的網頁結構及規則開發網頁爬蟲,最後,將爬取的資料依需求寫入資料庫、CSV檔案或雲端等。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/10/python-web-scraping.html )網站觀看更多精彩內容。
2 0 987 1

熱門精選

104學習精靈

產品

10/30 16:13

雙11精選加碼課程,不要錯過喔!
雙11精選加碼課程,不要錯過喔 !
第一波 11/1 00:00 ~ 11/10 23:59
想要增加職場技能,要保握學習優惠喔!讓你學習更輕鬆!
【 領『 88折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🔵 ChatGPT x Excel | 職場必學商務數據分析術
🔵 從Excel到Power BI數據視覺化
🔵 .NET開發資料庫應用系統全方位-ADO.NET與Entity Framework(.NET Core)攻略
🔵 成為 AI 科學家|資料分析師必備視覺化技能 Power BI
🔵 C# .Net Framework系統基礎實作攻略
🔵 學程式也能很好玩:不背語法寫Java
🔵 快速活用 MySQL,精準設計關聯式資料庫
🔵 全端工程師必修-Python迅速開發網站實戰
🔵 第一次就上手,前端工程新手指南
🔵 成為前端工程師|透過 HTML 與 CSS 認識網頁設計,從 0 到 1 打造實用介面 (上集)
🔵 白帽駭客入門 I 基礎網頁滲透實作
【 領『 85折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🟠 一次搞懂 ChatGPT 工作法 | 5分鐘看懂,立即上手 AI 應用觀念!
🟠 商務簡報技巧
🟠 Python基礎課程:17小時學會寫程式
🟠 訴訟基本觀念十堂課:教你避免法律風險,掌握官司的主導權
🟠 多益全制霸:必考文法全攻略
🟠 英文簡報表達力 | 商務溝通實戰技巧
🟠 多益全制霸:必考字群獨家記憶法
🟠 Offer Get ! 現在開始找份好工作
🟠 如何談升職加薪
🟠 讀懂財報的基礎入門
🟠 產品思維-像產品經理一樣思考
🟠 認識孩子的九大氣質:讓親子關係更緊密的一堂課
【 領『 85折送2百LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
⚡ 畫出迷人風格 | iPad電繪Procreate插畫課
⚡ 新手的第一堂Procreate動畫課|療癒風格動起來
⚡ 【自我和解的8堂課】用金剛經破除生命誤會,找回快樂的自己
⚡ 居家水電自己來!水電爸爸的水電實務課
⚡ 【化輸入為輸出】九堂課教你輸出高品質內容
⚡ 手沖咖啡學|搞懂原理,成為咖啡職人
【更多課程優惠|查看留言處】
1 13 6429 2

推薦給你

知識貓星球

喵星人

19小時前

辦公用品英文合集:釘書機、長尾夾、便利貼、迴紋針等辦公文書用具的英文原來是這個!
常見辦公室文具用品的英文該怎麼說呢?一篇教你釘書機、長尾夾、便利貼、迴紋針的英文怎麼說,來學習各種工具的英文吧!
1. 書寫工具
• Ballpoint Pen - 原子筆
• Mechanical Pencil - 自動鉛筆
• Highlighter - 螢光筆
• Eraser - 橡皮擦
• Correction Tape - 修正帶
2. 夾子和裝訂文件工具
• Stapler - 釘書機
• Staples - 釘書針
• Paperclip - 迴紋針
• Binder Clip - 長尾夾
• Hole Punch - 打孔機
3. 黏貼工具
• Push Pin - 圖釘
• Tape Dispenser - 膠帶座
• Glue Stick - 口紅膠
• Rubber Bands - 橡皮筋
4. 量測工具
• Ruler - 尺
• Calculator - 計算機
5. 文件夾等辦公用品
• Folder - 資料夾
• Post-it Notes - 便利貼
• Clipboard - 寫字夾板
記得關注我們的共學教室,不要錯過任何文章喔!
0 1 443 1
你可能感興趣的教室