104學習精靈

前端框架開發

前端框架開發
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

前端框架開發 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/15

掌握Scrapy框架重要的CSS定位元素方法(下)
Q: Scrapy如何利用CSS方法取得子元素值?
在實務上利用Scrapy框架開發Python網頁爬蟲時,並不是每次想要爬取的網頁元素(Element)都會有CSS樣式類別可以定位,這時候,就會需要透過上層的父元素往下定位子元素。
假設INSIDE硬塞的網路趨勢觀察網站-AI新聞( https://www.inside.com.tw/tag/ai )的文章標題<a>標籤沒有「js-auto_break_title」CSS樣式類別,而想要爬取<a>標籤的文字內容,該如何達成呢?
這時候,就會需要在Scrapy框架中利用CSS樣式類別先定位到<h3>標籤,接著,再取得其下的子元素<a>標籤,如下範例:
import scrapy
class InsideSpider(scrapy.Spider):
name = 'inside'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
titles = response.css("h3.post_title a::text").getall()
for title in titles:
print(title)
在範例中,利用「post_title」CSS樣式類別定位到<h3>標籤後,接著一個空白,加上<a>標籤,意思就是取得<h3>標籤下的所有<a>標籤,由於要取得其中的文字,所以加上「::text」。
Q: Scrapy如何利用CSS方法取得元素屬性值?
此外,在開發Python網頁爬蟲時,也有機會爬取元素的屬性值(Attribute),舉例來說,最常見的就是<a>標籤的href屬性值(Attribute),也就是文章的連結網址,這時候只需要將「::text」關鍵字,修改為「::attr(屬性名稱)」即可,如下範例:
import scrapy
class InsideSpider(scrapy.Spider):
name = 'inside'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
urls = response.css("a.js-auto_break_title::attr(href)").getall()
for url in urls:
print(url)
本文與掌握Scrapy框架重要的CSS定位元素方法(上)搭配實際的網站,示範Scrapy框架利用css()方法(Method)來定位網頁元素的基本用法,重點摘要如下:
1.取得單一元素值呼叫get()方法(Method)
2.取得多個元素值呼叫getall()方法(Method)
3.取得文字內容,加上「::text」關鍵字
4.取得屬性值則加上「::attr(屬性名稱)」關鍵字
希望對於想要學習Scrapy框架的朋友有所幫助。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/01/scrapy-css-selectors.html
)網站觀看更多精彩內容。
2 0 354 0

熱門精選

104學習精靈

產品

10/30 16:13

雙11精選加碼課程,不要錯過喔!
雙11精選加碼課程,不要錯過喔 !
第一波 11/1 00:00 ~ 11/10 23:59
想要增加職場技能,要保握學習優惠喔!讓你學習更輕鬆!
【 領『 88折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🔵 ChatGPT x Excel | 職場必學商務數據分析術
🔵 從Excel到Power BI數據視覺化
🔵 .NET開發資料庫應用系統全方位-ADO.NET與Entity Framework(.NET Core)攻略
🔵 成為 AI 科學家|資料分析師必備視覺化技能 Power BI
🔵 C# .Net Framework系統基礎實作攻略
🔵 學程式也能很好玩:不背語法寫Java
🔵 快速活用 MySQL,精準設計關聯式資料庫
🔵 全端工程師必修-Python迅速開發網站實戰
🔵 第一次就上手,前端工程新手指南
🔵 成為前端工程師|透過 HTML 與 CSS 認識網頁設計,從 0 到 1 打造實用介面 (上集)
🔵 白帽駭客入門 I 基礎網頁滲透實作
【 領『 85折送百元LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
🟠 一次搞懂 ChatGPT 工作法 | 5分鐘看懂,立即上手 AI 應用觀念!
🟠 商務簡報技巧
🟠 Python基礎課程:17小時學會寫程式
🟠 訴訟基本觀念十堂課:教你避免法律風險,掌握官司的主導權
🟠 多益全制霸:必考文法全攻略
🟠 英文簡報表達力 | 商務溝通實戰技巧
🟠 多益全制霸:必考字群獨家記憶法
🟠 Offer Get ! 現在開始找份好工作
🟠 如何談升職加薪
🟠 讀懂財報的基礎入門
🟠 產品思維-像產品經理一樣思考
🟠 認識孩子的九大氣質:讓親子關係更緊密的一堂課
【 領『 85折送2百LINE點數 』優惠券_結帳記得使用優惠券 】
優惠時間:2024/11/1-2014/11/10
⚡ 畫出迷人風格 | iPad電繪Procreate插畫課
⚡ 新手的第一堂Procreate動畫課|療癒風格動起來
⚡ 【自我和解的8堂課】用金剛經破除生命誤會,找回快樂的自己
⚡ 居家水電自己來!水電爸爸的水電實務課
⚡ 【化輸入為輸出】九堂課教你輸出高品質內容
⚡ 手沖咖啡學|搞懂原理,成為咖啡職人
【更多課程優惠|查看留言處】
1 13 6499 2
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/15

掌握Scrapy框架重要的CSS定位元素方法(上)
想要開發Python網頁爬蟲的朋友,都會知道定位元素(Element)是一個非常重要的動作,Scrapy框架本身就有提供自己的定位元素(Element)方法(Method),包含CSS與XPath兩種,本文就以INSIDE硬塞的網路趨勢觀察網站-AI新聞( https://www.inside.com.tw/tag/ai )為例,先來和大家分享在Scrapy框架中,如何利用CSS的定位元素(Element)方法(Method),爬取想要的網頁內容。
Q: Scrapy如何利用CSS方法取得單一元素值?
CSS(Cascading Style Sheets)階層樣式表相信大家都不陌生,可以自訂樣式的類別來裝飾網頁,像是字體顏色、粗體等,所以在利用Scrapy框架開發網頁爬蟲時,也就能夠利用CSS樣式類別,來定位想要爬取的網頁元素(Element)。
前往INSIDE硬塞的網路趨勢觀察網站-AI新聞,在文章標題的地方,點擊滑鼠右鍵,選擇檢查,可以看到它的CSS樣式類別。假設想要在Scrapy框架中,利用CSS樣式類別來取得網頁的單一元素值,也就是單一文章的標題,就可以在spiders/inside.py的parse()方法(Method)中,使用css()方法(Method)來定位單一元素(Element),如下範例:
import scrapy
class InsideSpider(scrapy.Spider):
name = 'inside'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
title = response.css("a.js-auto_break_title::text").get()
print(title)
接著,利用以下的指令執行inside網頁爬蟲:
$ scrapy crawl inside
以上範例,response就是Scrapy框架請求後的回應結果,接著,呼叫css()方法,傳入所要定位的HTML標籤<a>,點的後面加上它的CSS樣式類別,由於要取得元素(Element)的文字,所以在加上「::text」關鍵字,最後,呼get()方法(Method)取得單一元素(Element)。
Q: Scrapy如何利用CSS方法取得多個元素值?
而在Scrapy框架中,想要爬取網頁多個元素值,則呼叫getall()方法(Method)即可,如下範例:
import scrapy
class InsideSpider(scrapy.Spider):
name = 'inside'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
titles = response.css("a.js-auto_break_title::text").getall()
print(titles)
可以看到getall()方法(Method)回傳的是一個串列(List),包含了所有樣式類別為「js-auto_break_title」的<a>標籤文字,接下來,利用迴圈即可取得其中的文章標題,如下範例:
import scrapy
class InsideSpider(scrapy.Spider):
name = 'inside'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
titles = response.css("a.js-auto_break_title::text").getall()
for title in titles:
print(title)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/01/scrapy-css-selectors.html
)網站觀看更多精彩內容。
2 0 179 0

推薦給你

知識貓星球

喵星人

21小時前

辦公用品英文合集:釘書機、長尾夾、便利貼、迴紋針等辦公文書用具的英文原來是這個!
常見辦公室文具用品的英文該怎麼說呢?一篇教你釘書機、長尾夾、便利貼、迴紋針的英文怎麼說,來學習各種工具的英文吧!
1. 書寫工具
• Ballpoint Pen - 原子筆
• Mechanical Pencil - 自動鉛筆
• Highlighter - 螢光筆
• Eraser - 橡皮擦
• Correction Tape - 修正帶
2. 夾子和裝訂文件工具
• Stapler - 釘書機
• Staples - 釘書針
• Paperclip - 迴紋針
• Binder Clip - 長尾夾
• Hole Punch - 打孔機
3. 黏貼工具
• Push Pin - 圖釘
• Tape Dispenser - 膠帶座
• Glue Stick - 口紅膠
• Rubber Bands - 橡皮筋
4. 量測工具
• Ruler - 尺
• Calculator - 計算機
5. 文件夾等辦公用品
• Folder - 資料夾
• Post-it Notes - 便利貼
• Clipboard - 寫字夾板
記得關注我們的共學教室,不要錯過任何文章喔!
0 1 470 1
你可能感興趣的教室