104學習

XPath

AI 專區學習課程

證照測驗共學

XPath

關注

邀請朋友

Line

Facebook

複製連結

取消

.XPath：此角色主要負責設計與實施XPath查詢，以支持數據萃取及信息檢索，旨在提升商業數據的分析能力與決策效率。需具備扎實的XML及XSLT知識，熟悉數據庫操作及網頁爬蟲技術，並能夠跨部門合作，確保符合業務需求。具備良好的溝通技巧，以促進與IT及產品團隊之間的協調，因應台灣職場普遍重視團隊合作與效率的文化背景，強調靈活應變及問題解決能力，以應對快速變化的商業環境。

關於教室

關注人數 0 人

104人力銀行從職缺中挑選出常見技能所成立的官方教室，提供大家進行共學互動。

學習主持人

持續分享知識，
有機會成為官方教室主持人

教室標籤

XPath

Hi~ 歡迎分享學習資源，有學習問題可匿名向Giver發問！

我要分享

我要提問

XPath 學習推薦

全部

影片

文章

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

不可不知的Scrapy框架爬取下一層網頁資料實作

本文以INSIDE硬塞的網路趨勢觀察網站( https://www.inside.com.tw/ )首頁的熱門文章為例，來和大家分享如何在Scrapy框架中爬取下一層的網頁內容。

Q: Scrapy網頁爬蟲爬取下一層網頁內容

建立Scrapy網頁爬蟲檔案(hot_news.py)，在parse()方法(Method)的地方，透過Scrapy框架的xpath()方法(Method)，來爬取INSIDE硬塞的網路趨勢觀察網站的所有熱門文章下一層網頁網址，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

詳細的Scrapy xpath定位元素方法教學可以參考[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法文章( https://www.learncodewithmike.com/2021/01/scrapy-xpath-selectors.html )。取得了所有熱門文章的下一層網頁網址後，就可以透過迴圈來進行請求，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

for post_url in post_urls:

yield scrapy.Request(post_url, self.parse_content)

其中Request方法(Method)的第一個參數，就是「請求網址」，也就是熱門文章的下一層網頁網址，而第二個參數就是請求該網址後，所要執行的方法(Method)，而parse_content()方法(Method)中，就是來爬取熱門文章的下一層網頁內容，以本文為例就是包含「文章標題」及「文章摘要」。

接著，就可以在parse_content()方法(Method)中，同樣使用Scrapy框架的xpath()方法(Method)，來爬取「文章標題」及「文章摘要」，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

...

def parse_content(self, response):

# 熱門文章標題

hot_news_title = response.xpath(

"//h1[@class='post_header_title js-auto_break_title']/text()").get()

# 熱門文章摘要

hot_news_intro = response.xpath(

"//div[@class='post_introduction']/text()").get()

print(f"熱門文章標題：{hot_news_title}，\n熱門文章摘要：{hot_news_intro}")

利用以下的指令執行Scrapy網頁爬蟲：

$ scrapy crawl hot_news

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-follow-links-and-collect-data.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Scrapy教學10]不可不知的Scrapy框架爬取下一層網頁資料實作

2 0 639 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習

02/28 00:00

youtube.com

如何使用Python + Firefox + 網頁XPath取得Goodinfo股票資訊

8 0

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/15

掌握Scrapy框架重要的CSS定位元素方法(上)

想要開發Python網頁爬蟲的朋友，都會知道定位元素(Element)是一個非常重要的動作，Scrapy框架本身就有提供自己的定位元素(Element)方法(Method)，包含CSS與XPath兩種，本文就以INSIDE硬塞的網路趨勢觀察網站－AI新聞( https://www.inside.com.tw/tag/ai )為例，先來和大家分享在Scrapy框架中，如何利用CSS的定位元素(Element)方法(Method)，爬取想要的網頁內容。

Q: Scrapy如何利用CSS方法取得單一元素值?

CSS(Cascading Style Sheets)階層樣式表相信大家都不陌生，可以自訂樣式的類別來裝飾網頁，像是字體顏色、粗體等，所以在利用Scrapy框架開發網頁爬蟲時，也就能夠利用CSS樣式類別，來定位想要爬取的網頁元素(Element)。

前往INSIDE硬塞的網路趨勢觀察網站－AI新聞，在文章標題的地方，點擊滑鼠右鍵，選擇檢查，可以看到它的CSS樣式類別。假設想要在Scrapy框架中，利用CSS樣式類別來取得網頁的單一元素值，也就是單一文章的標題，就可以在spiders/inside.py的parse()方法(Method)中，使用css()方法(Method)來定位單一元素(Element)，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

title = response.css("a.js-auto_break_title::text").get()

print(title)

接著，利用以下的指令執行inside網頁爬蟲：

$ scrapy crawl inside

以上範例，response就是Scrapy框架請求後的回應結果，接著，呼叫css()方法，傳入所要定位的HTML標籤<a>，點的後面加上它的CSS樣式類別，由於要取得元素(Element)的文字，所以在加上「::text」關鍵字，最後，呼get()方法(Method)取得單一元素(Element)。

Q: Scrapy如何利用CSS方法取得多個元素值?

而在Scrapy框架中，想要爬取網頁多個元素值，則呼叫getall()方法(Method)即可，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

titles = response.css("a.js-auto_break_title::text").getall()

print(titles)

可以看到getall()方法(Method)回傳的是一個串列(List)，包含了所有樣式類別為「js-auto_break_title」的<a>標籤文字，接下來，利用迴圈即可取得其中的文章標題，如下範例：

import scrapy