「Framework」在職進修、線上學習、共學教室

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/15

掌握Scrapy框架重要的CSS定位元素方法(下)

Q: Scrapy如何利用CSS方法取得子元素值?

在實務上利用Scrapy框架開發Python網頁爬蟲時，並不是每次想要爬取的網頁元素(Element)都會有CSS樣式類別可以定位，這時候，就會需要透過上層的父元素往下定位子元素。

假設INSIDE硬塞的網路趨勢觀察網站－AI新聞( https://www.inside.com.tw/tag/ai )的文章標題<a>標籤沒有「js-auto_break_title」CSS樣式類別，而想要爬取<a>標籤的文字內容，該如何達成呢?

這時候，就會需要在Scrapy框架中利用CSS樣式類別先定位到<h3>標籤，接著，再取得其下的子元素<a>標籤，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

titles = response.css("h3.post_title a::text").getall()

for title in titles:

print(title)

在範例中，利用「post_title」CSS樣式類別定位到<h3>標籤後，接著一個空白，加上<a>標籤，意思就是取得<h3>標籤下的所有<a>標籤，由於要取得其中的文字，所以加上「::text」。

Q: Scrapy如何利用CSS方法取得元素屬性值?

此外，在開發Python網頁爬蟲時，也有機會爬取元素的屬性值(Attribute)，舉例來說，最常見的就是<a>標籤的href屬性值(Attribute)，也就是文章的連結網址，這時候只需要將「::text」關鍵字，修改為「::attr(屬性名稱)」即可，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

urls = response.css("a.js-auto_break_title::attr(href)").getall()

for url in urls:

print(url)

本文與掌握Scrapy框架重要的CSS定位元素方法(上)搭配實際的網站，示範Scrapy框架利用css()方法(Method)來定位網頁元素的基本用法，重點摘要如下：

1.取得單一元素值呼叫get()方法(Method)

2.取得多個元素值呼叫getall()方法(Method)

3.取得文字內容，加上「::text」關鍵字

4.取得屬性值則加上「::attr(屬性名稱)」關鍵字

希望對於想要學習Scrapy框架的朋友有所幫助。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/01/scrapy-css-selectors.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學4]掌握Scrapy框架重要的CSS定位元素方法

2 0 323 1

拍手

留言

分享到：

Line

Facebook

複製連結

取消

熱門精選

行銷新手村，一起變高手 ⚡

關注

躺躺貓仔

行銷a貓

04/24 10:15

行銷思維大升級！AI浪潮下的新媒體：翻轉品牌、應用社群大數據

🚀 讓我們帶你，探索數位行銷的新境界 🚀

第1場：聚焦於AI大數據的威力，揭示真實聲音的秘密

第2場：則以《500輯》為例，展現傳統媒體品牌的翻轉之路

從大數據的洞察到新媒體的創新，開啟媒體產業的全新時代！

名額有限，熱烈報名中

https://senior.104.com.tw/c/661e2e354bb0c60610fde1d8?utm_source=104nabi&utm_medium=post

senior.104.com.tw

AI浪潮下的新媒體：內容媒體思維 & 社群數據運用|台北市-學習課程|104高年級

2 1 3236 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精靈精選課程

想提升職場競爭力？專業技能課程看起來👇

C# .Net Framework系統基礎實作攻略

本課程以直擊核心的教學方式，讓學員由淺入深，逐步進入Microsoft .NET 5.0 C#程式語言的設計精神，與透徹物件導向程式設計的概念與邏輯，結合到真實世界的思維(概念)，逐步完成Microsoft .NET Framework/.NET Core進階實務開發需要具備的基礎能力。

緯育TibaMe

線上真人｜JAVA Spring Boot 全端軟體工程師養成班

全程採線上授課，不受地域性的限制。採用小班制教學方式，側錄影片隨時複習。本班以Java程式設計為基礎，學習JAVA物件導向 SQL Server資料庫開發技術。扎實訓練JAVA Spring MVC網站開發與MVVM前端整合應用。JAVA Spring Boot API 微服務開發訓練，整合微軟 Azure 雲端服務設計。最後透過分組模擬業界專案開發流程，將所學實際應用於整合專題，完成求職專案作品。

X School

C# .Net Framework系統基礎實作攻略

本課程以直擊核心的教學方式，讓學員由淺入深，逐步進入Microsoft .NET 5.0 C#程式語言的設計精神，與透徹物件導向程式設計的概念與邏輯，結合到真實世界的思維(概念)，逐步完成Microsoft .NET Framework/.NET Core進階實務開發需要具備的基礎能力。

緯育TibaMe

線上真人｜JAVA Spring Boot 全端軟體工程師養成班

全程採線上授課，不受地域性的限制。採用小班制教學方式，側錄影片隨時複習。本班以Java程式設計為基礎，學習JAVA物件導向 SQL Server資料庫開發技術。扎實訓練JAVA Spring MVC網站開發與MVVM前端整合應用。JAVA Spring Boot API 微服務開發訓練，整合微軟 Azure 雲端服務設計。最後透過分組模擬業界專案開發流程，將所學實際應用於整合專題，完成求職專案作品。

X School

學習精靈

06/06 00:00

youtube.com

PHP 教學｜什麼是MVC, 我需要用框架 framework嗎？｜PHP經驗分享

79 1

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

在Scrapy框架整合Selenium套件爬取動態網頁的實作

本文以Accupass網站的精選活動為例，來分享Scrapy框架整合Selenium套件，開發Python網頁爬蟲的流程。

Q: 如何建立Scrapy網頁爬蟲?

首先，利用以下指令安裝Scrapy框架：

$ pip install scrapy

接著，新增一個資料夾，並且使用命令提示字元切換到該資料夾的目錄下，建立Scrapy專案，如下：

$ scrapy startproject accupass_scraper .

有了專案後，就能夠利用以下指令建立Scrapy網頁爬蟲：

$ scrapy genspider accupass accupass.com

Q:如何安裝scrapy-selenium套件?

而Scrapy框架想要使用Selenium套件來發送請求與接收回應，就需要一個Middleware來使用Selenium套件。

其中的Middleware，也就是在Scrapy發送請求前，以及將回應結果傳給Scrapy網頁爬蟲前，能夠在Middleware中來進行前處理。

所以，Scrapy框架想要使用Selenium套件來發送請求與接收回應結果，就需要定義Middleware，當然，已經有大大寫好了scrapy-selenium Middleware可以使用，安裝方式如下指令：

$ pip install scapy-selenium

接下來，前往下載Selenium的瀏覽器驅動，並且放置於Scrapy專案資料夾中。開啟settings.py檔案，加入scrapy-selenium Middleware的相關設定，如下範例：

DOWNLOADER_MIDDLEWARES = {

'scrapy_selenium.SeleniumMiddleware': 800

}

SELENIUM_DRIVER_NAME = 'chrome'

SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'

SELENIUM_DRIVER_ARGUMENTS = ['-headless']

Q:如何Scrapy整合Selenium爬取動態網頁?

開啟Scrapy專案的accupass.py檔案，引用scrapy-selenium的SeleniumRequest模組，如下範例：

import scrapy

from scrapy_selenium import SeleniumRequest

而想要讓Scrapy框架使用Selenium套件發送請求，就可以新增start_requests()方法，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

以上的callback參數就是收到網頁的回應結果之後，所要執行的方法，也就是爬取網頁上的資料，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

def parse(self, response):

titles = response.css("p.style-f13be39c-event-name::text").getall()

for title in titles:

print(title)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

3 0 230 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

學習精靈

06/17 00:00

youtube.com

【Art】【3D立體畫】EP01-3D的立方體骨架 (Draw a 3D framework of cube)

7 0

分享到：

Line

Facebook

複製連結

取消

104學習精靈

Framework

Framework 學習推薦

熱門精選

推薦給你