「Framework」在職進修、線上學習、共學教室

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/15

掌握Scrapy框架重要的CSS定位元素方法(下)

Q: Scrapy如何利用CSS方法取得子元素值?

在實務上利用Scrapy框架開發Python網頁爬蟲時，並不是每次想要爬取的網頁元素(Element)都會有CSS樣式類別可以定位，這時候，就會需要透過上層的父元素往下定位子元素。

假設INSIDE硬塞的網路趨勢觀察網站－AI新聞( https://www.inside.com.tw/tag/ai )的文章標題<a>標籤沒有「js-auto_break_title」CSS樣式類別，而想要爬取<a>標籤的文字內容，該如何達成呢?

這時候，就會需要在Scrapy框架中利用CSS樣式類別先定位到<h3>標籤，接著，再取得其下的子元素<a>標籤，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

titles = response.css("h3.post_title a::text").getall()

for title in titles:

print(title)

在範例中，利用「post_title」CSS樣式類別定位到<h3>標籤後，接著一個空白，加上<a>標籤，意思就是取得<h3>標籤下的所有<a>標籤，由於要取得其中的文字，所以加上「::text」。

Q: Scrapy如何利用CSS方法取得元素屬性值?

此外，在開發Python網頁爬蟲時，也有機會爬取元素的屬性值(Attribute)，舉例來說，最常見的就是<a>標籤的href屬性值(Attribute)，也就是文章的連結網址，這時候只需要將「::text」關鍵字，修改為「::attr(屬性名稱)」即可，如下範例：

import scrapy

class InsideSpider(scrapy.Spider):

name = 'inside'

allowed_domains = ['www.inside.com.tw']

start_urls = ['https://www.inside.com.tw/tag/ai']

def parse(self, response):

urls = response.css("a.js-auto_break_title::attr(href)").getall()

for url in urls:

print(url)

本文與掌握Scrapy框架重要的CSS定位元素方法(上)搭配實際的網站，示範Scrapy框架利用css()方法(Method)來定位網頁元素的基本用法，重點摘要如下：

1.取得單一元素值呼叫get()方法(Method)

2.取得多個元素值呼叫getall()方法(Method)

3.取得文字內容，加上「::text」關鍵字

4.取得屬性值則加上「::attr(屬性名稱)」關鍵字

希望對於想要學習Scrapy框架的朋友有所幫助。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/01/scrapy-css-selectors.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學4]掌握Scrapy框架重要的CSS定位元素方法

2 0 358 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精靈精選課程

想提升職場競爭力？專業技能課程看起來👇

C# .Net Framework系統基礎實作攻略

本課程以直擊核心的教學方式，讓學員由淺入深，逐步進入Microsoft .NET 5.0 C#程式語言的設計精神，與透徹物件導向程式設計的概念與邏輯，結合到真實世界的思維(概念)，逐步完成Microsoft .NET Framework/.NET Core進階實務開發需要具備的基礎能力。

緯育TibaMe

線上真人｜JAVA Spring Boot 全端軟體工程師養成班

全程採線上授課，不受地域性的限制。採用小班制教學方式，側錄影片隨時複習。本班以Java程式設計為基礎，學習JAVA物件導向 SQL Server資料庫開發技術。扎實訓練JAVA Spring MVC網站開發與MVVM前端整合應用。JAVA Spring Boot API 微服務開發訓練，整合微軟 Azure 雲端服務設計。最後透過分組模擬業界專案開發流程，將所學實際應用於整合專題，完成求職專案作品。

X School

學習精靈

06/06 00:00

youtube.com

PHP 教學｜什麼是MVC, 我需要用框架 framework嗎？｜PHP經驗分享

79 1

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

在Scrapy框架整合Selenium套件爬取動態網頁的實作

本文以Accupass網站的精選活動為例，來分享Scrapy框架整合Selenium套件，開發Python網頁爬蟲的流程。

Q: 如何建立Scrapy網頁爬蟲?

首先，利用以下指令安裝Scrapy框架：

$ pip install scrapy

接著，新增一個資料夾，並且使用命令提示字元切換到該資料夾的目錄下，建立Scrapy專案，如下：

$ scrapy startproject accupass_scraper .

有了專案後，就能夠利用以下指令建立Scrapy網頁爬蟲：

$ scrapy genspider accupass accupass.com

Q:如何安裝scrapy-selenium套件?

而Scrapy框架想要使用Selenium套件來發送請求與接收回應，就需要一個Middleware來使用Selenium套件。

其中的Middleware，也就是在Scrapy發送請求前，以及將回應結果傳給Scrapy網頁爬蟲前，能夠在Middleware中來進行前處理。

所以，Scrapy框架想要使用Selenium套件來發送請求與接收回應結果，就需要定義Middleware，當然，已經有大大寫好了scrapy-selenium Middleware可以使用，安裝方式如下指令：

$ pip install scapy-selenium

接下來，前往下載Selenium的瀏覽器驅動，並且放置於Scrapy專案資料夾中。開啟settings.py檔案，加入scrapy-selenium Middleware的相關設定，如下範例：

DOWNLOADER_MIDDLEWARES = {

'scrapy_selenium.SeleniumMiddleware': 800

}

SELENIUM_DRIVER_NAME = 'chrome'

SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'

SELENIUM_DRIVER_ARGUMENTS = ['-headless']

Q:如何Scrapy整合Selenium爬取動態網頁?

開啟Scrapy專案的accupass.py檔案，引用scrapy-selenium的SeleniumRequest模組，如下範例：

import scrapy

from scrapy_selenium import SeleniumRequest

而想要讓Scrapy框架使用Selenium套件發送請求，就可以新增start_requests()方法，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

以上的callback參數就是收到網頁的回應結果之後，所要執行的方法，也就是爬取網頁上的資料，如下範例：

class AccupassSpider(scrapy.Spider):

name = 'accupass'

allowed_domains = ['accupass.com']

start_urls = ['http://accupass.com/']

def start_requests(self):

yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

def parse(self, response):

titles = response.css("p.style-f13be39c-event-name::text").getall()

for title in titles:

print(title)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html

)網站觀看更多精彩內容。

learncodewithmike.com

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

3 0 735 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

學習精靈

06/17 00:00

youtube.com

【Art】【3D立體畫】EP01-3D的立方體骨架 (Draw a 3D framework of cube)

7 0

分享到：

Line

Facebook

複製連結

取消

推薦給你

AI 趨勢報－科技愛好者的產地🤖

關注

知識貓星球

喵星人

12/12 13:49

Google發表：Gemini 2.0 全新AI模組介紹、四大亮點一次看

在ChatGPT傳出全球大當機災情的同一天，Google 發布了全新 AI 模型 Gemini 2.0。

不僅支援多模態物件，Gemini 2.0採用更精準、強大的代理式AI系統，幫助使用者主動提前思考並完善指令，打造更符合使用者需求的全方位AI人工智慧助理！

▍Gemini 2.0 亮點搶先看

※ 深度學習有效處理複雜問題：採用「深度研究」學習技術功能，大量運用高級推理和長上下文功能充當研究助理，探索複雜的主題並代表使用者編寫報告。

※ 多模態能力生成準確內容：除了文字生成外，Gemini 2.0 還能直接生成圖片和音訊，並且能有效處理口音問題轉化成更準確的訊息內容。

※ 實現代理式 AI 的多元運用：不只是AI助理，Gemini 2.0升級的代理式AI系統，能更主動的做出決策，為使用者提前思考，並在使用者的監督下執行任務。Gemini 2.0將以此為基石，使用在Project Astra助理工具與其他開發者工具中。

※ 活化並整合 Google 產品： Gemini 2.0 將逐步整合到 Google 的搜尋、地圖等產品中，為使用者帶來更智能、更個人化的體驗。

Gemini 2.0預計2025年1月正式推出，在此之前，使用者們可以透過Google AI Studio網站搶先體驗Gemini 2.0測試版的與眾不同。

➤ 立即試用：

https://aistudio.google.com/

➤ 歡迎在104學習精靈關注【AI趨勢報－科技愛好者的產地】獲得更多科技新知！

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message

blog.google

Introducing Gemini 2.0: our new AI model for the agentic era

0 0 4537 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精靈

Framework

Framework 學習推薦

推薦給你