104學習精靈

硬體測試工程師

Responsive image
不分產業
硬體測試工程師
檢視符合度
企業所需技能
全部關注
關注教室,同業交流提升競爭力
TOP 1
Assembly
TOP 2
Linux
TOP 3
CDMA
TOP 4
功能測試(function test)
TOP 5
ATE
TOP 6
C++
TOP 7
EMC
TOP 8
測試計劃及測試報告書撰寫
TOP 9
GSM
TOP 10
Python
職業關鍵職能
全部關注
關注教室,加強軟實力吧!
認真負責
分析思考
品質導向
溝通協調
顧客服務
主動積極

硬體測試工程師 學習推薦

不知如何開始學習嗎? 先進行技能挑戰吧~
我要挑戰
職涯診所

01/23 19:44

拍手 3 留言 9 觀看 83 收藏 0
職涯診所

01/23 15:20

拍手 7 留言 6 觀看 47 收藏 0
職涯診所

01/22 21:27

拍手 0 留言 3 觀看 51 收藏 0
職涯診所

01/22 20:08

拍手 4 留言 5 觀看 208 收藏 0
職涯診所

01/22 00:52

拍手 1 留言 5 觀看 226 收藏 0

Learn Code With Mike品牌創辦人

01/21 22:53

不可不知的Scrapy框架爬取下一層網頁資料實作
本文以INSIDE硬塞的網路趨勢觀察網站( https://www.inside.com.tw/ )首頁的熱門文章為例,來和大家分享如何在Scrapy框架中爬取下一層的網頁內容。
Q: Scrapy網頁爬蟲爬取下一層網頁內容
建立Scrapy網頁爬蟲檔案(hot_news.py),在parse()方法(Method)的地方,透過Scrapy框架的xpath()方法(Method),來爬取INSIDE硬塞的網路趨勢觀察網站的所有熱門文章下一層網頁網址,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
name = 'hot_news'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
post_urls = response.xpath(
"//a[@class='hero_menu_link']/@href").getall()
詳細的Scrapy xpath定位元素方法教學可以參考[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法文章( https://www.learncodewithmike.com/2021/01/scrapy-xpath-selectors.html )。取得了所有熱門文章的下一層網頁網址後,就可以透過迴圈來進行請求,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
name = 'hot_news'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
post_urls = response.xpath(
"//a[@class='hero_menu_link']/@href").getall()
for post_url in post_urls:
yield scrapy.Request(post_url, self.parse_content)
其中Request方法(Method)的第一個參數,就是「請求網址」,也就是熱門文章的下一層網頁網址,而第二個參數就是請求該網址後,所要執行的方法(Method),而parse_content()方法(Method)中,就是來爬取熱門文章的下一層網頁內容,以本文為例就是包含「文章標題」及「文章摘要」。
接著,就可以在parse_content()方法(Method)中,同樣使用Scrapy框架的xpath()方法(Method),來爬取「文章標題」及「文章摘要」,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
...
def parse_content(self, response):
# 熱門文章標題
hot_news_title = response.xpath(
"//h1[@class='post_header_title js-auto_break_title']/text()").get()
# 熱門文章摘要
hot_news_intro = response.xpath(
"//div[@class='post_introduction']/text()").get()
print(f"熱門文章標題:{hot_news_title},\n熱門文章摘要:{hot_news_intro}")
利用以下的指令執行Scrapy網頁爬蟲:
$ scrapy crawl hot_news
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-follow-links-and-collect-data.html
)網站觀看更多精彩內容。
拍手 2 留言 0 觀看 131 收藏 0
不知如何開始學習嗎? 先進行技能挑戰吧~
我要挑戰
一零四資訊科技股份有限公司 版權所有 © 2021 建議瀏覽器 Chrome / IE11.0 以上