104學習

框架設計

AI 專區學習課程

證照測驗共學新知

框架設計

關注

邀請朋友

Line

Facebook

複製連結

取消

指的是在執行專案或解決問題時，先建立一套明確的結構和流程，幫助釐清目標、分工和步驟，避免做事零散或重複。透過系統化的思考，提升效率與品質，也方便溝通協調，確保團隊朝同一方向前進。這項技能能讓工作更有條理，減少錯誤，並加速決策過程，是提升專業表現和管理能力的重要基礎。

關於教室

關注人數 1 人

104人力銀行從職缺中挑選出常見技能所成立的官方教室，提供大家進行共學互動。

學習主持人

持續分享知識，
有機會成為官方教室主持人

教室標籤

框架設計

Hi~ 歡迎分享學習資源，有學習問題可匿名向Giver發問！

我要分享

我要提問

框架設計學習推薦

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

不可不知的Scrapy框架爬取下一層網頁資料實作

本文以INSIDE硬塞的網路趨勢觀察網站( https://www.inside.com.tw/ )首頁的熱門文章為例，來和大家分享如何在Scrapy框架中爬取下一層的網頁內容。

Q: Scrapy網頁爬蟲爬取下一層網頁內容

建立Scrapy網頁爬蟲檔案(hot_news.py)，在parse()方法(Method)的地方，透過Scrapy框架的xpath()方法(Method)，來爬取INSIDE硬塞的網路趨勢觀察網站的所有熱門文章下一層網頁網址，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

詳細的Scrapy xpath定位元素方法教學可以參考[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法文章( https://www.learncodewithmike.com/2021/01/scrapy-xpath-selectors.html )。取得了所有熱門文章的下一層網頁網址後，就可以透過迴圈來進行請求，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

name = 'hot_news'

allowed_domains = ['www.inside.com.tw']

start_urls = ['http://www.inside.com.tw/']

def parse(self, response):

post_urls = response.xpath(

"//a[@class='hero_menu_link']/@href").getall()

for post_url in post_urls:

yield scrapy.Request(post_url, self.parse_content)

其中Request方法(Method)的第一個參數，就是「請求網址」，也就是熱門文章的下一層網頁網址，而第二個參數就是請求該網址後，所要執行的方法(Method)，而parse_content()方法(Method)中，就是來爬取熱門文章的下一層網頁內容，以本文為例就是包含「文章標題」及「文章摘要」。

接著，就可以在parse_content()方法(Method)中，同樣使用Scrapy框架的xpath()方法(Method)，來爬取「文章標題」及「文章摘要」，如下範例：

import scrapy

class HotNewsSpider(scrapy.Spider):

...

def parse_content(self, response):

# 熱門文章標題

hot_news_title = response.xpath(

"//h1[@class='post_header_title js-auto_break_title']/text()").get()

# 熱門文章摘要

hot_news_intro = response.xpath(

"//div[@class='post_introduction']/text()").get()

print(f"熱門文章標題：{hot_news_title}，\n熱門文章摘要：{hot_news_intro}")

利用以下的指令執行Scrapy網頁爬蟲：

$ scrapy crawl hot_news

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-follow-links-and-collect-data.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Scrapy教學10]不可不知的Scrapy框架爬取下一層網頁資料實作

2 0 777 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/19

一定要懂的Scrapy框架結合Gmail寄送爬取資料附件秘訣

本文將爬取的結果存入CSV檔案後，透過Gmail附件郵寄給使用者。在開始之前，大家可以先參考[Python實戰應用]Python寄送Gmail電子郵件實作教學文章( https://www.learncodewithmike.com/2020/02/python-email.html )的第二節步驟，取得Gmail的應用程式密碼，以便能夠利用它的SMTP(簡易郵件傳輸協定)來發送郵件。

Q: Scrapy MailSender結合Gmail發送郵件

在Scrapy網頁爬蟲框架中，想要實作發送電子郵件的功能，可以使用內建的MailSender模組(Module)，透過基本的設定即可達成。開啟Scrapy專案的settings.py設定檔，加入以下的Gmail SMTP設定：

MAIL_HOST = "smtp.gmail.com"

MAIL_PORT = 587

MAIL_FROM = "申請Gmail應用程式密碼所使用的電子郵件帳號"

MAIL_PASS = "Gmail應用程式密碼"

MAIL_TLS = True

並且，將[Scrapy教學7]教你Scrapy框架匯出CSV檔案方法提升資料處理效率文章( https://www.learncodewithmike.com/2021/01/scrapy-export-csv-files.html )中所建立的CsvPipeline資料模型管道設定開啟，如下範例：

ITEM_PIPELINES = {

'news_scraper.pipelines.CsvPipeline': 500,

}

設定完成後，開啟ITEM PIPELINE資料模型管道(pipelines.py)檔案，引用Scrapy框架的設定檔及MailSender模組(Module)，如下範例：

from itemadapter import ItemAdapter

from news_scraper import settings

from scrapy.mail import MailSender

接著，在CsvPipeline類別(Class)的close_spider()方法(Method)中，來建立Scrapy MailSender物件，以及指定Gmail的附件，包含「附件顯示的名稱(attach_name)」、「網際網路媒體類型(mime_type)」及「檔案物件(file_object)」，如下範例：

class CsvPipeline:

...

def close_spider(self, spider):

self.exporter.finish_exporting()

self.file.close()

mail = MailSender(smtphost=settings.MAIL_HOST,

smtpport=settings.MAIL_PORT,

smtpuser=settings.MAIL_FROM,

smtppass=settings.MAIL_PASS,

smtptls=settings.MAIL_TLS)

attach_name = "posts.csv"

mime_type = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"

file_object = open("posts.csv", "rb")

return mail.send(to=["example@gmail.com"],

subject="news",

body="",

attachs=[(attach_name, mime_type, file_object)])

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-sending-gmail.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Scrapy教學9]一定要懂的Scrapy框架結合Gmail寄送爬取資料附件秘訣

2 0 471 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/12/29

實用的Scrapy框架安裝指南，開始你的第一個專案

繼[Scrapy教學1]快速入門Scrapy框架的5個執行模組及架構( https://www.learncodewithmike.com/2020/12/python-scrapy-architecture.html )文章，瞭解Scrapy框架的5個主要模組相互之間的關係與執行流程後，本文將帶大家在Windows環境中，安裝Scrapy框架，並且提示可能會遇到的錯誤該如何解決，最後，建立屬於您的第一個Scrapy專案，來一窺其中的檔案結構。

Q:如何安裝Scrapy框架?

首先，Scrapy框架的安裝方式，就像安裝Python的套件(Package)一樣，透過以下的指令即可進行安裝：

$ pip install scrapy

而要確認Scrapy框架是否有安裝成功，可以先在命令提示字元視窗中輸入scrapy指令，其中有一個「bench」指令，用來快速執行Scrapy框架的基準測試，如下：

$ scrapy bench

執行後如果沒有顯示錯誤訊息，代表安裝成功。

Q:如何建立Scrapy專案?

Scrapy框架安裝完成後，接下來，就可以建立Scrapy專案來開發網頁爬蟲。本文以新聞網頁爬蟲專案為例，在桌面先建立一個「news_scraper」資料夾，接著，開啟Visual Studio Code，打開「news_scraper」資料夾，在Terminal視窗中即可利用以下的指令來建立Scrapy專案：

$ scrapy startproject 你的專案名稱 .

以上指令的「.」意思是在目前的目錄下，建立Scrapy專案。而執行結果則是告訴我們專案建立成功，並且引導如何開發第一個Python網頁爬蟲。

Q:Scrapy專案結構是什麼?

這時候，可以在「news_scraper」資料夾中看到Scrapy專案的檔案結構：

1. spiders資料夾：用來存放Python網頁爬蟲程式碼的地方。

2. items.py：定義想要爬取或儲存的資料欄位。

3. middlewares.py：定義「spiders與引擎(ENGINE)中間件」及「引擎(ENGINE)與下載器(DOWNLOADER)中間件」。

4. pipelines.py：定義items資料的後續處理，像是清理、儲存至資料庫或檔案等。

5. settings.py：Scrapy專案設定檔。

6. scrapy.cfg：Scrapy專案部署設定檔。

經過本文的說明，相信大家都能夠將Scrapy框架安裝起來，另外，透過建立Scrapy專案的方式，來瞭解其中各個檔案所負責的工作，將有助於未來在開發的過程中，能夠得心應手，希望對於想學習Scrapy框架的讀者有所幫助。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2020/12/scrapy-installation.html )網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Scrapy教學2]實用的Scrapy框架安裝指南，開始你的第一個專案

3 0 849 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

你可能感興趣的教室

104學習

框架設計

框架設計 學習推薦

框架設計學習推薦