104學習精靈

資料擷取

資料擷取
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 1 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 1 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料擷取 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

不可不知的Scrapy框架爬取下一層網頁資料實作
本文以INSIDE硬塞的網路趨勢觀察網站( https://www.inside.com.tw/ )首頁的熱門文章為例,來和大家分享如何在Scrapy框架中爬取下一層的網頁內容。
Q: Scrapy網頁爬蟲爬取下一層網頁內容
建立Scrapy網頁爬蟲檔案(hot_news.py),在parse()方法(Method)的地方,透過Scrapy框架的xpath()方法(Method),來爬取INSIDE硬塞的網路趨勢觀察網站的所有熱門文章下一層網頁網址,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
name = 'hot_news'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
post_urls = response.xpath(
"//a[@class='hero_menu_link']/@href").getall()
詳細的Scrapy xpath定位元素方法教學可以參考[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法文章( https://www.learncodewithmike.com/2021/01/scrapy-xpath-selectors.html )。取得了所有熱門文章的下一層網頁網址後,就可以透過迴圈來進行請求,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
name = 'hot_news'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
post_urls = response.xpath(
"//a[@class='hero_menu_link']/@href").getall()
for post_url in post_urls:
yield scrapy.Request(post_url, self.parse_content)
其中Request方法(Method)的第一個參數,就是「請求網址」,也就是熱門文章的下一層網頁網址,而第二個參數就是請求該網址後,所要執行的方法(Method),而parse_content()方法(Method)中,就是來爬取熱門文章的下一層網頁內容,以本文為例就是包含「文章標題」及「文章摘要」。
接著,就可以在parse_content()方法(Method)中,同樣使用Scrapy框架的xpath()方法(Method),來爬取「文章標題」及「文章摘要」,如下範例:
import scrapy
class HotNewsSpider(scrapy.Spider):
...
def parse_content(self, response):
# 熱門文章標題
hot_news_title = response.xpath(
"//h1[@class='post_header_title js-auto_break_title']/text()").get()
# 熱門文章摘要
hot_news_intro = response.xpath(
"//div[@class='post_introduction']/text()").get()
print(f"熱門文章標題:{hot_news_title},\n熱門文章摘要:{hot_news_intro}")
利用以下的指令執行Scrapy網頁爬蟲:
$ scrapy crawl hot_news
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-follow-links-and-collect-data.html
)網站觀看更多精彩內容。
2 0 569 0

熱門精選

104學習精靈

產品

10/08 00:55

【最新】2024年10月Excel課程熱門排行榜TOP 10:最受歡迎的Excel學習課程推薦
2024年10月Excel課程熱門排行榜TOP 10:涵蓋基礎操作、進階數據處理以及商業分析等內容,深受學員歡迎。重點學習的函數包括SUMIF、VLOOKUP、IF、以及更高階的INDEX與MATCH函數,能有效提升數據整理、報表分析的效率。無論是初學者還是進階用戶,都能找到適合的課程,快速掌握職場必備技能並提升Excel應用能力。
第1名。【資料整理術】Excel資料整理分析入門
上完這堂「基礎必修 ! Excel 入門關鍵技法」,你也能利用 Excel 小技巧,將統計資料整理得又快又精準!
第2名。【函數入門】別再土法煉鋼!你一定要懂的Excel函數
⚡6大單元X 17招辦公室必學EXCEL招式X 每天20~30分鐘學習+練習X 每周 3 天
⚡從基礎開始,一步一步邁向進階! 讓您充分練習,工作上立即活用,從此告別土法煉鋼的Excel人生!
第3名。ChatGPT x Excel | 職場必學商務數據分析術
講師將以系統化教學法,教授數據分析常用情境,搭上火紅 ChatGPT ,步驟式實戰,能隨學即用,讓你知道如何在工作中運用所學到的技能!
第4名。無痛起步-Excel VBA超入門實戰
從最基礎的語法開始,讓你用最短的時間掌握 VBA 各種語法的使用方式,接著以實例帶你瞭解程式碼運作和修改,最後融合所學,培養你從無到有,獨立撰寫程式的能力。
第5名。一日速成-零基礎Excel入門班
讓你快速搞懂 Excel 許多便利的技巧,不會到深入艱難的應用,但保證能解決 80% 工作常碰到的問題,適合不需要深度應用 Excel 也適合沒有太多時間自學又想快速入門 Excel 的你!
第6名。從Excel到Power BI數據視覺化
⚡化繁為簡 採用精簡教學,30分鐘內掌握 Excel 到 Power BI 的數據轉換技巧。
⚡實務案例 課程中透過真實案例,展示 Power BI 在不同場景中的應用,讓你將所學應用到實際工作中。
第7名。財會工作秒殺技! 活用VBA,開啟你的自動化工作術!
這門課最適合對資訊一竅不通的文組生 ,Excel自動化不求人就靠這一堂課,與其等待,不如求自己,學會VBA的基礎,就算不會寫程式,一樣可以實現自動化。
第8名。用 EXCEL 打造自動化人資系統
課程中將教您最常使用到的Excel功能,如函數功能、製表,和最常會運用到的主題項目,包括薪資計算、加班費、出缺勤、年資獎金等等,幾乎囊括一半工作的內容,最後還能做出功能選單整合系統,整合不同的使用情境,大幅增加效率。
第9名。會計師教你用 Excel 編製現金流量表及營運資金預估表
本課程邀請蔡淑惠會計師, 透過執業經驗與數百場企業內訓的疑難雜症萃取整合,教您如何檢視現金流,並建立起營運資金預估表的架構。
第10名。高效業績實戰課 | 超業必學13種加速成交的 Excel 銷售數據
⚡12種業務難題 + 2大實戰案例:業務課大補帖解決所有業務難題
⚡ 2大應用案例完整解題:透過產業的真實案例,深入情境並實際演練,帶你直面業務痛點、避開誤區,學會真正有效的業務推進方法,一擊必勝!
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
【延伸閱讀】
【最新】2024年10月AI課程熱門排行榜TOP 10:最受歡迎的AI學習課程推薦
【最新】2024年10月英文課程熱門排行榜TOP 10:最受歡迎的英文學習課程推薦
1 0 3232 0
學習精靈

10/18 00:00

13 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/19

一定要懂的Scrapy框架結合Gmail寄送爬取資料附件秘訣
本文將爬取的結果存入CSV檔案後,透過Gmail附件郵寄給使用者。在開始之前,大家可以先參考[Python實戰應用]Python寄送Gmail電子郵件實作教學文章( https://www.learncodewithmike.com/2020/02/python-email.html )的第二節步驟,取得Gmail的應用程式密碼,以便能夠利用它的SMTP(簡易郵件傳輸協定)來發送郵件。
Q: Scrapy MailSender結合Gmail發送郵件
在Scrapy網頁爬蟲框架中,想要實作發送電子郵件的功能,可以使用內建的MailSender模組(Module),透過基本的設定即可達成。開啟Scrapy專案的settings.py設定檔,加入以下的Gmail SMTP設定:
MAIL_HOST = "smtp.gmail.com"
MAIL_PORT = 587
MAIL_FROM = "申請Gmail應用程式密碼所使用的電子郵件帳號"
MAIL_PASS = "Gmail應用程式密碼"
MAIL_TLS = True
並且,將[Scrapy教學7]教你Scrapy框架匯出CSV檔案方法提升資料處理效率文章( https://www.learncodewithmike.com/2021/01/scrapy-export-csv-files.html )中所建立的CsvPipeline資料模型管道設定開啟,如下範例:
ITEM_PIPELINES = {
'news_scraper.pipelines.CsvPipeline': 500,
}
設定完成後,開啟ITEM PIPELINE資料模型管道(pipelines.py)檔案,引用Scrapy框架的設定檔及MailSender模組(Module),如下範例:
from itemadapter import ItemAdapter
from news_scraper import settings
from scrapy.mail import MailSender
接著,在CsvPipeline類別(Class)的close_spider()方法(Method)中,來建立Scrapy MailSender物件,以及指定Gmail的附件,包含「附件顯示的名稱(attach_name)」、「網際網路媒體類型(mime_type)」及「檔案物件(file_object)」,如下範例:
class CsvPipeline:
...
def close_spider(self, spider):
self.exporter.finish_exporting()
self.file.close()
mail = MailSender(smtphost=settings.MAIL_HOST,
smtpport=settings.MAIL_PORT,
smtpuser=settings.MAIL_FROM,
smtppass=settings.MAIL_PASS,
smtptls=settings.MAIL_TLS)
attach_name = "posts.csv"
mime_type = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"
file_object = open("posts.csv", "rb")
return mail.send(to=["example@gmail.com"],
subject="news",
body="",
attachs=[(attach_name, mime_type, file_object)])
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-sending-gmail.html
)網站觀看更多精彩內容。
2 0 317 0
學習精靈

05/15 00:00

4 0

推薦給你

知識貓星球

喵星人

1小時前

台積電法說會 6 大重點整理:AI 需求推動,第三季超出市場預期|股市看漲?第四季展望?
10月17日,台積電(2330)召開2024年第三季法說會,市場高度關注該公司對未來的預測以及AI需求的影響。在全球半導體產業持續變動的背景下,台積電的表現無疑是投資者關注的焦點。本篇文章將整理這次法說會的關鍵重點,並分析未來展望。
▍第三季財報亮眼,超出市場預期
台積電公布的第三季營收約為新台幣7,596.9億元,較去年同期成長39%。每股盈餘 (EPS) 來到 12.54 元,年增幅超過50%。這些數據展現出台積電在全球市場的強勁表現,特別是在高效能運算(HPC)及5G技術應用上需求旺盛,帶動了晶片出貨量的顯著提升。
▍AI 需求成為核心驅動力
法說會中,AI需求再次成為焦點。隨著生成式AI與高效能運算技術的迅速發展,全球對先進製程晶片的需求激增,尤其是3奈米及以下的技術備受客戶青睞。台積電表示,這波AI浪潮才剛開始,預期2024年AI需求將進一步推動業務增長,並成為未來數年內的重要收入來源。
▍第四季展望穩定,資本支出保持不變
針對2024年第四季的營收預測,台積電表示預期營收將介於261億至269億美元之間,季增幅度約為11%至14%。資本支出則保持在全年略高於300億美元的水準。這樣的資本配置顯示出台積電對於未來技術佈局的長期策略,特別是持續擴展先進製程與封裝技術,來滿足不斷增長的客戶需求。
▍海外產能擴張,亞利桑那廠進展順利
台積電的全球產能擴展策略正穩步推進,其中位於美國亞利桑那州的晶圓廠已開始生產4奈米製程晶片,並預計於2025年進一步提升至量產階段。這座新廠的運行,顯示出台積電對於全球供應鏈多元化的積極佈局,這將有助於其在地區需求激增時,提供更靈活的產能調度。
▍CoWoS 先進封裝需求高漲
隨著AI和HPC等應用的增加,台積電的CoWoS(晶圓上系統級封裝)技術需求大幅增加。法說會指出,預期明年這項技術的產能將進一步擴大,並且需求可能仍然高於供應。這對於公司來說是重要的業務增長機會,特別是在高效能應用領域中的競爭優勢更為明顯。
▍股價預期樂觀,市場情緒高漲
法說會後,市場情緒積極,不少投資者對台積電的股價看好,部分分析師預測股價有機會突破1500元大關。隨著AI需求的快速增長,以及台積電持續領先於先進製程領域,市場對於其未來成長潛力充滿信心。
台積電在這次法說會中再次展現出強大的市場競爭力,尤其是在AI、高效能運算及先進封裝等領域的佈局,更讓投資者對未來充滿期待。隨著全球需求持續擴大,台積電有望在2024年繼續穩步成長,成為科技產業中不可或缺的關鍵角色。
➤ 歡迎在104學習精靈關注【AI趨勢報-科技愛好者的產地】獲得更多科技新知!
0 0 25 0
你可能感興趣的教室