104學習精靈

網頁爬蟲

網頁爬蟲
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「網頁爬蟲:負責設計、開發及維護自動化爬蟲程序,以從各類網站收集數據,支援市場分析、競爭評估及商業決策。主要目標在於提高數據獲取效率,並確保數據準確性與完整性。所需技能包括熟悉Python、Java或其他編程語言,具備正則表達式與數據解析能力,並有跨部門協作的經驗以確保符合資料使用的法律與道德規範。在台灣職場中,需面對網頁結構的多變性與反爬蟲技術挑戰,因此充分了解網站協議及技術應用,並能靈活調整爬蟲策略尤為重要。」
關於教室
關注人數 2 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 2 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

網頁爬蟲 學習推薦

全部
影片
文章
一零四獨家新知識

nabi總知識長

2023/09/08

1分鐘讓你了解Python自學的三大要點(附範例)
在近年的數據中,尤其隨著人工智慧和大數據領域的迅速發展我們可以看到一個鮮明的趨勢:全球超過40%的新進軟體工程師都選擇以Python作為他們的首選語言,95%的數據科學家選擇Python作為他們的主要工具,不僅如此,根據最新的學術研究,學習Python的過程也有助於增強邏輯思維和問題解決能力。這種趨勢和研究結果再次凸顯了「Python自學」的重要性。在這個科技驅動的世界中,「Python自學」不僅是一個選擇,更是一個為未來做準備的必要途徑。如果你希望在這個資訊化時代保持競爭力,那麼「Python自學」絕對值得你投入時間和心力。
【一、為何選擇Python】
選擇學習一門新的程式語言時,首先需要明白為何選擇它。Python是一種高階、解釋型的程式語言,於1991年由Guido van Rossum創建。其主要特點包括:
📌易讀性: Python具有明確的結構和語法,它鼓勵使用空白和縮排來組織代碼,這使得代碼更易於閱讀和維護。
📌標準庫: Python擁有一個豐富的標準庫,提供了眾多實用的模組和函數,能夠支援從文件操作、網路通訊到圖形介面的開發等各種功能。
📌多用途: Python是多用途的語言,被廣泛用於網頁開發、數據分析、人工智慧、機器學習、自動化、遊戲開發等眾多領域。
Python已經成為世界上最受歡迎的程式語言之一,部分原因包括非常適合初學者。此外,Python具有強大的標準庫和第三方庫,適用於網頁開發、數據分析、人工智慧、遊戲開發等多個領域。
【二、Python學習資源】
在自學Python時,有許多免費和付費的學習資源可供選擇。一些熱門的免費學習平台如 Codecademy, Coursera, 和 edX 通常都有提供Python入門課程。而書籍方面,《Python Crash Course》和《Automate the Boring Stuff with Python》是初學者的最佳選擇。另外,Python的官方文件也是一個深入學習的好地方。
而中文的部份,學習Python的中文資源非常多,以下是一些推薦的中文學習資源:
書籍:
📘《簡明Python教程》: 為初學者提供了一個清晰、簡單的Python入門指南。
📘《Python核心編程》: 涵蓋Python的基礎知識到高階技巧,適合有一定程式基礎的讀者深入學習。
📘《Python網頁爬蟲實戰》: 專注於如何使用Python進行網頁資料的抓取。
網路課程:
💻菜鳥教程 (Runoob): 提供了一個完整的Python教學,從基礎語法到進階功能,適合初學者。
💻魚C工作室: 透過視頻形式教授Python,內容生動且深入淺出。
線上平台:
🌐LeetCode: 雖然是一個算法和數據結構的練習平台,但它有許多中文社群和解題教學,可以學習如何用Python解決具體問題。
🌐CSDN: 中國最大的IT社群網站之一,有大量的Python教學和技術博客。
當然,這只是冰山一角,還有許多優質的中文Python學習資源分散在網路上。建議根據自己的學習風格和需求,選擇最適合的資源進行學習。
【三、實際操作】
只閱讀教程或看課程並不足夠。學習程式的最佳方式是通過實際操作。建議您在學習過程中持續撰寫代碼,解決實際問題。可以從小項目開始,如計算機、待辦事項清單或小遊戲,然後再逐步擴大至更複雜的專案。
讓我們從最基礎的一個範例開始:製作一個程式,該程式能夠詢問使用者的名字和年齡,然後計算出使用者在某年的年齡。
def main():
# 取得使用者的名字和當前年齡
name = input("請輸入您的名字: ")
age = int(input("請輸入您的年齡: "))
# 計算使用者在100年後的年齡
age_in_100_years = age + 100
# 輸出結果
print(f"您好, {name}!100年後,您將會是{age_in_100_years}歲。")
if __name__ == "__main__":
main()
這個程式首先定義了一個main函數,該函數會詢問使用者的名字和年齡,然後計算出使用者在100年後的年齡並輸出結果。if __name__ == "__main__":是Python的一個常見模式,確保當這個腳本被執行時,main函數會被呼叫。
當您執行這個程式,您可以輸入您的名字和年齡,然後程式會告訴您在100年後的年齡。
透過這樣的簡單範例,您可以學習到Python的基礎語法,如何定義函數、如何獲取和處理使用者輸入,以及如何輸出結果。隨著時間和練習的增加,您可以開始嘗試更複雜的項目和功能。
看更多
1 1 2617 2
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/19

一定要懂的Scrapy框架結合Gmail寄送爬取資料附件秘訣
本文將爬取的結果存入CSV檔案後,透過Gmail附件郵寄給使用者。在開始之前,大家可以先參考[Python實戰應用]Python寄送Gmail電子郵件實作教學文章( https://www.learncodewithmike.com/2020/02/python-email.html )的第二節步驟,取得Gmail的應用程式密碼,以便能夠利用它的SMTP(簡易郵件傳輸協定)來發送郵件。
Q: Scrapy MailSender結合Gmail發送郵件
在Scrapy網頁爬蟲框架中,想要實作發送電子郵件的功能,可以使用內建的MailSender模組(Module),透過基本的設定即可達成。開啟Scrapy專案的settings.py設定檔,加入以下的Gmail SMTP設定:
MAIL_HOST = "smtp.gmail.com"
MAIL_PORT = 587
MAIL_FROM = "申請Gmail應用程式密碼所使用的電子郵件帳號"
MAIL_PASS = "Gmail應用程式密碼"
MAIL_TLS = True
並且,將[Scrapy教學7]教你Scrapy框架匯出CSV檔案方法提升資料處理效率文章( https://www.learncodewithmike.com/2021/01/scrapy-export-csv-files.html )中所建立的CsvPipeline資料模型管道設定開啟,如下範例:
ITEM_PIPELINES = {
'news_scraper.pipelines.CsvPipeline': 500,
}
設定完成後,開啟ITEM PIPELINE資料模型管道(pipelines.py)檔案,引用Scrapy框架的設定檔及MailSender模組(Module),如下範例:
from itemadapter import ItemAdapter
from news_scraper import settings
from scrapy.mail import MailSender
接著,在CsvPipeline類別(Class)的close_spider()方法(Method)中,來建立Scrapy MailSender物件,以及指定Gmail的附件,包含「附件顯示的名稱(attach_name)」、「網際網路媒體類型(mime_type)」及「檔案物件(file_object)」,如下範例:
class CsvPipeline:
...
def close_spider(self, spider):
self.exporter.finish_exporting()
self.file.close()
mail = MailSender(smtphost=settings.MAIL_HOST,
smtpport=settings.MAIL_PORT,
smtpuser=settings.MAIL_FROM,
smtppass=settings.MAIL_PASS,
smtptls=settings.MAIL_TLS)
attach_name = "posts.csv"
mime_type = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"
file_object = open("posts.csv", "rb")
return mail.send(to=["example@gmail.com"],
subject="news",
body="",
attachs=[(attach_name, mime_type, file_object)])
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-sending-gmail.html
)網站觀看更多精彩內容。
看更多
2 0 368 0

推薦給你

104學習精靈

產品

07/16 15:10

【早鳥購課優惠】GA4 x Looker studio跨資料源整合&動態報表實戰
【早鳥購課優惠】前20名再享早鳥加碼優惠(採訂單成立時間(無退款)排序前20名)
提醒通知:贈點通知信由客服發送到您購買時所填寫的信箱,因Gmail...等收信軟體,其系統收信可能會歸類在「垃圾信件夾」中,再請留意該信件是否有課程信件。
前面訂單時間,後為獲贈者,部分資訊隱藏:
🟢2025-05-23 09:54:28|蕭⭕錡
🟢2025-05-26 18:49:58|盧⭕安
🟢2025-05-26 19:44:39|賴⭕淵
🟢2025-05-27 19:06:08|張⭕瑱
🟢2025-05-27 19:31:04|張⭕人
🟢2025-05-27 21:03:25|何⭕楷
🟢2025-05-29 02:15:30|賴⭕峯
🟢2025-05-30 03:10:30|黃⭕群
🟢2025-05-30 14:24:44|王⭕文
🟢2025-05-30 14:26:32|戴⭕妤
🟢2025-05-31 21:08:53|張⭕華
🟢2025-06-01 12:51:03|林⭕宇
🟢2025-06-01 22:11:44|梁⭕珞
🟢2025-06-02 00:18:42|游⭕瑄
🟢2025-06-03 06:52:49|高⭕香
🟢2025-06-03 21:56:14|游⭕竹
🟢2025-06-04 13:15:33|張⭕偉
🟢2025-06-04 17:29:45|于⭕懿
🟢2025-06-04 19:04:37|蘇⭕臻
🟢2025-06-06 07:50:33|謝⭕樺
感謝以上購買者,104課程中心持續更新與上架職場學習課程,歡迎大家一起來增能!
提醒通知:贈點通知信由客服發送到您購買時所填寫的信箱,因Gmail...等收信軟體,其系統收信可能會歸類在「垃圾信件夾」中,再請留意該信件是否有課程信件。
客服信箱:nabiservice@104.com.tw
看更多
0 0 749 0
你可能感興趣的教室