104學習

網頁爬蟲

網頁爬蟲
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
這項技能主要是利用程式自動化抓取網站上的大量資料,幫助企業快速蒐集市場資訊、競爭對手動態或用戶評論。它能節省人工整理資料的時間,提高效率,並支援數據分析、商業決策與行銷策略制定。掌握這項技能,對數據驅動的職場環境非常有利,尤其在行銷、資料分析、產品管理等領域需求大增。
關於教室
關注人數 2 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 2 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

網頁爬蟲 學習推薦

一零四獨家新知識

nabi總知識長

2023/09/08

1分鐘讓你了解Python自學的三大要點(附範例)
在近年的數據中,尤其隨著人工智慧和大數據領域的迅速發展我們可以看到一個鮮明的趨勢:全球超過40%的新進軟體工程師都選擇以Python作為他們的首選語言,95%的數據科學家選擇Python作為他們的主要工具,不僅如此,根據最新的學術研究,學習Python的過程也有助於增強邏輯思維和問題解決能力。這種趨勢和研究結果再次凸顯了「Python自學」的重要性。在這個科技驅動的世界中,「Python自學」不僅是一個選擇,更是一個為未來做準備的必要途徑。如果你希望在這個資訊化時代保持競爭力,那麼「Python自學」絕對值得你投入時間和心力。
【一、為何選擇Python】
選擇學習一門新的程式語言時,首先需要明白為何選擇它。Python是一種高階、解釋型的程式語言,於1991年由Guido van Rossum創建。其主要特點包括:
📌易讀性: Python具有明確的結構和語法,它鼓勵使用空白和縮排來組織代碼,這使得代碼更易於閱讀和維護。
📌標準庫: Python擁有一個豐富的標準庫,提供了眾多實用的模組和函數,能夠支援從文件操作、網路通訊到圖形介面的開發等各種功能。
📌多用途: Python是多用途的語言,被廣泛用於網頁開發、數據分析、人工智慧、機器學習、自動化、遊戲開發等眾多領域。
Python已經成為世界上最受歡迎的程式語言之一,部分原因包括非常適合初學者。此外,Python具有強大的標準庫和第三方庫,適用於網頁開發、數據分析、人工智慧、遊戲開發等多個領域。
【二、Python學習資源】
在自學Python時,有許多免費和付費的學習資源可供選擇。一些熱門的免費學習平台如 Codecademy, Coursera, 和 edX 通常都有提供Python入門課程。而書籍方面,《Python Crash Course》和《Automate the Boring Stuff with Python》是初學者的最佳選擇。另外,Python的官方文件也是一個深入學習的好地方。
而中文的部份,學習Python的中文資源非常多,以下是一些推薦的中文學習資源:
書籍:
📘《簡明Python教程》: 為初學者提供了一個清晰、簡單的Python入門指南。
📘《Python核心編程》: 涵蓋Python的基礎知識到高階技巧,適合有一定程式基礎的讀者深入學習。
📘《Python網頁爬蟲實戰》: 專注於如何使用Python進行網頁資料的抓取。
網路課程:
💻菜鳥教程 (Runoob): 提供了一個完整的Python教學,從基礎語法到進階功能,適合初學者。
💻魚C工作室: 透過視頻形式教授Python,內容生動且深入淺出。
線上平台:
🌐LeetCode: 雖然是一個算法和數據結構的練習平台,但它有許多中文社群和解題教學,可以學習如何用Python解決具體問題。
🌐CSDN: 中國最大的IT社群網站之一,有大量的Python教學和技術博客。
當然,這只是冰山一角,還有許多優質的中文Python學習資源分散在網路上。建議根據自己的學習風格和需求,選擇最適合的資源進行學習。
【三、實際操作】
只閱讀教程或看課程並不足夠。學習程式的最佳方式是通過實際操作。建議您在學習過程中持續撰寫代碼,解決實際問題。可以從小項目開始,如計算機、待辦事項清單或小遊戲,然後再逐步擴大至更複雜的專案。
讓我們從最基礎的一個範例開始:製作一個程式,該程式能夠詢問使用者的名字和年齡,然後計算出使用者在某年的年齡。
def main():
# 取得使用者的名字和當前年齡
name = input("請輸入您的名字: ")
age = int(input("請輸入您的年齡: "))
# 計算使用者在100年後的年齡
age_in_100_years = age + 100
# 輸出結果
print(f"您好, {name}!100年後,您將會是{age_in_100_years}歲。")
if __name__ == "__main__":
main()
這個程式首先定義了一個main函數,該函數會詢問使用者的名字和年齡,然後計算出使用者在100年後的年齡並輸出結果。if __name__ == "__main__":是Python的一個常見模式,確保當這個腳本被執行時,main函數會被呼叫。
當您執行這個程式,您可以輸入您的名字和年齡,然後程式會告訴您在100年後的年齡。
透過這樣的簡單範例,您可以學習到Python的基礎語法,如何定義函數、如何獲取和處理使用者輸入,以及如何輸出結果。隨著時間和練習的增加,您可以開始嘗試更複雜的項目和功能。
看更多
1 1 2842 2
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/19

一定要懂的Scrapy框架結合Gmail寄送爬取資料附件秘訣
本文將爬取的結果存入CSV檔案後,透過Gmail附件郵寄給使用者。在開始之前,大家可以先參考[Python實戰應用]Python寄送Gmail電子郵件實作教學文章( https://www.learncodewithmike.com/2020/02/python-email.html )的第二節步驟,取得Gmail的應用程式密碼,以便能夠利用它的SMTP(簡易郵件傳輸協定)來發送郵件。
Q: Scrapy MailSender結合Gmail發送郵件
在Scrapy網頁爬蟲框架中,想要實作發送電子郵件的功能,可以使用內建的MailSender模組(Module),透過基本的設定即可達成。開啟Scrapy專案的settings.py設定檔,加入以下的Gmail SMTP設定:
MAIL_HOST = "smtp.gmail.com"
MAIL_PORT = 587
MAIL_FROM = "申請Gmail應用程式密碼所使用的電子郵件帳號"
MAIL_PASS = "Gmail應用程式密碼"
MAIL_TLS = True
並且,將[Scrapy教學7]教你Scrapy框架匯出CSV檔案方法提升資料處理效率文章( https://www.learncodewithmike.com/2021/01/scrapy-export-csv-files.html )中所建立的CsvPipeline資料模型管道設定開啟,如下範例:
ITEM_PIPELINES = {
'news_scraper.pipelines.CsvPipeline': 500,
}
設定完成後,開啟ITEM PIPELINE資料模型管道(pipelines.py)檔案,引用Scrapy框架的設定檔及MailSender模組(Module),如下範例:
from itemadapter import ItemAdapter
from news_scraper import settings
from scrapy.mail import MailSender
接著,在CsvPipeline類別(Class)的close_spider()方法(Method)中,來建立Scrapy MailSender物件,以及指定Gmail的附件,包含「附件顯示的名稱(attach_name)」、「網際網路媒體類型(mime_type)」及「檔案物件(file_object)」,如下範例:
class CsvPipeline:
...
def close_spider(self, spider):
self.exporter.finish_exporting()
self.file.close()
mail = MailSender(smtphost=settings.MAIL_HOST,
smtpport=settings.MAIL_PORT,
smtpuser=settings.MAIL_FROM,
smtppass=settings.MAIL_PASS,
smtptls=settings.MAIL_TLS)
attach_name = "posts.csv"
mime_type = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"
file_object = open("posts.csv", "rb")
return mail.send(to=["example@gmail.com"],
subject="news",
body="",
attachs=[(attach_name, mime_type, file_object)])
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/02/scrapy-sending-gmail.html
)網站觀看更多精彩內容。
看更多
2 0 459 0

熱門精選

104學習

產品

04/28 09:00

新手如何用 AI 整理會議紀錄?線上會議、實體會議一次看懂
開會時一邊聽、一邊記、一邊思考,常常會遇到幾個問題:重點來不及抄、決議沒寫清楚、待辦事項散落在聊天訊息或腦袋裡。現在,只要善用手機錄音、會議逐字稿與常見 AI 工具,新手也能更快整理出一份清楚、可追蹤的會議紀錄。
不過,AI 不是幫你「完全取代紀錄」,而是協助你加快整理流程。正式發送前,仍然需要人工確認人名、日期、金額、負責人、截止日與會議決議。
本文將分成「線上會議」與「實體會議」兩種情境,教你用手邊常見工具,搭配 ChatGPT、Claude、Gemini、NotebookLM 等 AI 工具,整理出適合交給主管、團隊或客戶追蹤的會議紀錄。
使用 AI 前,先確認 3 件事
在開始錄音、轉錄或把內容交給 AI 前,請先確認:
第一,會議是否允許錄音、錄影或轉錄。建議事前告知與會者錄音目的、使用範圍與保存方式。
第二,會議內容是否包含敏感資料。如果涉及客戶資料、個人資料、薪資、人事、財務、商業機密或未公開策略,不建議自行上傳到外部 AI 工具,應優先使用公司核准的平台。
第三,AI 產出只能作為初稿。AI 可能聽錯、漏掉脈絡,或把「討論中的想法」誤寫成「已決定事項」,正式使用前一定要人工檢查。
台灣《個人資料保護法》對個人資料的蒐集、處理與利用,強調應尊重當事人權益,不得逾越特定目的的必要範圍,並應與蒐集目的有正當合理關聯;本文為一般工作效率教學,不構成法律意見,實際使用仍應依公司規範與相關法規辦理。
AI 可以幫會議紀錄做什麼?
AI 在會議紀錄中,最常見的用途有 5 種:
1. 錄音轉文字:把會議錄音或逐字稿變成可整理的文字資料。
2. 摘要重點:從冗長對話中整理出主要討論內容。
3. 萃取決議:找出會議最後確認的結論。
4. 整理待辦事項:列出任務、負責人、截止日期。
5. 改寫成正式紀錄:把口語內容整理成適合寄出的版本。
好的會議紀錄,不是把每句話都記下來,而是清楚回答三個問題:
討論了什麼?決定了什麼?接下來誰要做什麼?
情境一:線上會議怎麼做?
線上會議最適合新手練習,因為 Google Meet、Teams、Zoom 等平台通常已有錄影、字幕、逐字稿或 AI 摘要功能。不過,這些功能是否可用,會依公司帳號、方案、裝置、地區與管理員設定而不同。
Google Meet 的「Take notes for me」可透過 Gemini 協助記錄會議內容,但實際可用性會受到帳號與設定影響。Zoom AI Companion 也提供會議摘要功能,且管理員可啟用或停用相關設定。
線上會議建議流程
第一步:會前確認可否錄影、錄音或開啟逐字稿
如果是客戶會議、敏感會議或跨部門會議,建議先確認公司規範,並告知與會者。
可使用這句話:
「為了方便會後整理會議紀錄,這場會議會開啟錄影或逐字稿功能,紀錄僅供本專案追蹤使用。」
第二步:會中保留原始資料
使用平台內建的錄影、逐字稿、字幕、AI 筆記或會議摘要。
第三步:會後交給 AI 整理
把逐字稿或會議重點貼到 ChatGPT、Claude 或 Gemini,請 AI 整理成正式會議紀錄。
第四步:人工檢查後再寄出
檢查決議是否正確、待辦是否有負責人、截止日是否清楚,以及 AI 是否誤判會議結論。
情境二:實體會議怎麼做?
實體會議的難點是聲音來源比較複雜,可能有多人同時說話、環境雜音、白板討論、投影片補充等。因此,實體會議更需要做好錄音與現場補充紀錄。
最簡單的流程是:
手機錄音 → 轉成文字或整理重點 → 交給 AI 整理 → 人工確認
iPhone:使用內建「語音備忘錄」
iPhone 內建的「語音備忘錄」可用來錄製會議、課程或語音筆記,Apple 官方說明可開始錄音、暫停、繼續錄音,也可調整手機與聲音來源的距離以改善錄音音量。
操作方式:
1. 打開 iPhone 的「語音備忘錄」App。
2. 點選紅色錄音按鈕開始錄音。
3. 會議中若暫停,可按暫停;繼續時再恢復錄音。
4. 會議結束後按停止,錄音會自動儲存。
5. 將檔名改成「日期+會議名稱」,例如「2026-04-27_行銷週會」。
6. 會後可分享錄音檔,或先轉成文字再交給 AI 整理。
Android:使用內建「錄音機」或「Voice Recorder」
Android 手機品牌眾多,內建錄音 App 的名稱與功能會依品牌、機型與系統版本不同。常見名稱包含「錄音機」、「語音錄音」、「Recorder」或「Voice Recorder」。
如果使用 Google Pixel,可留意 Google Recorder;Google 官方說明 Recorder 主要適用於 Pixel,可用來錄製會議、課程等聲音,並提供搜尋與 AI 功能。如果使用 Samsung Galaxy,Samsung 官方說明 Voice Recorder 可錄製課程、會議與對話,支援裝置也可使用 Galaxy AI 進行轉錄、加入 Samsung Notes 或分享文字檔。
Android 通用操作方式:
1. 在手機搜尋「錄音」、「Recorder」或「Voice Recorder」。
2. 開會前先測試 5 到 10 秒,確認收音正常。
3. 把手機放在桌面中央,不要放在口袋或包包裡。
4. 會議結束後停止錄音。
5. 重新命名錄音檔,建議使用「日期+會議名稱」。
6. 若手機支援轉文字,可先產出逐字稿;若不支援,可先手動整理重點,再交給 AI 工具處理。
實體會議小技巧
實體會議中,AI 不一定能準確聽出每個人的聲音。建議主持人在重要決議後,主動重複一次:
「確認一下,這件事由 Amy 負責,下週五前完成第一版,對嗎?」
這句話看似簡單,卻能大幅提高會議紀錄的準確度。
常見、容易取得的 AI 工具怎麼選?
以下工具不代表所有功能都免費,也不保證每個帳號都能使用。部分功能會依方案、裝置、地區與公司管理員設定而不同,使用前建議先確認。
1. ChatGPT:適合整理正式會議紀錄
ChatGPT 適合把逐字稿、會議重點或錄音摘要整理成正式文件,例如會議紀錄、主管摘要、待辦清單或會後 Email。若帳號與裝置支援 ChatGPT Record,也可用於轉錄與摘要會議、腦力激盪或語音筆記;OpenAI 官方同時提醒,轉錄與摘要可能出錯,重要資訊需要人工檢查。
適合用在:正式會議紀錄、主管摘要、待辦清單、會後 Email。
2. Claude:適合處理較長逐字稿與文件
如果會議逐字稿很長,或需要同時參考簡報、企劃書、專案文件,Claude 是常見選項。Claude 官方說明支援上傳 PDF、DOCX、CSV、TXT、HTML、ODT、RTF、EPUB、JSON 等文件格式;部分檔案功能仍會依帳號設定與限制而不同。
適合用在:長會議逐字稿、訪談紀錄、研討會內容、多份文件摘要。
3. Gemini:適合 Google 工作環境
如果團隊平常使用 Gmail、Google Docs、Google Drive、Google Meet,Gemini 會比較容易放進日常流程。Google 文件中的 Gemini 可協助摘要文件,Drive 中的 Gemini 也可協助摘要檔案與資料夾,但需要符合可用方案。
適合用在:Google Docs 會議紀錄、Google Drive 文件整理、Google Meet 會後資料。
4. NotebookLM:適合專案型會議與長期追蹤
NotebookLM 比較像是「專案知識庫」。你可以把會議紀錄、簡報、企劃書、訪談資料放進同一個 Notebook,之後再針對這些資料提問。Google 說明 NotebookLM 會根據你上傳或指定的來源回答問題,並提供來源引用。
適合用在:專案會議追蹤、多次會議整理、課程筆記、客戶訪談資料庫。
新手建議工作流
線上會議
平台逐字稿或摘要 → ChatGPT/Claude/Gemini 整理 → 人工檢查 → 寄出追蹤
若是長期專案,可把每次整理好的會議紀錄放進 NotebookLM,開下次會議前請它整理「前次決議、未完成事項、待確認問題」。
實體會議
手機錄音 → 轉成文字或整理重點 → ChatGPT/Claude/Gemini 整理 → 人工確認
如果沒有逐字稿,也可以會後用 Google Docs 語音輸入,自己口述會議重點。Google Docs 語音輸入需要在支援的瀏覽器中開啟文件,並確保電腦麥克風可正常使用。這比較適合「會後自己補充重點」,不建議直接當成多人會議的正式轉錄工具。
會議紀錄建議格式
新手可以先使用這個格式:
會議主題:
會議時間:
會議地點/會議連結:
主持人:
紀錄者:
與會者:
一、會議目的
簡短說明這場會議要解決什麼問題。
二、討論重點
用條列式整理主要討論內容。
三、會議決議
只放已經確認的結論,不放還在討論中的想法。
四、待辦事項
任務|負責人|截止日期|備註
整理第一版提案|Amy|5/10|提供給行銷部確認
五、待確認事項
列出尚未有答案、需要補資料或下次再討論的內容。
可直接複製的 AI Prompt
Prompt 1:整理正式會議紀錄
請根據以下會議逐字稿,整理成正式會議紀錄。
請包含:
1. 會議主題
2. 會議目的
3. 討論重點
4. 會議決議
5. 待辦事項
6. 待確認事項
7. 下次會議建議追蹤事項
待辦事項請用「任務/負責人/截止日期/備註」格式整理。
如果內容中沒有提到負責人或截止日期,請標示「待確認」。
請不要加入原文沒有提到的資訊。
請使用繁體中文,語氣正式、清楚,適合寄給團隊成員。
Prompt 2:整理主管版摘要
請將以下會議內容整理成主管可快速閱讀的摘要。
請用 300 字以內說明:
1. 本次會議重點
2. 已確認決議
3. 需要主管知道的風險或卡點
4. 接下來最重要的 3 個行動項目
請避免冗長細節,保留關鍵資訊即可。
Prompt 3:檢查會議紀錄
請幫我檢查以下會議紀錄是否完整。
請指出:
1. 是否有決議不清楚的地方
2. 是否有待辦事項缺少負責人
3. 是否有待辦事項缺少截止日期
4. 是否有需要再次確認的數字、日期、人名
5. 是否有語氣太口語、不適合寄給主管或客戶的句子
請提供修改建議。
新手最容易犯的 5 個錯誤
錯誤 1:把逐字稿當成會議紀錄
逐字稿只是原始材料,會議紀錄要整理出重點、決議與待辦。
錯誤 2:沒有區分「提議」和「決議」
有人提出建議,不代表會議已經同意。
錯誤 3:待辦事項沒有負責人
「下週整理報告」不夠清楚;「由 Kevin 於 5/10 前整理第一版報告」才方便追蹤。
錯誤 4:完全相信 AI 摘要
AI 可能漏掉反對意見,或誤解語氣與脈絡。
錯誤 5:忽略資料安全
不要把客戶資料、人事薪資、財務數字、公司策略或未公開資訊,直接上傳到未經公司核准的外部工具。
104學習小提醒
AI 可以幫你省下整理時間,但不能取代你的判斷。會議紀錄真正的價值,不是把所有人說過的話完整留下來,而是讓團隊會後能繼續推進。
對新手來說,最簡單的開始是建立一套固定流程:
錄下來 → 轉成文字 → 請 AI 整理 → 人工檢查 → 寄出追蹤
只要掌握這套流程,無論是線上會議還是實體會議,都能更快產出清楚、完整、可追蹤的會議紀錄。
看更多
1 0 4995 0
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/30

教你Scrapy框架匯出CSV檔案方法提升資料處理效率
Q:Scrapy CsvItemExporter(CSV資料模型匯出器)如何使用?
開啟「資料模型管道檔案(pipeline.py)」,由於本文想要將爬取到的資料匯出到CSV檔案中,所以就需要引用CsvItemExporter(CSV資料模型匯出器),如下範例:
from itemadapter import ItemAdapter
from scrapy.exporters import CsvItemExporter
接下來,新增一個CsvPipeline類別(Class),用來定義Scrapy網頁爬蟲取得的資料匯出到CSV檔案的流程,這個類別名稱可以自行命名,如下範例:
from itemadapter import ItemAdapter
from scrapy.exporters import CsvItemExporter
class CsvPipeline:
類別(Class)命名完成後,新增一個建構式(Constructor),用來定義初始化的動作,如下範例:
class CsvPipeline:
def __init__(self):
self.file = open('posts.csv', 'wb')
self.exporter = CsvItemExporter(self.file, encoding='big5')
self.exporter.start_exporting()
以上的初始化動作包含了:
1.建立或打開CSV檔案,設定寫入二進位碼模式(wb, write binary)。
2.建立Scrapy框架的CsvItemExporter(CSV資料模型匯出器)物件,傳入檔案物件及編碼方式,預設為utf-8,如果讀者在匯出CSV檔案後,想要使用Microsoft Excel軟體開啟的話,就需要設定為big5,否則會出現亂碼。
3.呼叫start_exporting()方法(Method)開始進行檔案匯出的動作。
接下來,資料處理的部分,就需要實作Scrapy框架內建的process_item()方法(Method),在其中把資料模型(items)所裝載的資料,透過export_item()方法(Method)傳入CsvItemExporter(CSV資料模型匯出器),如下範例:
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
將Scrapy網頁爬蟲取得的資料匯出到自訂的CSV檔案後,結束時所要進行的動作,就要實作內建的close_spider()方法(Method),如下範例:
def close_spider(self, spider):
self.exporter.finish_exporting()
self.file.close()
以上範例也就是在Scrapy網頁爬蟲結束時,呼叫finish_exporting()方法(Method)完成檔案匯出,並且將檔案物件關閉,釋放資源。
匯出CSV檔案的資料模型管道(pipeline)完成後,別忘了在settings.py檔案,將此資料模型管道(pipeline)加入到ITEM_PIPELINES設定中,如下範例:
ITEM_PIPELINES = {
'news_scraper.pipelines.CsvPipeline': 500,
}
最後,利用以下指令來執行Scrapy網頁爬蟲:
$ scrapy crawl inside
執行後會在Scrapy網頁爬蟲專案中,看到posts.csv檔案,利用Microsoft Excel軟體開啟即可。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/01/scrapy-export-csv-files.html
)網站觀看更多精彩內容。
看更多
2 0 1009 2
你可能感興趣的教室