104學習

資料清理

資料清理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
指的是將雜亂、不完整或錯誤的數據進行篩選、修正和標準化,確保資料的準確性和一致性。這項技能能提升後續分析的效率與品質,避免因資料錯誤導致決策偏差。在職場中,具備此能力能幫助團隊節省時間、降低風險,並支援精準的業務判斷與策略制定。
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料清理 學習推薦

Steven Wu

稽核|104Giver職涯引導師 第3202410019號

2025/11/13

[KNIME][稽核]Expression節點於資料整理、稽核領域應用
為何要用Expressions節點?
Expression單一節點就可同時新增或覆寫多欄、條件運算、正則清洗、型別轉換與錯誤處理,可以取代許多個String、Math、Rule等類似節點,讓流程更精簡、可維護性更高。
常見資料整理使用方式
1. 條件分類與標記
- 依規則產生新的分類欄(例如:風險等級、費用類別、稽核旗標)
- 以此範例資料為例:將薪資、伙食費、免稅加班費、獎金提撥、員工紅利提撥、獎金支出、年終獎金、勞保費、健保費、團保費、退休金、職工福利等費用科目標示為用人費用,以利後續分析。
看更多
0 0 1203 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
看更多
3 0 2099 0

104學習精選課程

想提升職場競爭力?專業技能課程看起來👇

熱門精選

104學習

產品

23小時前

2026 年 Prompting 怎麼學?AI大神吳恩達推出免費新課給一般人的 AI 使用指南
AI 工具越來越強,提示詞也不再只是「請幫我寫一段文案」這麼簡單。AI 教育者吳恩達(Andrew Ng)近期推出新課程《AI Prompting for Everyone》,主打不需要技術背景,幫助一般使用者學會更有效地使用 ChatGPT、Claude、Gemini 等 AI 工具。DeepLearning.AI 課程頁顯示,這是一門初學者課程,共 3 小時 4 分鐘、21 堂影片課,由吳恩達授課。官方學習頁也標示可免費開始學習、觀看課程影片;若需要 graded assignments 與證書,則屬於 PRO 方案。
吳恩達是誰?為什麼他的新課值得關注?
吳恩達是全球知名的 AI 教育者與機器學習專家。他是 DeepLearning.AI 創辦人、Coursera 共同創辦人,也曾擔任百度首席科學家,並曾創辦與領導 Google Brain 專案,目前也是史丹佛大學兼任教授。
對非工程背景的上班族來說,吳恩達最重要的影響,是他長期把 AI 知識轉化成大眾可以理解、可以上手的學習內容。從早期的機器學習課程,到《AI For Everyone》,再到這次的《AI Prompting for Everyone》,他的課程常被視為 AI 學習趨勢的風向球。
這門課在教什麼?不是背 Prompt,而是學會和 AI 協作
《AI Prompting for Everyone》的核心,不只是教你寫出更漂亮的提示詞,而是教你在不同工作情境中,如何讓 AI 產出更可靠、更有用的結果。官方課程頁將學習重點分成三大方向:找資訊、腦力激盪與寫作、創作與建構。
第一個重點是 Finding Information,也就是用 AI 找資料。課程會說明 AI 模型本身已經知道什麼、什麼時候應該使用 AI 網路搜尋、什麼情境適合使用 deep research mode,以及如何取得更準確、有來源的回答。
這對上班族非常實用。無論是做市場資料整理、競品分析、產業趨勢觀察,或準備會議前的背景研究,AI 不只是回答問題的工具,更可以協助快速建立資料架構。但前提是使用者要懂得要求來源、設定範圍,也要知道哪些資訊需要再查證。
第二個重點是 AI as a Thought Partner,也就是把 AI 當成思考夥伴。課程會教使用者如何提供正確上下文,讓 AI 理解真正需求;也會談到如何讓 AI 提供誠實回饋,而不是只迎合使用者。官方課綱中也列出 brainstorming、context、reasoning、sycophancy、writing with AI、AI critique 等單元。
這代表未來職場的 AI 能力,不只是「會叫 AI 寫東西」,而是能不能請 AI 幫忙檢查盲點、提出反方觀點、改善表達方式,甚至協助自己做更完整的決策思考。
第三個重點是 Working with Multimedia and Code。課程會介紹如何在提示中使用圖片、讓 AI 理解圖片、生成視覺內容,並使用 AI 建立簡單遊戲、網站與 App;官方也特別說明,這部分不需要程式經驗。
這也反映 AI 工具的使用場景正在擴大。過去上班族多半把 AI 用在寫信、摘要、翻譯、整理資料;但未來,AI 也可能協助做簡報素材、產出視覺概念、分析資料,甚至建立可展示的簡易 prototype。
誰適合上這門課?
官方課程頁指出,這門課適合任何在日常工作或生活中使用 ChatGPT、Claude、Gemini 等 AI 工具,並希望獲得更好結果的人,不需要技術背景,也沒有必修前置課程。
換句話說,這門課很適合以下幾類上班族:經常需要查資料的企劃、行銷、編輯、研究人員;需要寫報告、簡報、Email 的一般辦公室工作者;想把 AI 帶進工作流程的主管;以及想開始學 AI、但不想一開始就碰程式的人。
對職場工作者的啟示:提示力已經變成基本功
這門課最值得注意的訊號是:AI 提示力正在從「技巧」變成「基本工作能力」。
過去,很多人學 AI 會先找提示詞模板,例如「請扮演某某角色」、「請一步一步思考」、「請用表格整理」。這些技巧仍然有用,但已經不夠。真正會用 AI 的人,還要知道如何提供背景資料、設定輸出格式、要求資料來源、讓 AI 挑戰自己的想法,並判斷哪些內容可以採用、哪些內容必須查證。
也就是說,未來職場上的 AI 能力,不是誰背了最多 prompt,而是誰更會設計任務、拆解問題、提供上下文,並把 AI 產出整合成真正能交付的工作成果。
有興趣的讀者可至 DeepLearning.AI 官方課程頁開始學習:《AI Prompting for Everyone》。
課程影片可免費開始觀看;若想取得作業評分與證書,需留意官方 PRO 方案說明。
DeepLearning.AI《AI Prompting for Everyone》
看更多
1 0 961 1
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
看更多
2 0 832 0
你可能感興趣的教室