104學習

資料清理

資料清理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
指的是將雜亂、不完整或錯誤的數據進行篩選、修正和標準化,確保資料的準確性和一致性。這項技能能提升後續分析的效率與品質,避免因資料錯誤導致決策偏差。在職場中,具備此能力能幫助團隊節省時間、降低風險,並支援精準的業務判斷與策略制定。
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料清理 學習推薦

Steven Wu

稽核|104Giver職涯引導師 第3202410019號

2025/11/13

[KNIME][稽核]Expression節點於資料整理、稽核領域應用
為何要用Expressions節點?
Expression單一節點就可同時新增或覆寫多欄、條件運算、正則清洗、型別轉換與錯誤處理,可以取代許多個String、Math、Rule等類似節點,讓流程更精簡、可維護性更高。
常見資料整理使用方式
1. 條件分類與標記
- 依規則產生新的分類欄(例如:風險等級、費用類別、稽核旗標)
- 以此範例資料為例:將薪資、伙食費、免稅加班費、獎金提撥、員工紅利提撥、獎金支出、年終獎金、勞保費、健保費、團保費、退休金、職工福利等費用科目標示為用人費用,以利後續分析。
看更多
0 0 1223 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
看更多
3 0 2104 0

104學習精選課程

想提升職場競爭力?專業技能課程看起來👇

熱門精選

104學習

產品

20小時前

用 AI 把巴黎鐵塔變成「建築拆解資訊圖」的簡易教學 (含ai提示詞)
最近在 Pinterest、Instagram、小紅書上,開始流行一種很特別的建築圖片風格。
它不是一般旅遊照加濾鏡,也不是單純把照片變成插畫。
而是把整棟建築拆成像「建築博物館海報」一樣的分析圖。
例如巴黎鐵塔 除了保留原本外觀,還會把:塔尖、鋼構、觀景台、支撐結構、基座一層一層拆開。
旁邊甚至還會搭配:平面圖、剖面圖、材料分析、色彩分析、結構節點
整體看起來很像建築系展板,也有點像博物館裡的工程圖解。
而現在,這類圖片其實不用會 3D 建模,只靠 AI 就能做出來。
如果是第一次玩,
其實 ChatGPT 就很好上手。
因為它對:中文理解、建築資訊圖、海報版面相對穩定。
其實照片比 Prompt 更重要
很多人會一直修改 Prompt。
但實際上,
照片品質往往影響更大。
建議盡量使用:
◆正面角度
◆建築完整入鏡
◆白天清楚光線
◆不被樹遮住
◆遊客不要太多
AI 才比較容易理解整體結構。
※ 巴黎鐵塔版 Prompt(簡易版)
下面這段其實就能直接使用。搭配建築照片丟進 AI 工具即可
========================================================
請基於巴黎鐵塔照片,生成一張專業建築拆解資訊圖。
將巴黎鐵塔轉化為「爆炸軸測建築分析圖(Exploded Axonometric Diagram)」。
保留巴黎鐵塔真實比例、鋼構細節、觀景平台、塔身結構與基座。
將建築由上至下分層拆解:
◆天線系統
◆塔尖結構
◆上層觀景平台
◆中段鋼構
◆第一層平台
◆四腳支撐結構
◆基座與地基
◆周邊場地
畫面四周加入:
◆正立面圖
◆側立面圖
◆剖面圖
◆結構分析
◆材料分析
◆色彩分析
◆鋼構節點放大圖
◆工程標示與比例尺
整體風格為:
博物館級建築資訊圖
建築教材海報
工程製圖風格
白色背景
精密細線稿
淡彩渲染
高細節
低飽和配色
專業建築排版
文字全部使用繁體中文。
避免:
照片風格
科幻風
漫畫風
雜亂背景
AI錯誤結構
不合理透視
===================================================
不只巴黎鐵塔能玩 其實很多建築都很適合。例如教堂、古堡 、現代建築、現代建築等
一起動手試看看吧 !
看更多
1 0 469 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
看更多
2 0 834 0
你可能感興趣的教室