「資料清理」在職進修、線上學習、共學教室

賈伯斯加個n：職涯/稽核/財會審計/履歷

關注

Steven Wu

稽核｜104Giver職涯引導師第3202410019號

2025/11/13

[KNIME][稽核]Expression節點於資料整理、稽核領域應用

為何要用Expressions節點？

Expression單一節點就可同時新增或覆寫多欄、條件運算、正則清洗、型別轉換與錯誤處理，可以取代許多個String、Math、Rule等類似節點，讓流程更精簡、可維護性更高。

常見資料整理使用方式

1. 條件分類與標記

- 依規則產生新的分類欄（例如：風險等級、費用類別、稽核旗標）

- 以此範例資料為例：將薪資、伙食費、免稅加班費、獎金提撥、員工紅利提撥、獎金支出、年終獎金、勞保費、健保費、團保費、退休金、職工福利等費用科目標示為用人費用，以利後續分析。

閱讀全文：https://stevenwublog.notion.site/KNIME-Expression-2a8f7f8f282880aca70cc646606d2282

看更多

0 0 1279 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學

本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例，教大家如何查找及清理資料集的重複資料，提升資料的品質。

Q: Pandas duplicated()查找重複資料

想要使用Pandas套件查找資料集的重複資料，利用duplicated()方法(Method)可以得到每筆資料的重複狀態，True代表重複，False為沒重複，如下範例：

import pandas as pd

df = pd.read_csv('bestsellers with categories.csv')

print(df.duplicated())

接著，透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

print(df[df.duplicated()])

Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外，也提供了以下兩個關鍵字參數，來客製化查找的方式：

1. subset-查找特定欄位的重複資料

2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料

如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df = df[df.duplicated(subset=column_names, keep=False)]

print(df)

以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料，並且全部保留。

Q: Pandas drop_duplicates()刪除重複資料

從資料集裡找到重複的資料後，接下來，最常見的就是進行刪除或群組處理。

而要刪除完全一樣的重複資料，可以利用Pandas套件的drop_duplicates()方法(Method)，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.drop_duplicates(inplace=True)

其中，inplace關鍵字參數代表直接從現有資料集中刪除重複資料。

另外，要刪除特定欄位重複的資料，同樣可以透過subset及keep關鍵字參數來達成，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df.drop_duplicates(subset=column_names, keep='first', inplace=True)

Q: Pandas groupby()、agg()群組重複資料

除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外，有時基於商業邏輯，可以透過群組的方式解決重複資料。

這時候，就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位，以及agg()方法(Method)，統計運算剩餘的不同資料欄位，達到合併重複資料成一筆的效果，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}

df = df.groupby(by=column_names).agg(summeries).reset_index()

print(df)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Pandas教學]3個實用的Pandas套件清理重複資料教學

3 0 2111 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精選課程

想提升職場競爭力？專業技能課程看起來👇

Power BI 資料清理與建模

檢查資料中的數據品質清理不符合需求的原始數據資料格式、列表、建模與更新處理技巧本課程專為希望精通資料處理與建模技術的工作人士所設計。隨著現代企業收集到的數據量不斷增加，如何有效地清理與建模成為一大挑戰。本課程將教導學員如何運用Power BI的強大功能，以直觀的介面和簡單的拖拉操作來快速完成繁瑣的數據清理工作。無論面對多麼龐大的原始資料，只需幾個按鍵，就能輕鬆實現自動化的清理與建模，省去傳統手動處理時的重複勞動。特別是當資料更新時，Power BI可自動同步清理與建模，讓你無需再像使用Excel那樣重新整理報表，節省寶貴時間。此外，學員將學會如何利用Power BI實時更新數據，確保企業在做決策時能夠依據最新、最準確的資訊做出迅速且有效的反應。無論是希望優化工作流程的資料分析師，還是致力於提升企業數據管理效能的決策者，這門課程都將提供實用且高效的解決方案。

104人資市集

Power BI 資料清理與建模

檢查資料中的數據品質清理不符合需求的原始數據資料格式、列表、建模與更新處理技巧本課程專為希望精通資料處理與建模技術的工作人士所設計。隨著現代企業收集到的數據量不斷增加，如何有效地清理與建模成為一大挑戰。本課程將教導學員如何運用Power BI的強大功能，以直觀的介面和簡單的拖拉操作來快速完成繁瑣的數據清理工作。無論面對多麼龐大的原始資料，只需幾個按鍵，就能輕鬆實現自動化的清理與建模，省去傳統手動處理時的重複勞動。特別是當資料更新時，Power BI可自動同步清理與建模，讓你無需再像使用Excel那樣重新整理報表，節省寶貴時間。此外，學員將學會如何利用Power BI實時更新數據，確保企業在做決策時能夠依據最新、最準確的資訊做出迅速且有效的反應。無論是希望優化工作流程的資料分析師，還是致力於提升企業數據管理效能的決策者，這門課程都將提供實用且高效的解決方案。

104人資市集

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)

想要實作資料分析，讀取資料是第一步所要執行的動作，而如果沒有正確的進行資料前處理(Data Preprocessing)，就會影響最後分析結果的準確性及可靠性。

本文就先針對「資料型態」，來和大家分享如何有效找出髒資料(Dirty Data)，並且利用Pandas套件來進行資料處理或清理，避免髒資料(Dirty Data)導致分析的副作用。

Q: Pandas類別資料型態(category)處理

在實作機器學習或分類資料的時候，有時會以數字來分別表示不同類別的資料。

同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例，為了進行示範，Mike將「Category筆電類別欄位」利用以下三個數字表示：

0-其他

1-Premium

2-Platinum

Pandas讀取資料集後，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df)

而各欄位的資料型態，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df.info())

可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態，當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候，就會看到數字型態的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df['Category'].describe())

但事實上，「Category筆電類別欄位」為類別資料型態(category)，如果沒有將欄位進行轉型，就有可能誤導後續的操作或統計。

解決方法，可以使用Pandas套件的astype()方法(Method)，將「Category筆電類別欄位」轉型為類別型態(category)，這時候，再透過describe()方法(Method)來查看摘要性統計的時候，就會是類別型態(category)的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Category'] = df['Category'].astype('category') #轉型

print(df['Category'].describe())

以上就是在進行資料分析的過程中，常見的資料型態問題，本文和大家分享了利用Pandas套件的info()方法(Method)，來查看各欄位的資料型態是否與需求相符，如果其中含有髒資料(Dirty Data)，可以使用strip()方法(Method)進行資料清理，以及透過astype()方法(Method)轉型為正確的資料型態。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html

)網站觀看更多精彩內容。