104學習

資料整理

AI 專區學習課程

證照測驗共學新知

資料整理

關注

邀請朋友

Line

Facebook

複製連結

取消

將零散的資訊系統化，提升查找與分析效率。能幫助團隊快速掌握重點，避免重複作業與錯誤，確保決策依據準確可靠。此技能不僅節省時間，也促進跨部門溝通順暢，是職場中提升工作品質與效率的關鍵能力。

關於教室

關注人數 58 人

104人力銀行從職缺中挑選出常見技能所成立的官方教室，提供大家進行共學互動。

學習主持人

持續分享知識，
有機會成為官方教室主持人

教室標籤

資料整理

Hi~ 歡迎分享學習資源，有學習問題可匿名向Giver發問！

我要分享

我要提問

資料整理學習推薦

賈伯斯加個n：職涯/稽核/財會審計/履歷

關注

Steven Wu

稽核｜104Giver職涯引導師第3202410019號

2025/11/13

[KNIME][稽核]Expression節點於資料整理、稽核領域應用

為何要用Expressions節點？

Expression單一節點就可同時新增或覆寫多欄、條件運算、正則清洗、型別轉換與錯誤處理，可以取代許多個String、Math、Rule等類似節點，讓流程更精簡、可維護性更高。

常見資料整理使用方式

1. 條件分類與標記

- 依規則產生新的分類欄（例如：風險等級、費用類別、稽核旗標）

- 以此範例資料為例：將薪資、伙食費、免稅加班費、獎金提撥、員工紅利提撥、獎金支出、年終獎金、勞保費、健保費、團保費、退休金、職工福利等費用科目標示為用人費用，以利後續分析。

閱讀全文：https://stevenwublog.notion.site/KNIME-Expression-2a8f7f8f282880aca70cc646606d2282

看更多

0 0 1279 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Lillian Huang

內容編輯

2022/09/01

Ragic 從零開始 10 分鐘教學 (8) 連結與載入

管理大量資料時，很多人常遇到的問題就是無法擺脫「複製貼上地獄」，同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份，萬一某個地方改動了，其他地方也得一一修改，不但讓工作變得累又乏味，也容易出錯。

Ragic 最基本的連結功能：「連結與載入」，就是協助大家逃離複製貼上地獄的利器！它能讓需要重複使用的資料（例如「客戶資料」、「商品資料」），利用連結與載入關係快速帶入（例如帶入「銷售訂單」），不只能節省資料登打時間、減少錯誤發生機會，也能讓資料建立有意義的關聯，方便查找與比對。

這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內，說明「連結與載入」的意義，以及示範怎麼一步一步在「銷售訂單」上，建立與「客戶」資料、「商品」資料的「連結與載入」關係。

更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道

https://youtu.be/yq_HI76WhrU

看更多

0 0 852 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

104學習精選課程

看更多課程

想提升職場競爭力？專業技能課程看起來👇

【職場人必備的GenAI入門課】 GAI提高效率和生產力

「整天馬拉松會議心好累，還要加班做會議紀錄...」學會運用 Gen AI 工具，處理那些枯燥且耗時的重複性工作，把你寶貴的時間投注在創意和策略性的任務！十分鐘跟著 TibaMe 學習用「GAI 提高效率和生產力」！

緯育TibaMe

【職場人必備的GenAI入門課】 GAI資料分析與洞察力

趨勢圖表超吸睛！但我連報告數據都看不完... 創意枯竭、靈感不來！檔案空白一個字都寫不出來... 學會運用Gen AI工具，快速將繁雜資料數據視覺化，不靠靈感，創意也能結構化展開！十分鐘跟著 TibaMe 學習「 GAI資料分析與洞察力」！

緯育TibaMe

【職場人必備的GenAI入門課】精準GAI指令，提升職場競爭力

「現在大家都在用AI，我是不是會被淘汰！」「什麼是生成式AI？LLM大語言模型又是什麼？」如果這些也是你的問題，如果你想學 AI 卻不知怎麼開始，跟著TibaMe 十分鐘學習「精準GAI指令，提升職場競爭力」！

緯育TibaMe

Oracle APEX 入門實戰！

Oracle APEX入門教學-就算零基礎只要兩天就能學會做出屬於自己的資料庫應用頁面。想要更有效率的製作共同報表？財務同仁想要更快速的產出財報？學完這門課同事加班你下班！

緯育TibaMe

R語言/R-Studio入門─統計分析、資料探勘與機器學習的原理與實戰演練

R語言是開源的統計程式語言，常用於開發統計、資料分析軟體系統，課程中我們將從R/R-Studio入門，從統計分析、資料探勘與機器學習的原理與技巧，讓學員有能力進行相關的資料分析技術與資料視覺化整合應用。本門課適合想瞭解R語言，作為進入大數據分析基礎，或進行量化研究、進階資料視覺化。

緯育TibaMe

自動化 AI 報名系統｜從名單篩選到通知寄發一鍵搞定

【AI 百用百科】從情境到解法，用AI幫你搞定職場大小事，這門課程聚焦於自動化工作流，教你如何利用 n8n 串接 Google Forms 與 AI 工具，實現「表單提交、資料彙整、自動通知」的全自動化。透過這套 AI 解決方案解放雙手，將原本繁瑣任務縮短，大幅提升職場競爭力。

緯育TibaMe

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學

本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例，教大家如何查找及清理資料集的重複資料，提升資料的品質。

Q: Pandas duplicated()查找重複資料

想要使用Pandas套件查找資料集的重複資料，利用duplicated()方法(Method)可以得到每筆資料的重複狀態，True代表重複，False為沒重複，如下範例：

import pandas as pd

df = pd.read_csv('bestsellers with categories.csv')

print(df.duplicated())

接著，透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

print(df[df.duplicated()])

Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外，也提供了以下兩個關鍵字參數，來客製化查找的方式：

1. subset-查找特定欄位的重複資料

2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料

如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df = df[df.duplicated(subset=column_names, keep=False)]

print(df)

以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料，並且全部保留。

Q: Pandas drop_duplicates()刪除重複資料

從資料集裡找到重複的資料後，接下來，最常見的就是進行刪除或群組處理。

而要刪除完全一樣的重複資料，可以利用Pandas套件的drop_duplicates()方法(Method)，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.drop_duplicates(inplace=True)

其中，inplace關鍵字參數代表直接從現有資料集中刪除重複資料。

另外，要刪除特定欄位重複的資料，同樣可以透過subset及keep關鍵字參數來達成，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df.drop_duplicates(subset=column_names, keep='first', inplace=True)

Q: Pandas groupby()、agg()群組重複資料

除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外，有時基於商業邏輯，可以透過群組的方式解決重複資料。

這時候，就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位，以及agg()方法(Method)，統計運算剩餘的不同資料欄位，達到合併重複資料成一筆的效果，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}

df = df.groupby(by=column_names).agg(summeries).reset_index()

print(df)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Pandas教學]3個實用的Pandas套件清理重複資料教學

3 0 2111 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

你可能感興趣的教室

104學習

資料整理

資料整理 學習推薦

104學習精選課程

資料整理學習推薦