104學習

PYTHON資料分析

AI 專區學習課程

證照測驗共學新知

PYTHON資料分析

關注

邀請朋友

邀請朋友

Line

Facebook

複製連結

取消

這項技能代表能運用Python程式語言，快速處理、清理並分析大量數據，從中找出趨勢與洞察，幫助企業做出更精準的決策。具備此能力的人，能熟悉Pandas、NumPy等工具套件，並能繪製視覺化圖表，讓複雜資料一目了然。對於需要數據驅動的產業，如金融、行銷、製造等，具備此技能的人才需求穩定且薪資具競爭力。整體來說，這是提升職場競爭力與跨領域應用能力的重要技能。

關於教室

關注人數 3 人

104人力銀行從職缺中挑選出常見技能所成立的官方教室，提供大家進行共學互動。

學習主持人

持續分享知識，
有機會成為官方教室主持人

教室標籤

PYTHON資料分析

Hi~ 歡迎分享學習資源，有學習問題可匿名向Giver發問！

我要分享

我要提問

PYTHON資料分析學習推薦

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學

本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例，教大家如何查找及清理資料集的重複資料，提升資料的品質。

Q: Pandas duplicated()查找重複資料

想要使用Pandas套件查找資料集的重複資料，利用duplicated()方法(Method)可以得到每筆資料的重複狀態，True代表重複，False為沒重複，如下範例：

import pandas as pd

df = pd.read_csv('bestsellers with categories.csv')

print(df.duplicated())

接著，透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

print(df[df.duplicated()])

Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外，也提供了以下兩個關鍵字參數，來客製化查找的方式：

1. subset-查找特定欄位的重複資料

2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料

如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df = df[df.duplicated(subset=column_names, keep=False)]

print(df)

以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料，並且全部保留。

Q: Pandas drop_duplicates()刪除重複資料

從資料集裡找到重複的資料後，接下來，最常見的就是進行刪除或群組處理。

而要刪除完全一樣的重複資料，可以利用Pandas套件的drop_duplicates()方法(Method)，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.drop_duplicates(inplace=True)

其中，inplace關鍵字參數代表直接從現有資料集中刪除重複資料。

另外，要刪除特定欄位重複的資料，同樣可以透過subset及keep關鍵字參數來達成，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df.drop_duplicates(subset=column_names, keep='first', inplace=True)

Q: Pandas groupby()、agg()群組重複資料

除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外，有時基於商業邏輯，可以透過群組的方式解決重複資料。

這時候，就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位，以及agg()方法(Method)，統計運算剩餘的不同資料欄位，達到合併重複資料成一筆的效果，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}

df = df.groupby(by=column_names).agg(summeries).reset_index()

print(df)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html

)網站觀看更多精彩內容。

看更多

3個實用的Pandas套件清理重複資料教學

learncodewithmike.com

[Pandas教學]3個實用的Pandas套件清理重複資料教學

3 0 2111 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

收藏

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)

想要實作資料分析，讀取資料是第一步所要執行的動作，而如果沒有正確的進行資料前處理(Data Preprocessing)，就會影響最後分析結果的準確性及可靠性。

本文就先針對「資料型態」，來和大家分享如何有效找出髒資料(Dirty Data)，並且利用Pandas套件來進行資料處理或清理，避免髒資料(Dirty Data)導致分析的副作用。

Q: Pandas類別資料型態(category)處理

在實作機器學習或分類資料的時候，有時會以數字來分別表示不同類別的資料。

同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例，為了進行示範，Mike將「Category筆電類別欄位」利用以下三個數字表示：

0-其他

1-Premium

2-Platinum

Pandas讀取資料集後，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df)

而各欄位的資料型態，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df.info())

可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態，當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候，就會看到數字型態的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df['Category'].describe())

但事實上，「Category筆電類別欄位」為類別資料型態(category)，如果沒有將欄位進行轉型，就有可能誤導後續的操作或統計。

解決方法，可以使用Pandas套件的astype()方法(Method)，將「Category筆電類別欄位」轉型為類別型態(category)，這時候，再透過describe()方法(Method)來查看摘要性統計的時候，就會是類別型態(category)的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Category'] = df['Category'].astype('category') #轉型

print(df['Category'].describe())

以上就是在進行資料分析的過程中，常見的資料型態問題，本文和大家分享了利用Pandas套件的info()方法(Method)，來查看各欄位的資料型態是否與需求相符，如果其中含有髒資料(Dirty Data)，可以使用strip()方法(Method)進行資料清理，以及透過astype()方法(Method)轉型為正確的資料型態。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html

)網站觀看更多精彩內容。

看更多

教你用Pandas套件清理資料中的常見資料型態問題(下)

learncodewithmike.com

[Pandas教學]教你用Pandas套件清理資料中的常見資料型態問題

2 0 842 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

收藏

104學習精選課程

看更多課程

想提升職場競爭力？專業技能課程看起來👇

NVIDIA DLI官方課程 - 擴散模型的生成式AI應用｜7/25(六), 8/01(六) 2天假日線上直播課

本課程為 NVIDIA 深度學習學院認證課程，由國際大廠自駕工程師、輝達官方認證專家－Alex老師親自授課。課程強調應用導向與實作體驗，帶領學員掌握圖像生成的擴散模型原理，並透過NVIDIA提供的模擬環境進行開發。

IT國際認證學院

【確認開班】7/4(六) 上午場【NVIDIA 官方 AI 課程 - 實戰體驗日】－打造進階生成式 AI 工具

這堂《透過NVIDIA開發工具打造進階生成式AI應用》獨家實體共學班，就是你通往頂尖AI技術殿堂的快捷方式，課程為限量40人的實體小班，將由NVIDIA官方認證講師余執彰教授，在2小時內，透過「現場授課＋助教輔導」的沉浸式學習，帶你直搗核心。課程將聚焦於場景實戰，以「數位醫療」為例，引導你親手運用生成式AI NIM 與 NVIDIA AI Blueprints 等官方工具，建構強大的AI系統。你將不再只是紙上談兵，而是在專家的即時指導下，完成從概念到實作的完整流程。由104學習與TibaMe合作，這不只是一堂課，更是一個讓你與專家面對面交流、與同儕切磋成長的機會。讓你用最高效的方式，掃除學習障礙，無縫接軌國際。

IT國際認證學院

【確認開班】7/4(六) 下午場【NVIDIA 官方 AI 課程 - 實戰體驗日】－實現大規模去中心化AI

你是否期待考取NVIDIA DLI官方認證，卻因技術高深、缺乏實戰場景而猶豫不前？面對聯邦學習（Federated Learning）、NVIDIA Flare等前沿技術，渴望學習卻苦無中文的實戰資源？或想在有限時間內，與專家面對面交流，高效解決開發過程中的卡關點？這堂《透過NVIDIA Flare實現大規模去中心化AI》實體共學班，就是你高效突破的絕佳機會。課程為限量40人的實體小班，將由NVIDIA官方認證講師陳仁政，以「現場授課＋助教輔導」的沉浸式學習模式，在2小時內帶你直搗核心。課程將聚焦於場景實戰，引導你親手使用NVIDIA Flare模擬器開發聯邦學習應用程式，部署一個具備安全配置的多站點學習系統。你將不再只是紙上談兵，而是在專家與助教的即時指導下，完成從概念到實作的完整流程。

IT國際認證學院

超越基礎：用10個高效指令成為Python進階用戶

課程清單： 00-課程介紹與大綱 01-python初學者與進階使用者的區別 02-10個關鍵python指令函式模塊介紹 03-第1招：print 函數 04-第2招：list 數據結構 05-第3招：if-elif-else 條件語句 06-第4招：for 和 while 迴圈 07-第5招：dict 字典 08-第6招：def 自定義函數 09-第7招：lambda 匿名函數 10-第8招：import 模塊和包 11-第9招：try-except 錯誤處理 12-第10招：pandas 數據處理 13-回顧與小結

龍耀智能企業社

從零開始 Python × Ollama 實戰教學：打造企業本地LLM應用程式

在 AI 工具快速演進的時代，你是否也想掌握本地部署大語言模型（LLM）的技術，並應用在企業內部的資料處理與自動化工作流上？本課程將帶你從零開始，逐步學會如何使用 Python、Ollama 與多種開源模型（如 DeepSeek、Llama3、Devstral、SmolAgents 等）開發本地 AI 聊天應用程式，實作企業級知識庫、文件助手、語音轉錄與多工具 AI 代理人等應用，讓你打造真正落地的企業級生成式 AI 解決方案。課程單元列表：一、本地模型快速入門：Ollama應用實作篇 01.初探本地LLM：安裝Ollama並打造首個聊天機器人 02.文字轉語音應用：建構具語音輸出的AI助手 03.視覺理解AI：使用LLaVA模型打造會看圖的聊天機器人二、強化知識應用：RAG×LLM×Rerank打造企業知識庫 04.零幻覺查詢系統：LLM+最新RAG技術打造本地知識庫 05.精準提升生成品質：結合RAG+Rerank技巧優化回應結果三、企業實戰應用：模擬真實場景，加速AI落地 06.企業文件助理：建構PDFChatbot（結合Llama3與RAG） 07.文件通吃：支援txt、docx、pptx的多格式聊天機器人 08.音檔AI加速器：1小時語音檔，2分鐘快速轉文字 09.圖像識別神器：圖片轉文字自動化處理實作 10.MistralOCR中文發票實戰：PDF與圖片一次搞懂 11.Devstral開發助手教學：本地部署程式碼AI助手實作 12.DeepSeek R1 本地建置實戰：高效能 × 零爭搶 × 企業級資安四、打造企業級生成式AI平台：OpenWebUI × Ollama 13.一鍵搭建聊天平台：完整呈現DeepSeekR1推理介面 14.極速服務接軌：免費使用DeepSeekR1distillLLaMA70B 15.自帶知識庫的模型：OpenWebUI+RAG建立企業級語言應用五、進階應用開發：內容理解×數據分析×系統整合 16.Firecrawl網頁數據抓取×Llama3.3應用實作 17.自然語言問資料庫：Llama3.3Text2SQL實戰 18.新聞分析神器：輿情摘要、分類與情緒偵測應用開發 19.建立整合式AI平台：FlaskDashboardKit實戰教學六、建立AI Agent 工具和代理的應用程式 20.SmolAgents 快速入門｜5 行程式碼打造你的第一個 AI 代理人！教學與實作一次搞定 21.SmolAgents Text2SQL 教學｜從自然語言到 SQL 查詢的應用實作解析 22.Google ADK 教學入門｜快速完成第一個本地 LLM 呼叫（支援 Ollama 模型） 23.用 Google ADK 打造多工具 AI Agent｜整合天氣 + 時間查詢功能與錯誤迴圈排除技巧 24.Google ADK × MCP Server 教學｜接入本地檔案清單存取與官方案例實測問題總整理

龍耀智能企業社

Cursor AI全端開發所：Python 網站系統獨立製作全攻略

本課程從系統需求分析出發，帶領學員透過案例掌握需求確認與功能規劃，並結合 Cursor 工具實作與 Python 程式操作，快速理解從需求到開發的完整流程。課程兼顧理論與實務，循序漸進，協助學員建立現代軟體開發的基礎能力。

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(上)

Q: Pandas數字資料型態處理

在讀取資料集時，Pandas套件都會自動判定欄位的資料型態，這時候，當其中的資料含有髒資料(Dirty Data)，就會發生誤判的情況，導致後續分析或計算的錯誤。

這邊以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例，讀取後如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df)

接下來，使用Pandas套件的info()方法(Method)，來查看各欄位的資料型態，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df.info())

其中，會發現本來應該為數字型態的「Warranty保固期欄位」，Pandas套件判定為object型態，以字串型態進行處理，所以，如果將「Warranty保固期欄位」進行加總，就會得到如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df['Warrenty'].sum())

會導致Pandas套件誤判，就是因為「Warranty保固期欄位」中，包含了數字以外的髒資料(Dirty Data)，造成Pandas套件無法以數字型態進行加總。

而資料清理的方法，就是利用Pandas套件的strip()清除前後字串方法(Method)，移除Y字串，再透過astype()方法(Method)將欄位轉型為int(整數)，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Warrenty_Trim'] = df['Warrenty'].str.strip('Y') #移除Y字串

df['Warrenty_Year'] = df['Warrenty_Trim'].astype('int') #轉型為int整數

接下來，可以利用assert陳述式來驗證欄位型態，如果沒有錯誤訊息，代表驗證的條件成立，反之，則會顯示錯誤訊息，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Warrenty_Trim'] = df['Warrenty'].str.strip('Y') #移除Y字串

df['Warrenty_Year'] = df['Warrenty_Trim'].astype('int') #轉型為int整數

assert df['Warrenty_Year'].dtype == 'int'

這時候，將「Warranty保固期欄位」進行加總，就會得到正確的計算結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Warrenty_Trim'] = df['Warrenty'].str.strip('Y') #新建欄位移除Y字串

df['Warrenty_Year'] = df['Warrenty_Trim'].astype('int') #新建欄位將去除字串的欄位轉型為int整數

assert df['Warrenty_Year'].dtype == 'int' #驗證欄位資料型態

print(df['Warrenty_Year'].sum()) #執行結果99

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html

)網站觀看更多精彩內容。

看更多

教你用Pandas套件清理資料中的常見資料型態問題(上)

learncodewithmike.com

[Pandas教學]教你用Pandas套件清理資料中的常見資料型態問題

2 0 465 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

收藏

你可能感興趣的教室