104學習

資料清理

資料清理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「資料清理:負責對公司內部及外部數據進行清理與整理,確保數據的準確性和完整性,以支援決策分析及報告生成。主要職責包括檢查數據錯誤、移除冗余資訊及標準化數據格式,提升數據質量。此角色需具備細心且系統化的思維,熟練使用數據處理工具(如Excel、SQL),理解數據庫架構。具優秀的跨部門溝通能力,以便與IT部門及數據分析團隊協作,克服資料整合中的挑戰,並創造適合台灣市場需求的數據解決方案。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料清理 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
看更多
3 0 2001 0

104學習精選課程

想提升職場競爭力?專業技能課程看起來👇
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
看更多
2 0 777 0

推薦給你

104學習

產品

11/03 17:17

你也是晨型學習族嗎?104學習揭密最強學習時段竟是每日清晨6-8點
104學習數據顯示,65%職場人選擇「邊工作邊學習」,其中最熱門時段在清晨6-8點開始自我投資,這個時段不僅精神最好、干擾最少,更能為一整天帶來正向的動力。面對AI浪潮衝擊,30-34歲及40-44歲成為AI學習主力年齡層。比太陽更早起的人們,正用清晨時光悄悄拉開職場競爭力差距,你還在睡夢中嗎?
▶️職場人都在偷偷學什麼課程?
🔥Top1 數據分析師|入門實戰 ⬇️現折$888只到11/11https://nabi.104.com.tw/course/104nabi/700f35aa-e227-4a12-b673-3b5931342c02
🔥Top2 iPAS AI應用規劃師衝刺班 ⬇️現折$888只到11/11
🔥Top3 PM產品經理|入門致勝攻略 ⬇️現折$888只到11/11
🔥Top4 用AI+Google Sheet建立自動化工具,提升工作效率 ⬇️現折$888只到11/11
🔥Top5 GA4 x Looker studio跨資料源整合&動態報表實戰 ⬇️現折$555只到11/11
🔥Top6 設計師接案必修課 ⬇️現折$555只到11/11
🔥Top7 開啟你的綠領職涯 - ESG 永續行業求職準備全解析 ⬇️現折$555只到11/11
🔥Top8 頂尖獵才教你談薪水 ⬇️現折$555只到11/11
🔥Top9 AI行政管理力實戰課|高效會議記錄 × 精準SOP × 掌握AI工具
🔥Top10 【履歷一投就中】ChatGPT打造HR最想錄取的履歷 ⬇️現折$555只到11/11
👉職場人都在偷偷關注什麼證照?
🟢Top1生成式AI課程認證
目標是讓學習者掌握生成式AI的基礎概念、實際應用及工具操作能力。內容包括大型語言模型(LLM)、生成式AI如何提升工作效率,以及Google Cloud的相關技術應用。
🟢Top2 公共工程品質管理人員 ↗️面試邀約提升:約 3倍
凡參與公共工程,需擔任品管人員(如施工、監造、管理等工程從業人員),都必須參加由工程會或其委託訓練機構舉辦的公共工程品質管理訓練課程,並取得結業證書。
🟢Top3 丙級會計事務技術士 ↗️面試邀約提升:1.4倍
▶️【點我免費做模擬測驗】
中小企業與事務所普遍需求的財會基礎證照,內容包含帳務處理、報表編製與基本稅務實務。適合準備從事會計助理、出納、財務行政等工作的求職者。根據2023年(民國112年)勞動部資料,該證照通過率為52.6%。
🟢Top4 TOEIC (多益測驗)
▶️【點我免費做模擬測驗】https://nabi.104.com.tw/assess/toeic/
多益成績已成為企業判斷求職者英語能力的標準,特別是外商公司。建議考取750分以上,若能獲得金色證書(860分以上),更能在職場競爭中脫穎而出。尤其對有志於外商企業、跨國集團或海外派駐的人才而言,TOEIC成績更是履歷的重要加分項。
🟢Top5 丙級中餐(葷食)烹調技術士
• 適用職務:廚師、餐飲人員 ↗️面試邀約提升:99%
Q:丙級中餐(葷食)烹調技術士證照通過率如何?
A:通過率大約79%至80%,只要熟悉考試題庫要求並掌握基本烹調技巧,通過機會高。
🟢Top6 乙級職業安全衛生管理員
• 適用職務:環境安全衛生類人員 ↗️面試邀約提升:近4倍
Q:證照專業度如何?
A:取得此證照證明持有人具備評估職場安全風險、規劃安全措施及事故預防的專業能力,考試內容包含眾多專業知識與技能,證照在職場上的認可度和價值均較高,尤其適合想專注於職業安全衛生管理領域的人士參考。
▶️【點我免費做線上模擬測驗】
🟢Top7 總幹事證照 事務管理人員
• 適用職務:社區總幹事、大樓管理員 ↗️面試邀約提升:1.3倍
Q:誰需要考總幹事證照?
A:凡欲從事社區公寓大廈管理的總幹事工作者,必須取得此證照,依據《公寓大廈管理條例》規定,通過中央主管機關舉辦的事務管理人員講習並考試合格,才能合法擔任總幹事,負責社區組織運作、公共安全及財務管理等工作。
🟢Top8 工地主任
營造業法定必備的高階管理證照,專業度極高且考試具相當挑戰性,為營建工程領域的核心資格認證,薪資待遇優渥證照資訊
🟢Top9 乙級就業服務技術士
人資領域的唯一一張國家級證照,每年考照日期為三次,無論是人力銀行、人力仲介公司的從業人員,還是企業人資部門的招募專員,擁有就業服務乙級證照都能為職涯發展帶來更多機會與保障。
報考資格:具備高中職以上學歷或同等學歷證明。
🟢Top10 照顧服務員單一(丙)級技術士
長照領域的基礎專業認證,門檻友善、考試彈性,是投入照護產業的理想起點。
看更多
0 0 404 0
你可能感興趣的教室