104學習精靈

資料清理

資料清理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「資料清理:負責對公司內部及外部數據進行清理與整理,確保數據的準確性和完整性,以支援決策分析及報告生成。主要職責包括檢查數據錯誤、移除冗余資訊及標準化數據格式,提升數據質量。此角色需具備細心且系統化的思維,熟練使用數據處理工具(如Excel、SQL),理解數據庫架構。具優秀的跨部門溝通能力,以便與IT部門及數據分析團隊協作,克服資料整合中的挑戰,並創造適合台灣市場需求的數據解決方案。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料清理 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
3 0 1621 0

熱門精選

104學習精靈

產品

03/25 12:16

【免費報名】零經驗↘只要18週學成全端技術↘您也可以轉職全端工程師|線上開課說明會
想轉換跑道當全端工程師,但又不知道如何開始?
坊間這麼多培訓班,怎麼能跟業界銜接?
緯育TibaMe x 104學習精靈 現正舉辦【跨領域(微軟c#)全端工程師。課程說明會】
透過18週學成全端技術培訓課程:基礎 → 實作→結訓立即面試媒合,超過 30+ 企業預約徵才,協助您成功轉職!
【微軟智慧應用C#全端開發工程師養成班】 5/7 預定開班 (開班時間若有異動說明會說明)
【班級滿額就無法再招生,趕緊報名搶席次吧!】
--------------------------------
【報名場次】
🔴 3/29 (六) 13:00~14:00 | 報名到3/28 (五) 18:00
🔴 4/12 (六) 13:00~14:00 | 報名到4/11 (五) 18:00
🔴 4/15 (二) 20:00~21:00 | 報名到4/14 (一) 18:00
前往報名:
0 0 2375 1
104學習精靈精選課程
想提升職場競爭力?專業技能課程看起來👇
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
2 0 736 0

推薦給你

104學習精靈

產品

03/24 16:49

從開發到AI:軟體工程職務最常關注的八大證照
在軟體工程領域,擁有專業證照能提升技術實力與職場競爭力。與其他職務相比,軟體工程師對AI相關證照的關注度更高,顯示人工智慧技術在業界的重要性。無論是開發、網路安全、專案管理,各種證照都有助於職業發展。以下是軟體工程類人員最常瀏覽的八大證照,幫助求職者選擇適合的認證。
第一名🟢人工智慧:機器學習 Python
這項證照專為希望掌握人工智慧與機器學習技術的工程師設計,涵蓋Python程式設計、資料分析、模型訓練等關鍵技術。擁有此證照可幫助求職者進入AI領域。
第二名🟢TOEIC (多益測驗)
✍️線上模擬試題測驗: https://nabi.104.com.tw/assess/toeic
作為全球廣泛認可的英語能力測試,TOEIC證照在科技產業中極具價值。許多跨國科技公司要求工程師具備良好的英文溝通能力,以便參與國際專案、閱讀技術文件,甚至與國外客戶或團隊合作。
第三名🟢CCNA
CCNA證照是思科(Cisco)提供的網路技術認證,涵蓋網路基礎、路由與交換、網路安全等內容。對於希望進入網路工程領域的軟體工程師來說,這是一項極具價值的證照,可幫助建立穩固的網路技術基礎。
第四名🟢 AI-900 AI 人工智慧基礎認證
AI-900是微軟提供的人工智慧基礎認證,適合初學者與有志於AI應用開發的工程師。內容涵蓋機器學習、電腦視覺、自然語言處理(NLP)等概念,適合作為進階AI技術的起點。
第五名🟢 Google Analytics (分析) 個人認證資格
Google Analytics證照是數據分析與網路行銷領域的重要資格,對於開發數據驅動應用程式的工程師來說至關重要。透過此認證,工程師能夠學習如何有效解讀網站數據優化產品。
第六名🟢ISO 27001 資訊安全管理系統主導稽核員
ISO 27001證照主要關注資訊安全管理,適合希望在企業內部負責資安政策與風險管理的工程師。此證照能夠幫助企業確保資訊系統的安全性,特別適用於從事資安、雲端服務與企業IT管理的專業人士。
第七名🟢SCJP (現為OCPJP)
SCJP(現為OCPJP)是Oracle提供的Java專業認證,專為有一定Java開發經驗的工程師設計,適合希望提升程式設計能力並在Java開發領域深入發展的專業人士。
第八名🟢國際專案管理師 PMP
PMP(Project Management Professional)是全球最具公信力的專案管理認證,此證照涵蓋專案規劃、風險管理、資源分配等重要技能,能夠提升技術主管與專案負責人的職場競爭力。
0 0 1076 0
你可能感興趣的教室