104學習精靈

PYTHON資料分析

PYTHON資料分析
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 3 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 3 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

PYTHON資料分析 學習推薦

全部
影片
文章

不知如何開始嗎? 先進行技能挑戰吧~

技能挑戰:初級
目前等級:未達初級
0 人已通過「初級」測驗,通過率0%,和學習精靈一起探索知識、增強能力!
我要挑戰
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
3 0 825 0

熱門精選

104學習精靈

產品

03/29 09:49

新鮮人求職趨勢關鍵 x LINE 校園實習及證照
▶ 新手出社會,就業市場關鍵趨勢,你一定要知道!
我們將會講解2024新鮮人,就業市場現況
分享LINE實習計畫,體驗外商文化的你,千萬別錯過
#104就業數據 #LINE實習機會 #新鮮人起薪 #熱門證照 #趨勢產業
▶ 講座將帶你了解
⭐104人力銀行
✔ 企業愛的搶手人才Top3關鍵能力
✔ 新鮮人起薪中位數,別談低了!
✔ 職場學習No.1熱門關鍵字,你跟上了嗎?
✔ 有證照面試邀約,竟然高出..%
✔ 求職市場的關鍵數據,哪個產業最缺人?
⭐LINE
✔ 你不知道的LINE數據
✔ LINE校園招募、實習計畫介紹
✔ 成為 “LINER” 的福利
✔ 行銷人都要有一張!LINE 廣告證照 GREEN MEDAL 認證
1 1 32866 3
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
學習精靈

06/12 00:00

12 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
2 0 273 0
學習精靈

06/14 00:00

12 0

推薦給你

緯育TibaMe

12分鐘前

【高效工作必備】掌握生成式 AI 提問技巧,效率 Level
下班前突然被交辦工作事項也是你的痛嗎 ? 不論是收到資料要整理、客戶急要企劃案,或是貼文排了一定要發布 !
讓生成式 AI 工具成為你打造工作高效能的好助手 💪 你想得到的應用情境,TibaMe 全都有教
學員 Annie 分享「老師用淺顯易懂的方式指導。實際操作後提問力確實大幅上升,省下了許多時間。」
精選 4 堂工作必備的生成式 AI 實用好課,結合職場常見情境,不只教你應用,更教你與 AI 工具對話的關鍵提問技巧 💬
【ChatGPT x Excel 職場必學商務數據分析術 】
📊 活用 ChatGPT 和 Excel 工具,快速整理雜亂數據,自動獲取資料,有效篩選重要資訊 > https://bit.ly/3Qtf6hN
【 7 大工作應用 x 3大提問技巧 | 召喚 ChatGPT 成為職場神隊友 】
💻 跟著電腦玩物站長 Esor 老師,透過實用的案例和技巧,讓 ChatGPT 幫你完成繁瑣的工作 > https://bit.ly/4aSocvW
【AI 高效能生成簡報術 | 12 種 AI 簡報工具 X 詠唱咒語全攻略 】
📂 不需要任何編程或技術背景,帶你用 1 小時快速上手 AI 工具,產出客製化簡報 > https://bit.ly/3Q7iwqa
【掌握高效行銷秘訣 | 如何用 4 大 AI 工具打造內容王國 】
💫 結合 ChatGPT、Notion AI、Canva、剪映等 AI 工具,創造高品質內容,一人行銷公司不是夢 > https://bit.ly/43Zgkqt
還有更多生成式 AI 入門好課等你來學 👉 https://bit.ly/3W3nLem
4/30 前結帳輸入「AICZ79」就享 79 折優惠 !
#生成式AI #GAI #ChatGPT #Excel #NotionAI
0 0 0 0
你可能感興趣的教室