104學習精靈

資料整理

資料整理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 41 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 41 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料整理 學習推薦

全部
影片
文章

不知如何開始嗎? 先進行技能挑戰吧~

技能挑戰:初級
目前等級:未達初級
837 人已通過「初級」測驗,通過率53%,和學習精靈一起探索知識、增強能力!
我要挑戰
Lillian Huang

內容編輯

2022/09/01

Ragic 從零開始 10 分鐘教學 (8) 連結與載入
管理大量資料時,很多人常遇到的問題就是無法擺脫「複製貼上地獄」,同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份,萬一某個地方改動了,其他地方也得一一修改,不但讓工作變得累又乏味,也容易出錯。
Ragic 最基本的連結功能:「連結與載入」,就是協助大家逃離複製貼上地獄的利器!它能讓需要重複使用的資料(例如「客戶資料」、「商品資料」),利用連結與載入關係快速帶入(例如帶入「銷售訂單」),不只能節省資料登打時間、減少錯誤發生機會,也能讓資料建立有意義的關聯,方便查找與比對。
這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內,說明「連結與載入」的意義,以及示範怎麼一步一步在「銷售訂單」上,建立與「客戶」資料、「商品」資料的「連結與載入」關係。
更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道
0 0 425 0

熱門精選

104學習精靈

產品

09/23 14:58

政府補助↘免費18週↘非工程師背景也能轉職AI工程師 。線上說明會
【免費報名說明會 】 非工程師背景18週也能轉職AI工程師。線上說明會
你是否曾應徵AI工程師,卻沒有收到任何面試邀約?
你是否想轉換跑道當AI工程師,但又不知道該如何開始?
緯育TibaMe 現正舉辦【轉職AI領域工程師。課程說明會】
透過「AI智慧應用開發實戰養成班」18週培訓課程,
從基礎 → 進階,從進階 → 完成專題作品,協助您成功轉職!
本週課程為實體課程,只要你符合政府補助標準,
即可享有100%補助,還可以每個月拿到學習獎勵金
【 產業新尖兵計畫通過 】政府補助最高學費10萬元:
◆ 年滿15歲至29歲之本國籍青年通過審核扣除自負額一萬元之外課程全額免費
◆ 培訓期間勞發屬發給每月最高8千元生活津貼
◆ 培訓期間享勞 (訓) 保
這堂課程適合怎樣的學員?
◆ 想要入門AI大數據領域的人
◆ 剛畢業或退伍還在迷惘的人
◆ 有相關經驗但專業不足的人
【非工程背景,你也迷惘?是否要轉職AI工程師嗎?】
透過500小時,18週的培訓,完成專題作品,透過企業與104就業媒合!協助你成功轉職吧!!
趕緊來報名 10/1、10/8 說明會|https://user266414.pse.is/6gf7cf
4 0 14822 3
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
3 0 1102 0

推薦給你

知識貓星球

喵星人

1小時前

用Notion公式自動化知識管理:自動計算複習進度、即時追蹤學習狀況
Notion知識管理成為提升學習與工作效率的關鍵工具。手動追蹤複習進度不僅耗時,還容易遺漏重要信息。這篇文章將介紹如何使用 Notion 的公式功能,內容涵蓋建立資料庫、設定日期欄位、運用公式計算日期差距,並美化結果展示,幫助你更直觀地查看複習狀態。無需複雜程式知識,幾個簡單步驟,輕鬆提升學習管理效率。
口訣:「自動追蹤,進度掌控,公式計算進度不落空!」
☑️ 使用公式追蹤複習進度
建立資料庫
在 Notion 中,新增一個包含兩個欄位的資料庫:
🔥最後編輯時間(日期類型)
🔥複習進度(公式類型)
設定最後編輯時間
手動或自動更新「最後編輯時間」欄位,記錄每次複習的時間。
新增複習進度公式
在「複習進度」欄位,使用以下公式計算天數差:
dateBetween(now(), prop("最後編輯時間"), "days")
美化結果展示
為了讓結果更直觀,使用進階公式美化顯示效果:
if(dateBetween(now(), prop("最後編輯時間"), "days") > 0, "距上次複習 " + format(dateBetween(now(), prop("最後編輯時間"), "days")) + " 天", "今天已複習!")
此公式根據複習天數顯示不同訊息,當天已複習會提示「今天已複習!」,否則顯示距上次複習的天數。
☑️ 結語
使用 Notion 的自動化公式,能輕鬆掌控複習進度,讓你專注於學習的核心。簡單幾步,即可建立高效追蹤系統,確保複習計畫不脫節。開始使用這些工具,享受更高效的學習體驗!
2 0 48 1
你可能感興趣的教室