104學習精靈

資料整理

資料整理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 36 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 36 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料整理 學習推薦

全部
影片
文章

不知如何開始嗎? 先進行技能挑戰吧~

技能挑戰:初級
目前等級:未達初級
803 人已通過「初級」測驗,通過率53%,和學習精靈一起探索知識、增強能力!
我要挑戰
Lillian Huang

內容編輯

2022/09/01

Ragic 從零開始 10 分鐘教學 (8) 連結與載入
管理大量資料時,很多人常遇到的問題就是無法擺脫「複製貼上地獄」,同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份,萬一某個地方改動了,其他地方也得一一修改,不但讓工作變得累又乏味,也容易出錯。
Ragic 最基本的連結功能:「連結與載入」,就是協助大家逃離複製貼上地獄的利器!它能讓需要重複使用的資料(例如「客戶資料」、「商品資料」),利用連結與載入關係快速帶入(例如帶入「銷售訂單」),不只能節省資料登打時間、減少錯誤發生機會,也能讓資料建立有意義的關聯,方便查找與比對。
這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內,說明「連結與載入」的意義,以及示範怎麼一步一步在「銷售訂單」上,建立與「客戶」資料、「商品」資料的「連結與載入」關係。
更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道
0 0 390 0

熱門精選

104學習精靈

產品

06/26 13:22

【PPA開幕慶】活動期間首購單筆滿千以上送100元Line Points點數
活動期間:2024/7/9 11:00- 2024/8/5 23:59
活動說明:活動期間首次於104課程中心付費購買「PPA (PressPlay Academy) 上架課程」,單筆滿$1,000以上 ( 若有使用任何折扣碼優惠,結帳金額於扣除優惠後須超過$1,000以上,且不累計贈送。) 即可獲贈100元Line Points點數回饋。
活動注意事項:
1. 獲贈資格須符合下列說明:
(A) 首購意指:載本活動之前未曾在104課程中心購買「PPA (PressPlay Academy) 上架課程」,於活動期間首次完成消費購買「PPA (PressPlay Academy) 上架課程」。
(B) 購買者必須於104課程中心系統完成付費紀錄。( 特別提醒: 購買者於PPA (PressPlay Academy) 官網線上消費不包含在此次活動資格 )
(C) 訂單成立且完成付款時間皆須於2024年8月5日23:59前,並於7天內完成課程兌換,始符合獲贈點數回饋的資格;最後獲贈者將公告於本活動網站,中間姓名會隱藏。
(D) 單帳號僅有乙次贈送資格,符合上述資格者,因點數作業時間,您的回饋點數最晚將於2024/9/30前寄送至您購買時填寫的e-mail電子郵件信箱。
2. 本次贈送的100元Line Points點數,點數發送後請於規範時間內完成兌換,點數兌換後於180天內須使用完畢,逾期失效。
3. 104課程中心保有最終修改、變更、活動解釋及取消本活動之權利。
4. 104課程中心。購買課程相關Q&A:可參考下連結頁面的「購買課程」( https://nabi.104.com.tw/qna )
5. 如您有任何問題,歡迎來信nabiservice@104.com.tw
0 0 22043 3
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
成為數據分析師的第一把鑰匙:用Python實作三個資料分析專案
課程介紹 人力銀行徵才上,不只是資訊科技業,而是化工業、台灣大車隊、金融業、電信業、甚至是房仲業,各行各業都在搶數據分析師! 徵才月薪至少有四萬元以上,對於大學畢業生及工作一兩年想轉職的人,都是極佳的投入機會。 想要當數據分析師,不一定非要資工資管背景,跟著容噗老師學習,文科生也能轉職成為數據分析師! 有別於市面上的資料分析課程都是以程式教學為大宗,非工科生有點難以進入。 容噗老師以非工科生成功轉為數據分析師的經驗、第一線職場實戰角度出發,來設計這門課程,適合零基礎、初入門、想轉職作數據分析師的你! 學會本課,讓你徹底掌握數據分析師的必備技能,充分的模擬資料分析練習,學完還讓你帶走三個具有高度移植性的資料分析專案,提供程式碼下載,以利與職場接軌。 文科生不用怕,容噗老師會教導Python基本程式邏輯及技巧,懂了邏輯,運用網路免費程式資源將如魚得水! 為什麼需要這門課? 資料分析演算法眾多,到底哪些才是第一線在用的? 別多花時間學用不到的,學習最實用的數據分析實戰技巧! 分析思維與職場溝通不是看看網路文章就可以簡單學會的,一份資料的分析方向是需要透過自己清晰的思路,以及與各單位溝通結果來決定的。 看圖說分析的檢討報告時代已過,老闆們更想知道的是未來會發生甚麼事,Python的預測模組非常完善,本次課程會帶領學員正式接觸預測模型。 大數據時代下,資料量日與遽增,傳統Excel能處理的資料量有限,Python這種程式語言會是未來的趨勢。 以最短的時間輕鬆上手Python工具,邁入數據分析師的領域。 課程大綱 PART1: 數據分析師簡介 大數據及常見分析工具的介紹,R、Python、SQL、Excel優缺點 數據分析師的專業技能: 資料整理、資料分析、分析報告 數據分析師的職場定位&工作夥伴 學習資源介紹: Kaggle平台操作 & YouTube 頻道介紹 PART2: PYTHON基礎 Python – Anaconda安裝 Python – Spyder啟用 Python – 介面介紹 Python – 套件安裝 Python – Pandas、sklearn套件介紹 Python – 函式介紹與使用 PART3: PYTHON新手村: 巨量資料整理 資料整理 vs 資料清理 Pandas – data格式簡介&檔案讀取與輸出 Pandas – 行列整理、篩選 Pandas – 排序、移除重複、取代 Pandas – 格式轉換(character、date、float、int) Pandas – 合併、串接 Pandas – 字串取代、篩選、合併 Pandas – 樞紐 PART4: FACEBOOK用戶資料探索(EDA) - 模擬公司會員資料(CRM) 你將學習到本專案藉由Facebook資料來模擬職場真實的會員資料(CRM),透過一層層收斂的分析邏輯,準確提供需求方有用的資訊,例如男性會員與女性會員的價值差異,哪些客群應該投入更大的行銷資源,以換取更大的利益。 常用統計量的應用說明: 四分位、眾數、MSE、MAE、MAPE、R2、acc 資料探索(EDA) 資料清洗 – NA值處理 資料清洗 – 離群值處理 資料視覺化 資料探索結論 提供程式碼下載 PART5: IKEA 商品折扣預測 - 模擬公司商品銷售資料 你將學習到本專案藉由IKEA資料來模擬職場真實的商品銷售資料,透過一層層收斂的分析邏輯,預測哪些商品該給予折扣,哪些商品不用,以避免公司內折,換取更大的利益。 分析需求確認 | vs 行銷人員&主管&老闆 資料探勘 | vs 資料庫人員: 資料理解 資料探勘 | 隨機森林、XGBoosting、SVM演算法教學 特徵篩選 | R2教學 特徵壓縮 | PCA教學 隨機抽樣 | 28 & 37法則 模型調參 | 各演算法重要參數說明 模型診斷 | 損失函數說明 模型結果說明 提供程式碼下載 PART6: 特斯拉股價預測 - 模擬公司營收資料 你將學習到本專案藉由特斯拉資料來模擬職場真實的營收資料,透過一層層收斂的分析邏輯,預測未來的股票價格,讓高層了解公司未來走向,提早做好策略。 特斯拉股價預測 預測盲點補充 模型準確度不佳怎麼辦? 提供程式碼下載 300%解鎖: 模擬客服文字資料第1步 - GOOGLE評論資料清理 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,無論是公司內部或是網路輿情,文字資料無所不在,就讓容噗老師由文字資料清理,帶你進入自然語言處理(NLP)的領域吧。 安裝套件by終端機 文字資料介紹&整理 – jieba斷詞 文字資料清洗 – stopword 500%解鎖: 模擬客服文字資料第2步 - GOOGLE評論資料探索 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,快速理解民眾每天所討論的內容,節省人工閱讀的時間。 文字常用統計量 – TF-IDF 文字資料視覺化 文字資料探索結論 700%解鎖: 模擬客服文字資料第3步 - GOOGLE評論資料探勘 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,抓出風向者、關鍵主題,節省人工閱讀評論的時間。 文字資料探勘 – 風向者偵測 文字資料探勘 – 主題挖掘LDA演算法 1000%解鎖: GITHUB介紹 程式人用的GOOGLE CLOUD 如何用 GitHub 製作履歷,增加轉職成功率 教師介紹 容噗老師 學歷:東吳大學資料科學系碩士 專長:巨量資料分析、統計檢定、機器學習(預測建模)、跨部門溝通 經歷:上市櫃公司之數據分析師 教學經驗:YouTube千人訂閱教學頻道-- 容噗玩Data、R語言線上講師
Mastertalks
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
3 0 1009 0

推薦給你

知識貓星球

喵星人

6分鐘前

SearchGPT正式推出,挑戰 Google 搜尋霸主地位|怎麼用?要付費嗎?功能有哪些?
OpenAI的SearchGPT正式登場,這款專為搜尋設計的AI工具,有望挑戰Google的搜尋霸主地位。本篇文章將介紹如何使用SearchGPT、與Google的比較,以及其獨特功能,幫助你了解如何利用SearchGPT提升搜尋效率,解決搜尋過程中的痛點。
▍SearchGPT如何使用?
SearchGPT的介面設計簡潔直觀,使用者只需在搜尋框中輸入問題,SearchGPT會快速提供相關且即時的答案。與傳統搜尋引擎不同,SearchGPT直接給出精簡的回答,並附上資料來源,讓使用者不需逐一查看繁多的搜尋結果。以下是具體步驟:
● 進入SearchGPT頁面:打開SearchGPT的官方網站或應用程式。
● 輸入問題:在搜尋框中輸入你想了解的問題或關鍵詞。
● 查看答案:SearchGPT會立即生成一段簡短的回答,並附上相關資料來源。
● 延伸閱讀:如需更多資訊,可以點擊回答中的資料來源,查看詳細內容。
● 追問問題:根據回答內容,你可以繼續提出後續問題,SearchGPT會進一步提供解答。
▍SearchGPT的功能與優勢
SearchGPT具有多項獨特功能和優勢,使其在搜尋市場中脫穎而出:
● 即時精準回答:SearchGPT能即時提供清晰且具關聯性的答案,避免了瀏覽大量搜尋結果的麻煩。
● 資料整合:SearchGPT會根據多個來源的資訊,整合出最有用的回答,並提供延伸閱讀。
● 透明資料來源:每個回答都會附上資料來源,使用者可以輕鬆點擊查看詳情,確保資訊的可靠性。
● 乾淨的搜尋介面:與Google充滿廣告的搜尋結果不同,SearchGPT的回應頁面乾淨,專注於提供資訊而非營利。
● 高互動性:使用者可以根據SearchGPT的回答,提出後續問題,實現與AI的自然對話。
▍SearchGPT vs. Google
雖然Google已經在搜尋市場佔據主導地位,但SearchGPT的出現為用戶提供了一個新的選擇。以下是兩者的主要區別:
● 回應方式:Google搜尋會列出相關網頁,而SearchGPT則直接提供答案並附上來源。
● 廣告數量:Google搜尋結果中廣告數量眾多,影響使用者體驗;SearchGPT則專注於提供純淨的回答。
● 資料來源:SearchGPT強調資料來源透明,讓使用者可以追溯資訊的真實性。
▍SearchGPT是否付費?
目前,SearchGPT提供免費和付費兩種版本:
● 免費版本:使用者可以免費使用基本功能,進行日常搜尋。
● 付費版本:針對需要進階功能或大量使用的使用者,OpenAI提供付費訂閱服務,包含更高的使用限制、優先客服支援和更多高級功能。
SearchGPT的推出,標誌著搜尋技術的一次重大革新。相比於傳統的Google搜尋,SearchGPT不僅提供更清晰、即時的答案,還消除了廣告干擾,提升了整體搜尋體驗。無論是對於企業、內容創作者,還是一般用戶,SearchGPT都提供了一個強大的搜尋工具,值得一試。期待未來SearchGPT能夠整合進ChatGPT,為使用者帶來更便捷的搜尋體驗。
➤ 歡迎在104學習精靈關注【AI趨勢報-科技愛好者的產地】獲得更多科技新知!
0 0 0 0
你可能感興趣的教室