104學習精靈

資料整理

資料整理
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 31 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 31 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料整理 學習推薦

全部
影片
文章

不知如何開始嗎? 先進行技能挑戰吧~

技能挑戰:初級
目前等級:未達初級
741 人已通過「初級」測驗,通過率53%,和學習精靈一起探索知識、增強能力!
我要挑戰
Lillian Huang

內容編輯

2022/09/01

Ragic 從零開始 10 分鐘教學 (8) 連結與載入
管理大量資料時,很多人常遇到的問題就是無法擺脫「複製貼上地獄」,同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份,萬一某個地方改動了,其他地方也得一一修改,不但讓工作變得累又乏味,也容易出錯。
Ragic 最基本的連結功能:「連結與載入」,就是協助大家逃離複製貼上地獄的利器!它能讓需要重複使用的資料(例如「客戶資料」、「商品資料」),利用連結與載入關係快速帶入(例如帶入「銷售訂單」),不只能節省資料登打時間、減少錯誤發生機會,也能讓資料建立有意義的關聯,方便查找與比對。
這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內,說明「連結與載入」的意義,以及示範怎麼一步一步在「銷售訂單」上,建立與「客戶」資料、「商品」資料的「連結與載入」關係。
更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道
0 0 335 0

熱門精選

陳立婕

產品行銷專案經理

04/18 12:31

🔥104人力銀行「2024職涯博覽會」開始報名啦📢
一年就這一次!應屆預備找工作搶先報名 👉 https://tw104.pse.is/5u86r4
微軟、緯穎、德州儀器、遊戲橘子、東京威力科創、KPMG、IKEA、星巴克、宜得利、迪卡儂等,上百家頂尖知名企業現場徵才🤩
📍 6/15(六) 資訊科技、顧問金融業
企業名單看這邊➡️ https://tw104.pse.is/5u834l
📍 6/16(日) 電子製造業、零售服務業
企業名單看這邊➡️ https://tw104.pse.is/5u83bn
連續兩日,優質企業將在現場釋出數千個工作機會💼
另有中高階獵才、職涯諮詢、趨勢論壇、夜fun職場等系列活動,
主題精采多元,除部分講座收費,其餘活動皆 免費!免費!免費!
心動不如立即搶先報名👉 https://tw104.pse.is/5u86r4
1 2 3711 0
104學習精靈精選課程
看更多課程
想提升職場競爭力?專業技能課程看起來👇
成為數據分析師的第一把鑰匙:用Python實作三個資料分析專案
課程介紹 人力銀行徵才上,不只是資訊科技業,而是化工業、台灣大車隊、金融業、電信業、甚至是房仲業,各行各業都在搶數據分析師! 徵才月薪至少有四萬元以上,對於大學畢業生及工作一兩年想轉職的人,都是極佳的投入機會。 想要當數據分析師,不一定非要資工資管背景,跟著容噗老師學習,文科生也能轉職成為數據分析師! 有別於市面上的資料分析課程都是以程式教學為大宗,非工科生有點難以進入。 容噗老師以非工科生成功轉為數據分析師的經驗、第一線職場實戰角度出發,來設計這門課程,適合零基礎、初入門、想轉職作數據分析師的你! 學會本課,讓你徹底掌握數據分析師的必備技能,充分的模擬資料分析練習,學完還讓你帶走三個具有高度移植性的資料分析專案,提供程式碼下載,以利與職場接軌。 文科生不用怕,容噗老師會教導Python基本程式邏輯及技巧,懂了邏輯,運用網路免費程式資源將如魚得水! 為什麼需要這門課? 資料分析演算法眾多,到底哪些才是第一線在用的? 別多花時間學用不到的,學習最實用的數據分析實戰技巧! 分析思維與職場溝通不是看看網路文章就可以簡單學會的,一份資料的分析方向是需要透過自己清晰的思路,以及與各單位溝通結果來決定的。 看圖說分析的檢討報告時代已過,老闆們更想知道的是未來會發生甚麼事,Python的預測模組非常完善,本次課程會帶領學員正式接觸預測模型。 大數據時代下,資料量日與遽增,傳統Excel能處理的資料量有限,Python這種程式語言會是未來的趨勢。 以最短的時間輕鬆上手Python工具,邁入數據分析師的領域。 課程大綱 PART1: 數據分析師簡介 大數據及常見分析工具的介紹,R、Python、SQL、Excel優缺點 數據分析師的專業技能: 資料整理、資料分析、分析報告 數據分析師的職場定位&工作夥伴 學習資源介紹: Kaggle平台操作 & YouTube 頻道介紹 PART2: PYTHON基礎 Python – Anaconda安裝 Python – Spyder啟用 Python – 介面介紹 Python – 套件安裝 Python – Pandas、sklearn套件介紹 Python – 函式介紹與使用 PART3: PYTHON新手村: 巨量資料整理 資料整理 vs 資料清理 Pandas – data格式簡介&檔案讀取與輸出 Pandas – 行列整理、篩選 Pandas – 排序、移除重複、取代 Pandas – 格式轉換(character、date、float、int) Pandas – 合併、串接 Pandas – 字串取代、篩選、合併 Pandas – 樞紐 PART4: FACEBOOK用戶資料探索(EDA) - 模擬公司會員資料(CRM) 你將學習到本專案藉由Facebook資料來模擬職場真實的會員資料(CRM),透過一層層收斂的分析邏輯,準確提供需求方有用的資訊,例如男性會員與女性會員的價值差異,哪些客群應該投入更大的行銷資源,以換取更大的利益。 常用統計量的應用說明: 四分位、眾數、MSE、MAE、MAPE、R2、acc 資料探索(EDA) 資料清洗 – NA值處理 資料清洗 – 離群值處理 資料視覺化 資料探索結論 提供程式碼下載 PART5: IKEA 商品折扣預測 - 模擬公司商品銷售資料 你將學習到本專案藉由IKEA資料來模擬職場真實的商品銷售資料,透過一層層收斂的分析邏輯,預測哪些商品該給予折扣,哪些商品不用,以避免公司內折,換取更大的利益。 分析需求確認 | vs 行銷人員&主管&老闆 資料探勘 | vs 資料庫人員: 資料理解 資料探勘 | 隨機森林、XGBoosting、SVM演算法教學 特徵篩選 | R2教學 特徵壓縮 | PCA教學 隨機抽樣 | 28 & 37法則 模型調參 | 各演算法重要參數說明 模型診斷 | 損失函數說明 模型結果說明 提供程式碼下載 PART6: 特斯拉股價預測 - 模擬公司營收資料 你將學習到本專案藉由特斯拉資料來模擬職場真實的營收資料,透過一層層收斂的分析邏輯,預測未來的股票價格,讓高層了解公司未來走向,提早做好策略。 特斯拉股價預測 預測盲點補充 模型準確度不佳怎麼辦? 提供程式碼下載 300%解鎖: 模擬客服文字資料第1步 - GOOGLE評論資料清理 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,無論是公司內部或是網路輿情,文字資料無所不在,就讓容噗老師由文字資料清理,帶你進入自然語言處理(NLP)的領域吧。 安裝套件by終端機 文字資料介紹&整理 – jieba斷詞 文字資料清洗 – stopword 500%解鎖: 模擬客服文字資料第2步 - GOOGLE評論資料探索 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,快速理解民眾每天所討論的內容,節省人工閱讀的時間。 文字常用統計量 – TF-IDF 文字資料視覺化 文字資料探索結論 700%解鎖: 模擬客服文字資料第3步 - GOOGLE評論資料探勘 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,抓出風向者、關鍵主題,節省人工閱讀評論的時間。 文字資料探勘 – 風向者偵測 文字資料探勘 – 主題挖掘LDA演算法 1000%解鎖: GITHUB介紹 程式人用的GOOGLE CLOUD 如何用 GitHub 製作履歷,增加轉職成功率 教師介紹 容噗老師 學歷:東吳大學資料科學系碩士 專長:巨量資料分析、統計檢定、機器學習(預測建模)、跨部門溝通 經歷:上市櫃公司之數據分析師 教學經驗:YouTube千人訂閱教學頻道-- 容噗玩Data、R語言線上講師
Mastertalks
成為數據分析師的第一把鑰匙:用Python實作三個資料分析專案
課程介紹 人力銀行徵才上,不只是資訊科技業,而是化工業、台灣大車隊、金融業、電信業、甚至是房仲業,各行各業都在搶數據分析師! 徵才月薪至少有四萬元以上,對於大學畢業生及工作一兩年想轉職的人,都是極佳的投入機會。 想要當數據分析師,不一定非要資工資管背景,跟著容噗老師學習,文科生也能轉職成為數據分析師! 有別於市面上的資料分析課程都是以程式教學為大宗,非工科生有點難以進入。 容噗老師以非工科生成功轉為數據分析師的經驗、第一線職場實戰角度出發,來設計這門課程,適合零基礎、初入門、想轉職作數據分析師的你! 學會本課,讓你徹底掌握數據分析師的必備技能,充分的模擬資料分析練習,學完還讓你帶走三個具有高度移植性的資料分析專案,提供程式碼下載,以利與職場接軌。 文科生不用怕,容噗老師會教導Python基本程式邏輯及技巧,懂了邏輯,運用網路免費程式資源將如魚得水! 為什麼需要這門課? 資料分析演算法眾多,到底哪些才是第一線在用的? 別多花時間學用不到的,學習最實用的數據分析實戰技巧! 分析思維與職場溝通不是看看網路文章就可以簡單學會的,一份資料的分析方向是需要透過自己清晰的思路,以及與各單位溝通結果來決定的。 看圖說分析的檢討報告時代已過,老闆們更想知道的是未來會發生甚麼事,Python的預測模組非常完善,本次課程會帶領學員正式接觸預測模型。 大數據時代下,資料量日與遽增,傳統Excel能處理的資料量有限,Python這種程式語言會是未來的趨勢。 以最短的時間輕鬆上手Python工具,邁入數據分析師的領域。 課程大綱 PART1: 數據分析師簡介 大數據及常見分析工具的介紹,R、Python、SQL、Excel優缺點 數據分析師的專業技能: 資料整理、資料分析、分析報告 數據分析師的職場定位&工作夥伴 學習資源介紹: Kaggle平台操作 & YouTube 頻道介紹 PART2: PYTHON基礎 Python – Anaconda安裝 Python – Spyder啟用 Python – 介面介紹 Python – 套件安裝 Python – Pandas、sklearn套件介紹 Python – 函式介紹與使用 PART3: PYTHON新手村: 巨量資料整理 資料整理 vs 資料清理 Pandas – data格式簡介&檔案讀取與輸出 Pandas – 行列整理、篩選 Pandas – 排序、移除重複、取代 Pandas – 格式轉換(character、date、float、int) Pandas – 合併、串接 Pandas – 字串取代、篩選、合併 Pandas – 樞紐 PART4: FACEBOOK用戶資料探索(EDA) - 模擬公司會員資料(CRM) 你將學習到本專案藉由Facebook資料來模擬職場真實的會員資料(CRM),透過一層層收斂的分析邏輯,準確提供需求方有用的資訊,例如男性會員與女性會員的價值差異,哪些客群應該投入更大的行銷資源,以換取更大的利益。 常用統計量的應用說明: 四分位、眾數、MSE、MAE、MAPE、R2、acc 資料探索(EDA) 資料清洗 – NA值處理 資料清洗 – 離群值處理 資料視覺化 資料探索結論 提供程式碼下載 PART5: IKEA 商品折扣預測 - 模擬公司商品銷售資料 你將學習到本專案藉由IKEA資料來模擬職場真實的商品銷售資料,透過一層層收斂的分析邏輯,預測哪些商品該給予折扣,哪些商品不用,以避免公司內折,換取更大的利益。 分析需求確認 | vs 行銷人員&主管&老闆 資料探勘 | vs 資料庫人員: 資料理解 資料探勘 | 隨機森林、XGBoosting、SVM演算法教學 特徵篩選 | R2教學 特徵壓縮 | PCA教學 隨機抽樣 | 28 & 37法則 模型調參 | 各演算法重要參數說明 模型診斷 | 損失函數說明 模型結果說明 提供程式碼下載 PART6: 特斯拉股價預測 - 模擬公司營收資料 你將學習到本專案藉由特斯拉資料來模擬職場真實的營收資料,透過一層層收斂的分析邏輯,預測未來的股票價格,讓高層了解公司未來走向,提早做好策略。 特斯拉股價預測 預測盲點補充 模型準確度不佳怎麼辦? 提供程式碼下載 300%解鎖: 模擬客服文字資料第1步 - GOOGLE評論資料清理 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,無論是公司內部或是網路輿情,文字資料無所不在,就讓容噗老師由文字資料清理,帶你進入自然語言處理(NLP)的領域吧。 安裝套件by終端機 文字資料介紹&整理 – jieba斷詞 文字資料清洗 – stopword 500%解鎖: 模擬客服文字資料第2步 - GOOGLE評論資料探索 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,快速理解民眾每天所討論的內容,節省人工閱讀的時間。 文字常用統計量 – TF-IDF 文字資料視覺化 文字資料探索結論 700%解鎖: 模擬客服文字資料第3步 - GOOGLE評論資料探勘 專案說明:本專案藉由Google評論資料來模擬職場真實的客服文字資料,透過一層層收斂的分析邏輯,抓出風向者、關鍵主題,節省人工閱讀評論的時間。 文字資料探勘 – 風向者偵測 文字資料探勘 – 主題挖掘LDA演算法 1000%解鎖: GITHUB介紹 程式人用的GOOGLE CLOUD 如何用 GitHub 製作履歷,增加轉職成功率 教師介紹 容噗老師 學歷:東吳大學資料科學系碩士 專長:巨量資料分析、統計檢定、機器學習(預測建模)、跨部門溝通 經歷:上市櫃公司之數據分析師 教學經驗:YouTube千人訂閱教學頻道-- 容噗玩Data、R語言線上講師
Mastertalks
用Python操作Excel|實現職場自動化與理財工具開發
課程介紹 Excel是各行各業必備的工具,時常有各種資料要整理,要從網路上擷取資料,不斷的複製貼上,整理格式,統計各種表格內容,不知不覺中時間就這麼過去了,發現很多時候,自己的時間並不是在有價值的分析上,而是重複性的操作上,一整天下來,感覺很累,眼睛很酸,肩膀很硬,想到明天還有資料要整理,整個心情就好不起來。 其實只要作業流程確定,這些重複繁瑣的操作,都可以使用Python操作Excel來自動完成! 這堂課將會學習使用Python讓所有操作的步驟自動化,將能夠減省大量的時間和繁複無趣的重複性操作。 課程主要分 7 個章節,在第一個章節,你將會學習 Python 的 xlwings 套件基礎,透過程式開啟或建立檔案、彈性單筆到多筆資料的讀取與寫入、公式的應用到工作表的操作。 有了操作基礎後,自第二章節將實作更進階的應用與操作,透過程式抓取網路開放資訊,做資料的清理。並整理至 Excel,再設定格式與凸顯資料,最後透過 Pandas 做資料的統計。 資料視覺化在資料分析中是很重要的一個環節,在第三章節將學習使用程式來建立 Excel 原生圖表,和學習整合 Plotly 和 Matplotlib 這兩款強大視覺化套件至 Excel,最後實作一鍵自動完成統整資料的案例。 獨家內容 加入就送 7 大類別,共 39 個 Python 程式範例 檔案路徑資料解析 列出所有資料夾內指定檔案類型的檔案 批次修改多個檔案名稱(可含子資料夾) 一次搜尋多個特定檔案(自動走訪檔案) list資料讀寫 Dictionary資料讀寫 Numpy資料讀寫 Series資料讀寫 建立、複製與刪除工作表 複製工作表至另一個活頁簿 複製工作表標籤顏色 隱藏與顯示工作表 保護與取消工作表 設定指定的列高與欄寬 工作表中新增與刪除列與欄 將單欄資料拆成多欄資料 將多欄資料合併成單欄資料 凍結工作表窗格 設定字型、大小、粗體、斜體、底線和顏色 設定數字格式 設定儲存格框線樣式 設定儲存格對齊方式 設定合併儲存格 公式與函數的使用 Excel原生折線圖&3D折線圖 Excel原生長條圖&3D長條圖 Excel原生圓餅圖&3D圓餅圖 Matplotlib折線圖 Matplotlib長條圖 Matplotlib長條堆積圖 Matplotlib圓餅圖 Matplotlib散佈圖 Plotly泡泡圖 Plotly雷達圖 建立樞紐分析表 Excel 轉成 PDF 檔 Excel 工作表列印 課程特色 課程教學使用 Jupyter Notebook,說明每一行程式是如何運行的 課程中所使用到的軟體和爬蟲所抓下來的資料均是免費來源,不需要額外付費才能進行課程 課程包含豐富的實戰教學,各實戰中都可以從中學習到不同的技巧和技術 課程後台有專屬討論區,和全體同學一同線上學習,學習過程中有問題,都可以直接提出 彈性的學習時間與地點,只需要一台電腦就可以在任何地方無時間限制的重複觀看與練習 適合對象 想讓繁複作業自動化的人 想增加資料分析工作效率的人 想學習Python結合Excel做統計分析的人 想節省時間,讓大量重複性行政作業自動處理的人 想用Python自動整理金融資訊的價值投資人 上完課程後,你能夠學會 Python搭配xlwings模組,自動輕鬆操作Excel 學習網路爬蟲與Excel整合,自動化抓取資料、清理資料、整合資料、統計資料、產生圖表並整理至Excel 使用Python做Excel密碼保護 整合Matplotlib與Poltly視覺化圖表至Excel 學習整合網路公開資源抓取,並於Excel中產生統計圖表 用Python製作FIRE財務自由計畫Excel試算表 用Python製作美股價值投資工具 講師介紹 Kadin Chung 鍾榮達 目前在公司負責系統分析與程式設計,同時也在做線上課程講師。 碩士畢業之後在外商系統整合服務公司上班多年,到自己設立軟體公司,第一個合作售出的系統是一套網路管理系統,可以幫助客戶配置,維護和測試數千台思科網路設備。 除此之外,Kadin在大型項目方面經驗豐富,例如馬拉松線上報名系統,車行租賃管理系統等。 在Kadin創業的過程中不斷地促使自己學習新的技能,並且知道什麼是「學習新技能」最有效的方法,他樂於分享一切所學的知識和實務經驗,也因為這份樂情,帶領 Kadin 來到 MasterTalks ,他將會透過高品質且有效率的方式分享他所學的一切技術和知識! 課程大綱 第一章 利用Python輕鬆操作Excel 講座 1 Anaconda 開發環境安裝與架設 講座 2 使用Python操作Excel基礎 (開啟Excel、單筆資料讀寫、儲存格名稱設定和公式應用等) 講座 3 多筆資料讀寫操作 講座 4 操作 Excel 工作表 (新增刪除工作表,一次複製12月份工作表並自動命名) 第二章 網路公開資訊擷取與 Excel 整合應用 講座 1 Converter 的應用 (字典與DataFrame資料型態的Excel讀寫) 講座 2 使用Python抓取網路公開資訊 (空氣品質指標為例,包含資料清理與寫入Excel) 講座 3 使用Python自動化操作設定格式與凸顯資料 (字體、位置、格式和邊框等設定,依分類設定儲存格顏色) 講座 4 自動化資料統計應用 (統計各縣市空氣品質指標為例) 第三章 運用Python自動操作Excel資料視覺化圖表 講座 1 Excel 原生圖表資料視覺化 (製作折線圖、長條圖為例,套件有提供74種圖表可自行設定) 講座 2 Plotly 資料視覺化 (製作折線圖為例,官方網站有提供各種圖表範例) 講座 3 Matplotlib 資料視覺化 (製作折線圖、圓餅圖為例,官方網站有提供各種圖表範例) 講座 4 Python 資料視覺化實戰案例 (以第二章節空氣品質指標統計為例) 講座 5 一鍵自動化統整資料至Excel【從數據下載、資料清理、統計數據、凸顯資料到製作圖表】 第四章 Python X Excel 專案實戰 1 (FIRE 財務自由計畫試算表) 講座 1 專案開發實戰介紹 講座 2 使用Python自動計算試算表 講座 3 自動操作設定凸顯資料(點我試看) 講座 4 自動產生資料視覺化圖表 講座 5 一鍵自動化試算FIRE財富自由計畫 第五章 Python X Excel 專案實戰 2 ( 美股投資工具 ) 講座 1 專案開發實戰介紹 講座 2 Python網路爬蟲與Excel整合實作 講座 3 多頁爬蟲與Excel整合實作 講座 4 一鍵自動化整理價值投資清單 第六章 Python X Excel 專案實戰 3 ( 辦公室自動化工具 ) 講座 1 專案開發實戰介紹 講座 2 統整多份訂單資料(讀取多份Excel訂單資料,統整至單一清單,含 CSV 文件處理) 講座 3 各客戶銷售統計(產生統計表資訊與圓餅圖,大客戶一目了然) (點我試看) 講座 4 各產品類別銷售統計(產生統計表資訊與堆積長條圖, 找出明星商品) 講座 5 每月營收統計 - (產生統計表資訊與折線圖, 一張圖看每月營收狀況) 講座 6 使用Python做Excel密碼保護 第七章 補充章節 講座1:驗證儲存格資料 講座2:設定條件式格式設定 Python 程式基礎 程式開發環境建立 認識變數和資料型態 流程控制 常用的容器型態 函式、模組和套件 檔案的讀取與寫入 例外處理 try-except 類別與物件 Python 爬蟲程式 認識網路爬蟲 網路爬蟲相關技術 認識 HTML 認識 Chrome 開發人員工具 BeautifulSoup 教學 1|實作案例:Yahoo 股市爬蟲 BeautifulSoup 教學 2|實作案例:Google 股市爬蟲 Selenium 教學 1|實作案例:告牌匯率爬蟲 Selenium 教學 2|實作案例:匯率走勢爬蟲 上課前準備 一台能夠上網的電腦或筆電(Windows或Mac) 電腦需要有Microsoft Excel軟體 課程會說明如何安裝Anaconda與Python和所需的套件,皆是免費 xlwings套件,支援.xlsx/.xls/.xlsm/.xlsb格式
Mastertalks
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
3 0 835 0

推薦給你

知識貓星球

喵星人

2小時前

五招分析品牌競爭對手!
分析品牌競爭對手對於企業的重要性不言而喻,通過分析競爭對手,企業可以更好地了解市場上的主要定位,有助於企業確定自己的定位和差異化策略,同時也可以了解市場上的最新趨勢、消費者需求以及競爭對手的優勢和不足,以下介紹五個可以研究競爭對手的方法:
1. 不要只會用google了!
我們在調查競爭者時第一部確實是從簡單的Google搜索開始,或是到競爭對手的網站,但也有各種工具可能會給你帶來有趣的競爭對手洞察,介紹以下三個網站
可以研究競爭對手正在購買的關鍵字和AdWords。
了解行業最新動態、將自己的公司與其他公司進行比較,以及查看人們現在關注的是什麼
可以設定你想要接收的關鍵字、自己公司名稱,Google會在你設定的時間發送所有相關的最新新聞、報導、論壇等資訊給你,確保你能跟上產業動態
2. 利用社交網路/社群媒體
越來越多品牌會經營Facebook、LinkedIn和X等社交平台作為行銷的管道,你可以透過關注這些網站,找到有關競爭對手(甚至是你自己的公司)的有趣訊息,甚至可以了解大眾公眾對我們競爭對手的情緒和看法,也可以得知對手正在舉辦什麼活動、有什麼促銷訊息;你可以開啟競爭對手的社群媒體通知,即能掌握他們最新的動態。
3. 問你的客戶
在確定有關競爭對手的訊息來源時,不要忘記最重要且最真實的聲音,如你的客戶。每當你贏得一個新客戶時,找出他們以前使用過的品牌,以及他們為什麼選擇離開轉向你的原因;反之,當你失去一個客戶時,也要找出他們喜歡你的競爭對手的原因,如此我們將可以清楚地了解競爭對手提供了什麼樣的服務,進而調整自己的產品或服務,以勝過競爭對手。
4. 參加研討會/展覽
參加產業的展覽和研討會,以及加入行業協會是了解競爭對手是誰以及他們提供什麼的好方法;可以以在會場或展場觀察競爭對手的攤位,看看他們與客戶的互動、舉辦了哪些活動、拿他們的宣傳資料。
5. 觀察他們在招聘誰
研究競爭對手正在尋找的工作類型,也可以發現一些東西,例如,如果一家公司正在招聘一名程式工程師,他們將包括有關應徵者需要了解哪些技術的訊息,這告訴你他們在使用什麼;還要看競爭對手正在招聘的職位——如果他們正在尋找專利律師,他們可能正在從事一些重大的新發明;如果他們正在招聘幾個人力資源,他們可能準備全面擴展。
0 0 26 0
你可能感興趣的教室