104學習

Pandas

Pandas
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「Pandas:Pandas角色主要負責數據分析及處理,透過運用Python的Pandas庫進行數據清洗、轉換及統計分析,協助企業制定精確的經營策略與市場趨勢預測。此角色需具備強大的數據處理能力、邏輯思考及跨部門協作能力,並需擁有良好的溝通技巧以有效地與技術團隊及管理層協調。面對台灣快速變化的商業環境,Pandas角色需靈活應對數據多樣性與業務需求,必須熟悉台灣特有市場動態及文化背景,以確保數據分析的有效性與精準性。」
關於教室
關注人數 10 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 10 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

Pandas 學習推薦

碁峰資訊GOTOP

小編

2023/09/02

Python資料分析 第三版
使用pandas、NumPy和Jupyter進行資料整理
「Wes更新了這本新版本的內容,確保它是學習Python和pandas資料分析知識的首選資源。再多的言語都無法形容我是多麼推薦這本書。」
—Paul Barry
講師及O’Reilly《深入淺出Python》作者
這本權威的手冊將教你如何在Python中操作、處理、清理、整理資料組。第三版配合Python 3.10和pandas 1.4進行更新,用豐富的案例研究教你如何有效地解決廣泛的資料分析問題。在過程中,你將學會最新版的pandas、NumPy和Jupyter。
作者Wes McKinney是Python pandas專案的創始人,在這本書中,以實用和現代化的方式介紹Python資料科學工具組,本書非常適合剛接觸Python的分析師,以及剛接觸資料科學和科學計算的Python程式設計師。本書在GitHub提供資料檔案與相關素材。
‧使用IPython shell和Jupyter Notebook進行探索性計算
‧學習NumPy基礎和進階功能
‧認識pandas程式庫的資料分析工具
‧使用靈活的工具進行載入、清理、轉換、合併與重塑資料
‧用matplotlib製作資訊豐富的視覺化圖表
‧運用pandas的groupBy工具對資料進行切割與彙總
‧分析與處理正規和非正規的時間序列資料
‧透過詳盡的範例學習如何解決真正的資料分析問題
看更多
0 0 171 0
一零四線上嚴選

小編

2022/09/17

[Python 玩數據] Python + Excel --
如果您是一個幫公司收集、處理數據的工程師,
不知道您是否覺得寫爬蟲、建資料庫,可能都比處理資料數據來的輕鬆?
處理資料,其實不至於太艱難,但重點在於大量資料與數據處理,
超耗時間、又需要具備細心與耐心去處理。
究竟有沒有方法,是可以自動化處理、又可以整合不同工具進行數據統計與分析?
答案是:有的。小編找到了這一門課程,專治前述症頭。
這門課程主要強調 「Python 及 Excel」兩項工具的整合應用;
且透過程式串接,可以做到「自動化」處理。
因此,這門課程首先要認識 python 及 Excel 可以做哪些事情? 先將工具扮演的角色定義清楚;接下來,再學習兩者整合再一起,可以做到那些事情?
了解兩者關係與目的後,就可以開始學習兩者之間溝同橋梁:語法、資料庫與資料結構。
我們將學習用 Python的資料庫Pandas處理Excel匯入的資料,並且能夠針對欄位資料進行運算、比對、統計處理;又例如:Python的資料庫xlsxwriter可以處理Excel儲存格資料、openpyxl則可以處理儲存格格式。透過語法可以自動修飾、控制儲存格格式。
而反過來,使用python的 request及bs4,則可以控制想要爬取、擷取的資料,並儲存到Excel欄位中;並且能夠達成自動化、定時資料紀錄與更新。最後,當資料完成處理,需要產出視覺化資料時,則可以加入matplotlib畫出精緻的資料圖示,透過程式控制,就可以自動產出精緻的資料視覺化圖示。
推薦課程網址:
祝您 工作順利、學習愉快
104學習精靈小編 陪您每日學習成長1%
看更多
1 0 1237 3
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
看更多
3 0 2071 0
你可能感興趣的教室