104學習精靈

104人力銀行 / 戰國策傳播集團_戰國策國際顧問股份有限公司 / 長期專案工讀生 / 符合度分析
長期專案工讀生 戰國策傳播集團_戰國策國際顧問股份有限公司
我要應徵
符合度
?
履歷符合度: 履歷:
登入計算
適合度
?
性格適合度: 性格:
登入計算

學歷

未具備

大學

經歷

不拘
希望您擁有
行銷助理
有已符合的經歷忘了填寫嗎?記得定期 更新履歷

學習推薦

不知如何開始學習嗎? 先進行技能挑戰吧~
我要挑戰
Lillian Huang

內容編輯

2022/09/01

Ragic 從零開始 10 分鐘教學 (8) 連結與載入
管理大量資料時,很多人常遇到的問題就是無法擺脫「複製貼上地獄」,同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份,萬一某個地方改動了,其他地方也得一一修改,不但讓工作變得累又乏味,也容易出錯。
Ragic 最基本的連結功能:「連結與載入」,就是協助大家逃離複製貼上地獄的利器!它能讓需要重複使用的資料(例如「客戶資料」、「商品資料」),利用連結與載入關係快速帶入(例如帶入「銷售訂單」),不只能節省資料登打時間、減少錯誤發生機會,也能讓資料建立有意義的關聯,方便查找與比對。
這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內,說明「連結與載入」的意義,以及示範怎麼一步一步在「銷售訂單」上,建立與「客戶」資料、「商品」資料的「連結與載入」關係。
更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道
看更多
0 0 740 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學
本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。
Q: Pandas duplicated()查找重複資料
想要使用Pandas套件查找資料集的重複資料,利用duplicated()方法(Method)可以得到每筆資料的重複狀態,True代表重複,False為沒重複,如下範例:
import pandas as pd
df = pd.read_csv('bestsellers with categories.csv')
print(df.duplicated())
接著,透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
print(df[df.duplicated()])
Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外,也提供了以下兩個關鍵字參數,來客製化查找的方式:
1. subset-查找特定欄位的重複資料
2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料
如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df = df[df.duplicated(subset=column_names, keep=False)]
print(df)
以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料,並且全部保留。
Q: Pandas drop_duplicates()刪除重複資料
從資料集裡找到重複的資料後,接下來,最常見的就是進行刪除或群組處理。
而要刪除完全一樣的重複資料,可以利用Pandas套件的drop_duplicates()方法(Method),如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.drop_duplicates(inplace=True)
其中,inplace關鍵字參數代表直接從現有資料集中刪除重複資料。
另外,要刪除特定欄位重複的資料,同樣可以透過subset及keep關鍵字參數來達成,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
df.drop_duplicates(subset=column_names, keep='first', inplace=True)
Q: Pandas groupby()、agg()群組重複資料
除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外,有時基於商業邏輯,可以透過群組的方式解決重複資料。
這時候,就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位,以及agg()方法(Method),統計運算剩餘的不同資料欄位,達到合併重複資料成一筆的效果,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
column_names = ['Name', 'Author', 'Year', 'Genre']
summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}
df = df.groupby(by=column_names).agg(summeries).reset_index()
print(df)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html
)網站觀看更多精彩內容。
看更多
3 0 1729 0
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)
想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。
Q: Pandas類別資料型態(category)處理
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。
同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例,為了進行示範,Mike將「Category筆電類別欄位」利用以下三個數字表示:
0-其他
1-Premium
2-Platinum
Pandas讀取資料集後,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df)
而各欄位的資料型態,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df.info())
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
print(df['Category'].describe())
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例:
import pandas as pd
df = pd.read_csv('AsusLaptops.csv')
df['Category'] = df['Category'].astype('category') #轉型
print(df['Category'].describe())
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html
)網站觀看更多精彩內容。
看更多
2 0 769 0
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/23

輕鬆入門3個常見的Pandas套件排序資料方式
面對現實生活中所蒐集來的各式各樣資料,想要能夠快速的進行初步整理,並且有效觀察其中的內容,資料排序可以說是最常使用的方法之一。
而Pandas套件對於資料排序的功能,也提供了非常好支援,本文就以Kaggle網站的2009-2019年Amazon前50名暢銷書資料集bestsellers with categories.csv( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例,帶大家來瞭解如何在資料集中應用Pandas套件的排序方法(Method)。
Q:Pandas DataFrame如何單欄位排序資料?
如果想要針對讀者評價(User Rating)來進行由小到大的升冪排序,就可以呼叫Pandas套件的sort_values()方法(Method),並且透過by關鍵字參數,指定所要排序的欄位名稱,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.sort_values(by='User Rating')
事實上,Pandas套件的sort_values()方法(Method)會知道要升冪排序,是因為還有一個ascending關鍵字參數,預設為True,所以如果想要進行升冪排序,可以省略ascending關鍵字參數。
相反的,Pandas套件的sort_values()方法(Method)要執行由大到小的降冪排序,就需要設定ascending關鍵字參數為False,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.sort_values(by='User Rating', ascending=False)
Q:Pandas DataFrame如何多欄位排序資料?
實務上,除了單欄位的排序外,很多時候會使用多欄位來進行排序,讓單欄位中擁有相同值的資料再透過額外的欄位排序,增加資料的識別度。
而Pandas套件的sort_values()方法(Method)也提供了多欄位的排序方式,利用串列(List)來指定多個欄位名稱即可,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.sort_values(by=['Genre', 'User Rating'])
以上的範例,就是先依照書籍類型(Genre)排序,再按讀者評價(User Rating)排序,並且都是升冪排序。
同樣的,如果想要降冪排序,就需設定ascending關鍵字參數為False,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.sort_values(by=['Genre', 'User Rating'], ascending=False)
Q:Pandas DataFrame如何多欄位升降冪排序資料?
既然Pandas套件的sort_values()方法(Method)可以多欄位來進行排序,那能不能夠指定各自的升降冪排序呢?
答案是可以的,sort_values()方法(Method)的ascending關鍵字參數同樣可以利用串列(List)的方式,來分別將對應的欄位做升降冪排序,如下範例:
df = pd.read_csv('bestsellers with categories.csv')
df.sort_values(by=['Author', 'Reviews'], ascending=[False, True]).head(25) #取前25筆資料
從執行結果可以看到,書籍作者(Author)為降冪排序,而書籍評論數(Reviews)則為升冪排序。
本文分享了三個使用Pandas套件來排序資料的常見情境,利用sort_values()方法(Method)的by與ascending關鍵字參數,即可對單欄位或多欄位的資料來進行升降冪排序,同時也要特別注意在多欄位排序時,是有順序性的,也就是會按照串列(List)中的欄位名稱先後順序來排序。希望本文的實作能夠幫助大家學會使用Pandas套件的排序資料方法(Method)。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/04/pandas-data-sorting.html )網站觀看更多精彩內容。
看更多
2 0 132 2
邱志威

創辦人

2022/01/07

資料清理與型態調整:資料前處理必須要做的事
實務上在收集完資料之後,到真正進入模型之前還有一個重要的環節需要處理,稱為是「資料前處理(Data Preprocessing)」。收集到的資料是從使用者的角度下去規劃,不一定是最適合數學模型存取的樣子。在這個環節的主要工作就是將資料調整成適合模型的輸入,也有人把這個過程稱為 ETL (Extract-Transform-Load) 。
ETL 用來描述將資料從來源端經過抽取(extract)、轉置(transform)、載入(load)至目的端的過程。ELT 這個字常用在 BI、 Data Pipeline、資料倉儲 領域上。Data Pipeline 是指利用程式自動化定期的資料處理過程,Data Pipeline 其實就是 MLOPs 前面那一段自動化過程。
看更多
5 0 789 4
Steve Sue 蘇書平

執行長

2021/12/23

課後筆記:前進數據分析的第1步——Excel樞紐分析
在GSI全球能力需求盤點大調查,指出工作中最優勢的能力在於一是設計思考,二是資料結構,三是Python程式語言,其中第二和第三項皆和數據處理息息相關。
大數據時代不再只是紙上談兵,各家企業紛紛投入更多心力來趕上這波潮流。被視為數據分析工具使用最為廣泛的Excel,基本可以完成多數資料清理、篩選、分析到可視化的步驟,讓原始數據不再只是塞滿數字的行與列,而是經過專業操作後,能形成一份清晰美觀的圖表⋯⋯
看更多
2 0 217 2
不知如何開始學習嗎? 先進行技能挑戰吧~
我要挑戰
我要應徵