104學習精靈｜分析職涯競爭力，在職進修有方向

Lillian Huang

內容編輯

2022/09/01

管理大量資料時，很多人常遇到的問題就是無法擺脫「複製貼上地獄」，同樣的內容常常這邊得複製貼上一份、那邊得複製貼上一份，萬一某個地方改動了，其他地方也得一一修改，不但讓工作變得累又乏味，也容易出錯。

Ragic 最基本的連結功能：「連結與載入」，就是協助大家逃離複製貼上地獄的利器！它能讓需要重複使用的資料（例如「客戶資料」、「商品資料」），利用連結與載入關係快速帶入（例如帶入「銷售訂單」），不只能節省資料登打時間、減少錯誤發生機會，也能讓資料建立有意義的關聯，方便查找與比對。

這支影片不到 10 分鐘 -- 我們要在 5 分鐘之內，說明「連結與載入」的意義，以及示範怎麼一步一步在「銷售訂單」上，建立與「客戶」資料、「商品」資料的「連結與載入」關係。

更多教學請關注「Ragic 企業雲端資料庫」YouTube 頻道

https://youtu.be/yq_HI76WhrU

看更多

0 0 740 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/21

3個實用的Pandas套件清理重複資料教學

本文以Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例，教大家如何查找及清理資料集的重複資料，提升資料的品質。

Q: Pandas duplicated()查找重複資料

想要使用Pandas套件查找資料集的重複資料，利用duplicated()方法(Method)可以得到每筆資料的重複狀態，True代表重複，False為沒重複，如下範例：

import pandas as pd

df = pd.read_csv('bestsellers with categories.csv')

print(df.duplicated())

接著，透過Pandas套件的括號[]語法即可檢視重複資料的各欄位資料，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

print(df[df.duplicated()])

Pandas套件的duplicated()方法(Method)除了能夠查找所有欄位資料完全一樣的重複資料外，也提供了以下兩個關鍵字參數，來客製化查找的方式：

1. subset-查找特定欄位的重複資料

2. keep-保留第一筆(first)、最後一筆(last)或全部(False)的重複資料

如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df = df[df.duplicated(subset=column_names, keep=False)]

print(df)

以上範例即是查找Name(書名)、Author(作者)、Year(出版年)及Genre(類型)四個欄位都一樣的重複資料，並且全部保留。

Q: Pandas drop_duplicates()刪除重複資料

從資料集裡找到重複的資料後，接下來，最常見的就是進行刪除或群組處理。

而要刪除完全一樣的重複資料，可以利用Pandas套件的drop_duplicates()方法(Method)，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.drop_duplicates(inplace=True)

其中，inplace關鍵字參數代表直接從現有資料集中刪除重複資料。

另外，要刪除特定欄位重複的資料，同樣可以透過subset及keep關鍵字參數來達成，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

df.drop_duplicates(subset=column_names, keep='first', inplace=True)

Q: Pandas groupby()、agg()群組重複資料

除了可以利用Pandas套件的drop_duplicates()方法(Method)刪除重複資料外，有時基於商業邏輯，可以透過群組的方式解決重複資料。

這時候，就可以利用Pandas套件的groupby()方法(Method)群組相同資料的欄位，以及agg()方法(Method)，統計運算剩餘的不同資料欄位，達到合併重複資料成一筆的效果，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

column_names = ['Name', 'Author', 'Year', 'Genre']

summeries = {'User Rating': 'mean', 'Reviews': 'sum', 'Price': 'mean'}

df = df.groupby(by=column_names).agg(summeries).reset_index()

print(df)

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2022/01/pandas-drop-duplicate-data.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Pandas教學]3個實用的Pandas套件清理重複資料教學

3 0 1729 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2022/01/20

教你用Pandas套件清理資料中的常見資料型態問題(下)

想要實作資料分析，讀取資料是第一步所要執行的動作，而如果沒有正確的進行資料前處理(Data Preprocessing)，就會影響最後分析結果的準確性及可靠性。

本文就先針對「資料型態」，來和大家分享如何有效找出髒資料(Dirty Data)，並且利用Pandas套件來進行資料處理或清理，避免髒資料(Dirty Data)導致分析的副作用。

Q: Pandas類別資料型態(category)處理

在實作機器學習或分類資料的時候，有時會以數字來分別表示不同類別的資料。

同樣以Kaggle網站的ASUS筆電資料集( https://www.kaggle.com/bhageshcodebeast/asus-laptops-2020-jun )為例，為了進行示範，Mike將「Category筆電類別欄位」利用以下三個數字表示：

0-其他

1-Premium

2-Platinum

Pandas讀取資料集後，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df)

而各欄位的資料型態，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df.info())

可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態，當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候，就會看到數字型態的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

print(df['Category'].describe())

但事實上，「Category筆電類別欄位」為類別資料型態(category)，如果沒有將欄位進行轉型，就有可能誤導後續的操作或統計。

解決方法，可以使用Pandas套件的astype()方法(Method)，將「Category筆電類別欄位」轉型為類別型態(category)，這時候，再透過describe()方法(Method)來查看摘要性統計的時候，就會是類別型態(category)的統計結果，如下範例：

import pandas as pd

df = pd.read_csv('AsusLaptops.csv')

df['Category'] = df['Category'].astype('category') #轉型

print(df['Category'].describe())

以上就是在進行資料分析的過程中，常見的資料型態問題，本文和大家分享了利用Pandas套件的info()方法(Method)，來查看各欄位的資料型態是否與需求相符，如果其中含有髒資料(Dirty Data)，可以使用strip()方法(Method)進行資料清理，以及透過astype()方法(Method)轉型為正確的資料型態。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/12/processing-data-type-with-pandas.html

)網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Pandas教學]教你用Pandas套件清理資料中的常見資料型態問題

2 0 769 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

Mike的Python學院

關注

Mike Ku

Learn Code With Mike品牌創辦人

2021/11/23

輕鬆入門3個常見的Pandas套件排序資料方式

面對現實生活中所蒐集來的各式各樣資料，想要能夠快速的進行初步整理，並且有效觀察其中的內容，資料排序可以說是最常使用的方法之一。

而Pandas套件對於資料排序的功能，也提供了非常好支援，本文就以Kaggle網站的2009-2019年Amazon前50名暢銷書資料集bestsellers with categories.csv( https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019 )為例，帶大家來瞭解如何在資料集中應用Pandas套件的排序方法(Method)。

Q:Pandas DataFrame如何單欄位排序資料?

如果想要針對讀者評價(User Rating)來進行由小到大的升冪排序，就可以呼叫Pandas套件的sort_values()方法(Method)，並且透過by關鍵字參數，指定所要排序的欄位名稱，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.sort_values(by='User Rating')

事實上，Pandas套件的sort_values()方法(Method)會知道要升冪排序，是因為還有一個ascending關鍵字參數，預設為True，所以如果想要進行升冪排序，可以省略ascending關鍵字參數。

相反的，Pandas套件的sort_values()方法(Method)要執行由大到小的降冪排序，就需要設定ascending關鍵字參數為False，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.sort_values(by='User Rating', ascending=False)

Q:Pandas DataFrame如何多欄位排序資料?

實務上，除了單欄位的排序外，很多時候會使用多欄位來進行排序，讓單欄位中擁有相同值的資料再透過額外的欄位排序，增加資料的識別度。

而Pandas套件的sort_values()方法(Method)也提供了多欄位的排序方式，利用串列(List)來指定多個欄位名稱即可，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.sort_values(by=['Genre', 'User Rating'])

以上的範例，就是先依照書籍類型(Genre)排序，再按讀者評價(User Rating)排序，並且都是升冪排序。

同樣的，如果想要降冪排序，就需設定ascending關鍵字參數為False，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.sort_values(by=['Genre', 'User Rating'], ascending=False)

Q:Pandas DataFrame如何多欄位升降冪排序資料?

既然Pandas套件的sort_values()方法(Method)可以多欄位來進行排序，那能不能夠指定各自的升降冪排序呢?

答案是可以的，sort_values()方法(Method)的ascending關鍵字參數同樣可以利用串列(List)的方式，來分別將對應的欄位做升降冪排序，如下範例：

df = pd.read_csv('bestsellers with categories.csv')

df.sort_values(by=['Author', 'Reviews'], ascending=[False, True]).head(25) #取前25筆資料

從執行結果可以看到，書籍作者(Author)為降冪排序，而書籍評論數(Reviews)則為升冪排序。

本文分享了三個使用Pandas套件來排序資料的常見情境，利用sort_values()方法(Method)的by與ascending關鍵字參數，即可對單欄位或多欄位的資料來進行升降冪排序，同時也要特別注意在多欄位排序時，是有順序性的，也就是會按照串列(List)中的欄位名稱先後順序來排序。希望本文的實作能夠幫助大家學會使用Pandas套件的排序資料方法(Method)。

如果想要學習更多的Python應用教學，歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/04/pandas-data-sorting.html )網站觀看更多精彩內容。

看更多

learncodewithmike.com

[Pandas教學]輕鬆入門3個常見的Pandas套件排序資料方式

2 0 132 2

拍手

留言

分享到：

Line

Facebook

複製連結

取消

麥迪遜數據花園

關注

邱志威

創辦人

2022/01/07

資料清理與型態調整：資料前處理必須要做的事

實務上在收集完資料之後，到真正進入模型之前還有一個重要的環節需要處理，稱為是「資料前處理（Data Preprocessing）」。收集到的資料是從使用者的角度下去規劃，不一定是最適合數學模型存取的樣子。在這個環節的主要工作就是將資料調整成適合模型的輸入，也有人把這個過程稱為 ETL （Extract-Transform-Load）。

ETL 用來描述將資料從來源端經過抽取（extract）、轉置（transform）、載入（load）至目的端的過程。ELT 這個字常用在 BI、 Data Pipeline、資料倉儲領域上。Data Pipeline 是指利用程式自動化定期的資料處理過程，Data Pipeline 其實就是 MLOPs 前面那一段自動化過程。

https://tw.alphacamp.co/blog/data-processing-and-data-cleaning