想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。 
 
本文就先針對「資料型態」,來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用。 
 
Q: Pandas類別資料型態(category)處理 
在實作機器學習或分類資料的時候,有時會以數字來分別表示不同類別的資料。 
 
 
0-其他 
1-Premium 
2-Platinum 
Pandas讀取資料集後,如下範例: 
import pandas as pd 
  
df = pd.read_csv('AsusLaptops.csv') 
  
print(df) 
 
而各欄位的資料型態,如下範例: 
import pandas as pd 
  
df = pd.read_csv('AsusLaptops.csv') 
  
print(df.info()) 
 
可以看到Pandas套件判定「Category筆電類別欄位」為int64(整數)型態,當利用Pandas套件的describe()方法(Method)進行摘要性統計的時候,就會看到數字型態的統計結果,如下範例: 
import pandas as pd 
  
df = pd.read_csv('AsusLaptops.csv') 
  
print(df['Category'].describe()) 
 
但事實上,「Category筆電類別欄位」為類別資料型態(category),如果沒有將欄位進行轉型,就有可能誤導後續的操作或統計。 
 
解決方法,可以使用Pandas套件的astype()方法(Method),將「Category筆電類別欄位」轉型為類別型態(category),這時候,再透過describe()方法(Method)來查看摘要性統計的時候,就會是類別型態(category)的統計結果,如下範例: 
import pandas as pd 
  
df = pd.read_csv('AsusLaptops.csv') 
  
df['Category'] = df['Category'].astype('category')  #轉型 
  
print(df['Category'].describe()) 
 
以上就是在進行資料分析的過程中,常見的資料型態問題,本文和大家分享了利用Pandas套件的info()方法(Method),來查看各欄位的資料型態是否與需求相符,如果其中含有髒資料(Dirty Data),可以使用strip()方法(Method)進行資料清理,以及透過astype()方法(Method)轉型為正確的資料型態。 
 
)網站觀看更多精彩內容。