104學習精靈

巨量資料處理與分析

巨量資料處理與分析
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「巨量資料處理與分析:負責設計和實施巨量資料處理流程,以提取有價值的商業洞察。該角色需利用數據庫技術與分析工具來進行數據清洗、轉換及分析,目標是提升公司決策效率與市場競爭力。技能要求包括熟悉 SQL、Python 或 R 語言,以及具備良好的數據視覺化能力,能夠清晰傳達分析結果。此外,應具備良好的跨部門協作與溝通技巧,以推動數據驅動的文化,應對台灣職場中特有的團隊運作模式與快速變遷的市場需求。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

巨量資料處理與分析 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/24

3個優化Pandas套件讀取大型CSV檔案資料的技巧
本文以Kaggle網站的「Netflix data with IMDB scores added( https://www.kaggle.com/sarahjeeeze/imdbfile )」資料集為例,來和大家分享3個技巧,減少Pandas套件在處理大型資料時的記憶體耗用,以及提升讀取效率。
Q:Pandas如何去除不需要的資料?
在資料分析的過程中,有時並不是所有的CSV檔案欄位都是會使用到的,所以在呼叫Pandas套件的read_csv()方法(Method)時,相對於讀取所有欄位的大量資料,可以設定usecols關鍵字參數,僅讀取會使用到欄位,如下範例:
#所需的欄位
usecols = ['type', 'title', 'director', 'date_added', 'rating']
df = pd.read_csv('mycsvfile.csv', usecols=usecols)
讀取所要的資料欄位後,其中具有遺漏值的資料如果不需要,可以透過Pandas套件的dropna()方法(Method)進行去除,節省後續記憶體處理的資料量,如下範例:
new_df = df.dropna()
當然,dropna()方法(Method)還有以下3個關鍵字參數能夠依據需求來設定去除遺漏值的條件:
1.how:any(只要任一欄位有遺漏值就去除)、all(所有欄位皆有遺漏值就去除)
2.thresh:設定一筆資料有幾個遺漏值就移除
3.subset:設定檢查遺漏值的欄位
Q:Pandas如何精確設定欄位資料型態?
使用Pandas套件的read_csv()方法(Method)讀取CSV檔案資料時,也需要對所讀取的欄位設定精確的資料型態,尤其是數值類型的資料,避免耗用多餘的記憶體資源。
舉例來說,同樣是浮點數的資料,如果能夠視需求設定讀取float32型態,將會比float64型態佔用較少的記憶體資源,這時後就可以搭配Numpy套件來進行設定,安裝指令如下:
$ pip install numpy
而設定Pandas套件的讀取資料型態如下範例:
import pandas as pd
import numpy as np
usecols = ['type', 'title', 'director', 'date_added', 'rating']
df = pd.read_csv('mycsvfile.csv',
usecols=usecols,
dtype={'type':str,
'title':str,
'director':str,
'date_added':str,
'rating':np.float32})
new_df = df.dropna()
Q:Pandas如何切分資料?
相較於一次讀取大量的資料,我們可以將資料依需求或記憶體資源切分為多個區塊(chunk),最後再把處理好的各區塊(chunk)進行合併,如下範例:
#清理區塊中的遺漏值函式
def chunk_cleaning(data_chunk):
cleaned_chunk = data_chunk.dropna()
return cleaned_chunk
#將CSV檔案以1000筆資料切分為一區塊
data_chunks = pd.read_csv('mycsvfile.csv', chunksize=1000)
chunk_list = [] #暫存各區塊的處理結果
for data_chunk in data_chunks:
cleaned_chunk = chunk_cleaning(data_chunk) #清理區塊中的遺漏值
chunk_list.append(cleaned_chunk)
combined_chunk = pd.concat(chunk_list) #將各區塊的結果進行合併
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/06/optimize-pandas-speed-and-memory.html )網站觀看更多精彩內容。
看更多
2 0 126 2
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/24

4個必學的Pandas套件處理遺漏值資料方法
本文以Kaggle網站的「Netflix data with IMDB scores added( https://www.kaggle.com/sarahjeeeze/imdbfile )」資料集為例,來和大家分享筆者在處理遺漏值(Missing Value)時,常用的Pandas套件方法(Method)。
Q:Pandas如何探索遺漏值(Missing Value)?
如果想要探索每一個欄位資料是否有遺漏值(Missing Value),通常會使用Pandas套件的isnull()方法(Method)來查看,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull())
Pandas套件的isnull()方法(Method)會將所有欄位資料內容顯示為布林值(Boolean),只要是遺漏值(Missing Value)就會顯示為True。
但是這樣並沒有辦法讓我們快速瞭解每個欄位的遺漏值(Missing Value)狀況,這時候就可以搭配使用Pandas套件的sum()方法(Method),將每個欄位進行加總,瞭解每個欄位的遺漏值(Missing Value)個數,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull().sum())
由於在Python中,True代表1,False代表0,所以利用Pandas套件的isnull()與sum()方法(Method),就能夠知道資料集的每個欄位遺漏值(Missing Value)個數。
Q:Pandas如何檢視遺漏值(Missing Value)?
探索了每個欄位的遺漏值(Missing Value)個數後,如果想要特別檢視特定欄位的遺漏值(Missing Value)資料內容,就可以利用以下的Pandas套件篩選語法:
df = pd.read_csv('mycsvfile.csv')
print(df[df.date_added.isnull()])
以上範例,就是檢視date_added(新增日期)欄位的11筆遺漏值(Missing Value)資料內容。
Q:Pandas dropna()方法(Method)如何使用?
Pandas套件提供了dropna()方法(Method)來因應不同的需求,包含:
1.dropna(how='any'):任一欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='any'))
2.dropna(how='all'):所有欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='all'))
3.dropna(subset=['欄位名稱', ...], how='any'):任一個指定的欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='any'))
4.dropna(subset=['欄位名稱', ...], how='all'):指定的欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='all'))
Q:Pandas fillna()方法(Method)如何使用?
另一個遺漏值(Missing Value)資料的處理方式,就是填入自訂的值,這時候就能利用Pandas套件的fillna()方法(Method),指定value關鍵字參數(Keyword Argument)為想要填入的值即可,如下範例:
df = pd.read_csv('mycsvfile.csv')
df['director'].fillna(value='Not Found', inplace=True)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/07/pandas-handle-missing-value.html )網站觀看更多精彩內容。
看更多
2 0 157 2

推薦給你

104學習精靈

產品

17小時前

淨零轉型夯!環境部綠領人才課程開跑,30歲以下學費半價補助!
隨著淨零轉型已成趨勢,環境部連續第二年與 104 人力銀行合作完成 2025 上半年《綠領人才就業趨勢報告》,台灣綠領人才需求快速增加,2025年1到4月企業釋出綠領職缺月薪中位數約4萬元,略高於整體職缺的3.8萬元。
環境部攜手全台32所大專院校推出「淨零綠領人才培育課程」,學員完成48小時培訓並通過考試後,可取得官方認證證書,提升職場競爭力與薪資優勢,吸引大量新鮮人及跨科系投入綠色產業。
▶️查詢課程與報名資訊👉 https://nabi.104.com.tw/ability/10049142
《淨零綠領人才培育課程合格證明FAQ》
1. 什麼是「淨零綠領人才培育課程」?
• 由環境部與全台32所大專院校合作開設的48小時培訓課程,內容涵蓋氣候變遷、碳管理法規、碳盤查、碳交易及產品碳足跡等專業領域,旨在培育具備淨零排放與永續經營能力的綠領人才。
2. 這門課程的證照有什麼優勢?
• 完成課程並通過認證考試後,可獲得環境部官方合格證書,2025年9月起可於104人力銀行上更新履歷,提升求職能見度與薪資條件。
• 證照受到產業認可,約有六成綠領職缺歡迎新鮮人且不限科系,企業看重專業能力。
3. 誰適合報名參加此課程?
• 無論是在校生、轉職者或一般社會人士皆適合,課程不限制理工背景,歡迎有志朝淨零與環境永續發展方向的人士。
• 30歲以下學生享有學費半額補助,低收入戶、中低收入戶及身心障礙者可申請全額補助。
4. 如何取得補助並參加認證考試?
• 需先報名完成培訓課程並通過考試取得合格證明,方可申請學費補助退款。
• 2025年8月30日將舉辦首場認證考試,有意報考者應提前準備並在規定時限內報名。
5. 課程內容包含哪些專業主題?
• 氣候變遷與溫室氣體管理
• 碳盤查作業方法
• 溫室氣體減量額度與自願減量作業
• 產品碳足跡測量與管理
6. 企業對綠領人才的需求狀況如何?
• 平均每月有超過4,000家企業釋出近2.2萬個綠領職缺,較去年同期增加9%;
• 月薪中位數約4萬元,高於整體職缺5.3%,其中綠領醫療領域薪資更可達7.5萬元。
7. 獲得合格證明後如何提升職涯?
• 可於104人力銀行更新履歷,標註已完成環境部官方課程並取得認證,增加履歷亮點,提高面試機會與薪資談判力。
參加「環境部淨零綠領人才培育課程」並取得合格證明,對想進入或轉職綠色產業的求職者是極佳的跳板。
▶️查詢課程與報名資訊👉 https://nabi.104.com.tw/ability/10049142
看更多
0 0 135 0
你可能感興趣的教室