104學習

巨量資料處理與分析

巨量資料處理與分析
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「巨量資料處理與分析:負責設計和實施巨量資料處理流程,以提取有價值的商業洞察。該角色需利用數據庫技術與分析工具來進行數據清洗、轉換及分析,目標是提升公司決策效率與市場競爭力。技能要求包括熟悉 SQL、Python 或 R 語言,以及具備良好的數據視覺化能力,能夠清晰傳達分析結果。此外,應具備良好的跨部門協作與溝通技巧,以推動數據驅動的文化,應對台灣職場中特有的團隊運作模式與快速變遷的市場需求。」
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

巨量資料處理與分析 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/24

3個優化Pandas套件讀取大型CSV檔案資料的技巧
本文以Kaggle網站的「Netflix data with IMDB scores added( https://www.kaggle.com/sarahjeeeze/imdbfile )」資料集為例,來和大家分享3個技巧,減少Pandas套件在處理大型資料時的記憶體耗用,以及提升讀取效率。
Q:Pandas如何去除不需要的資料?
在資料分析的過程中,有時並不是所有的CSV檔案欄位都是會使用到的,所以在呼叫Pandas套件的read_csv()方法(Method)時,相對於讀取所有欄位的大量資料,可以設定usecols關鍵字參數,僅讀取會使用到欄位,如下範例:
#所需的欄位
usecols = ['type', 'title', 'director', 'date_added', 'rating']
df = pd.read_csv('mycsvfile.csv', usecols=usecols)
讀取所要的資料欄位後,其中具有遺漏值的資料如果不需要,可以透過Pandas套件的dropna()方法(Method)進行去除,節省後續記憶體處理的資料量,如下範例:
new_df = df.dropna()
當然,dropna()方法(Method)還有以下3個關鍵字參數能夠依據需求來設定去除遺漏值的條件:
1.how:any(只要任一欄位有遺漏值就去除)、all(所有欄位皆有遺漏值就去除)
2.thresh:設定一筆資料有幾個遺漏值就移除
3.subset:設定檢查遺漏值的欄位
Q:Pandas如何精確設定欄位資料型態?
使用Pandas套件的read_csv()方法(Method)讀取CSV檔案資料時,也需要對所讀取的欄位設定精確的資料型態,尤其是數值類型的資料,避免耗用多餘的記憶體資源。
舉例來說,同樣是浮點數的資料,如果能夠視需求設定讀取float32型態,將會比float64型態佔用較少的記憶體資源,這時後就可以搭配Numpy套件來進行設定,安裝指令如下:
$ pip install numpy
而設定Pandas套件的讀取資料型態如下範例:
import pandas as pd
import numpy as np
usecols = ['type', 'title', 'director', 'date_added', 'rating']
df = pd.read_csv('mycsvfile.csv',
usecols=usecols,
dtype={'type':str,
'title':str,
'director':str,
'date_added':str,
'rating':np.float32})
new_df = df.dropna()
Q:Pandas如何切分資料?
相較於一次讀取大量的資料,我們可以將資料依需求或記憶體資源切分為多個區塊(chunk),最後再把處理好的各區塊(chunk)進行合併,如下範例:
#清理區塊中的遺漏值函式
def chunk_cleaning(data_chunk):
cleaned_chunk = data_chunk.dropna()
return cleaned_chunk
#將CSV檔案以1000筆資料切分為一區塊
data_chunks = pd.read_csv('mycsvfile.csv', chunksize=1000)
chunk_list = [] #暫存各區塊的處理結果
for data_chunk in data_chunks:
cleaned_chunk = chunk_cleaning(data_chunk) #清理區塊中的遺漏值
chunk_list.append(cleaned_chunk)
combined_chunk = pd.concat(chunk_list) #將各區塊的結果進行合併
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/06/optimize-pandas-speed-and-memory.html )網站觀看更多精彩內容。
看更多
2 0 131 2
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/24

4個必學的Pandas套件處理遺漏值資料方法
本文以Kaggle網站的「Netflix data with IMDB scores added( https://www.kaggle.com/sarahjeeeze/imdbfile )」資料集為例,來和大家分享筆者在處理遺漏值(Missing Value)時,常用的Pandas套件方法(Method)。
Q:Pandas如何探索遺漏值(Missing Value)?
如果想要探索每一個欄位資料是否有遺漏值(Missing Value),通常會使用Pandas套件的isnull()方法(Method)來查看,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull())
Pandas套件的isnull()方法(Method)會將所有欄位資料內容顯示為布林值(Boolean),只要是遺漏值(Missing Value)就會顯示為True。
但是這樣並沒有辦法讓我們快速瞭解每個欄位的遺漏值(Missing Value)狀況,這時候就可以搭配使用Pandas套件的sum()方法(Method),將每個欄位進行加總,瞭解每個欄位的遺漏值(Missing Value)個數,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull().sum())
由於在Python中,True代表1,False代表0,所以利用Pandas套件的isnull()與sum()方法(Method),就能夠知道資料集的每個欄位遺漏值(Missing Value)個數。
Q:Pandas如何檢視遺漏值(Missing Value)?
探索了每個欄位的遺漏值(Missing Value)個數後,如果想要特別檢視特定欄位的遺漏值(Missing Value)資料內容,就可以利用以下的Pandas套件篩選語法:
df = pd.read_csv('mycsvfile.csv')
print(df[df.date_added.isnull()])
以上範例,就是檢視date_added(新增日期)欄位的11筆遺漏值(Missing Value)資料內容。
Q:Pandas dropna()方法(Method)如何使用?
Pandas套件提供了dropna()方法(Method)來因應不同的需求,包含:
1.dropna(how='any'):任一欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='any'))
2.dropna(how='all'):所有欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='all'))
3.dropna(subset=['欄位名稱', ...], how='any'):任一個指定的欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='any'))
4.dropna(subset=['欄位名稱', ...], how='all'):指定的欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='all'))
Q:Pandas fillna()方法(Method)如何使用?
另一個遺漏值(Missing Value)資料的處理方式,就是填入自訂的值,這時候就能利用Pandas套件的fillna()方法(Method),指定value關鍵字參數(Keyword Argument)為想要填入的值即可,如下範例:
df = pd.read_csv('mycsvfile.csv')
df['director'].fillna(value='Not Found', inplace=True)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/07/pandas-handle-missing-value.html )網站觀看更多精彩內容。
看更多
2 0 170 2

推薦給你

104學習

產品

14小時前

你也是晨型學習族嗎?104學習揭密最強學習時段竟是每日清晨6-8點
104學習數據顯示,65%職場人選擇「邊工作邊學習」,其中最熱門時段在清晨6-8點開始自我投資,這個時段不僅精神最好、干擾最少,更能為一整天帶來正向的動力。面對AI浪潮衝擊,30-34歲及40-44歲成為AI學習主力年齡層。比太陽更早起的人們,正用清晨時光悄悄拉開職場競爭力差距,你還在睡夢中嗎?
▶️職場人都在偷偷學什麼課程?
🔥Top1 數據分析師|入門實戰 ⬇️現折$888只到11/11https://nabi.104.com.tw/course/104nabi/700f35aa-e227-4a12-b673-3b5931342c02
🔥Top2 iPAS AI應用規劃師衝刺班 ⬇️現折$888只到11/11
🔥Top3 PM產品經理|入門致勝攻略 ⬇️現折$888只到11/11
🔥Top4 用AI+Google Sheet建立自動化工具,提升工作效率 ⬇️現折$888只到11/11
🔥Top5 GA4 x Looker studio跨資料源整合&動態報表實戰 ⬇️現折$555只到11/11
🔥Top6 設計師接案必修課 ⬇️現折$555只到11/11
🔥Top7 開啟你的綠領職涯 - ESG 永續行業求職準備全解析 ⬇️現折$555只到11/11
🔥Top8 頂尖獵才教你談薪水 ⬇️現折$555只到11/11
🔥Top9 AI行政管理力實戰課|高效會議記錄 × 精準SOP × 掌握AI工具
🔥Top10 【履歷一投就中】ChatGPT打造HR最想錄取的履歷 ⬇️現折$555只到11/11
👉職場人都在偷偷關注什麼證照?
🟢Top1生成式AI課程認證
目標是讓學習者掌握生成式AI的基礎概念、實際應用及工具操作能力。內容包括大型語言模型(LLM)、生成式AI如何提升工作效率,以及Google Cloud的相關技術應用。
🟢Top2 公共工程品質管理人員 ↗️面試邀約提升:約 3倍
凡參與公共工程,需擔任品管人員(如施工、監造、管理等工程從業人員),都必須參加由工程會或其委託訓練機構舉辦的公共工程品質管理訓練課程,並取得結業證書。
🟢Top3 丙級會計事務技術士 ↗️面試邀約提升:1.4倍
▶️【點我免費做模擬測驗】
中小企業與事務所普遍需求的財會基礎證照,內容包含帳務處理、報表編製與基本稅務實務。適合準備從事會計助理、出納、財務行政等工作的求職者。根據2023年(民國112年)勞動部資料,該證照通過率為52.6%。
🟢Top4 TOEIC (多益測驗)
▶️【點我免費做模擬測驗】https://nabi.104.com.tw/assess/toeic/
多益成績已成為企業判斷求職者英語能力的標準,特別是外商公司。建議考取750分以上,若能獲得金色證書(860分以上),更能在職場競爭中脫穎而出。尤其對有志於外商企業、跨國集團或海外派駐的人才而言,TOEIC成績更是履歷的重要加分項。
🟢Top5 丙級中餐(葷食)烹調技術士
• 適用職務:廚師、餐飲人員 ↗️面試邀約提升:99%
Q:丙級中餐(葷食)烹調技術士證照通過率如何?
A:通過率大約79%至80%,只要熟悉考試題庫要求並掌握基本烹調技巧,通過機會高。
🟢Top6 乙級職業安全衛生管理員
• 適用職務:環境安全衛生類人員 ↗️面試邀約提升:近4倍
Q:證照專業度如何?
A:取得此證照證明持有人具備評估職場安全風險、規劃安全措施及事故預防的專業能力,考試內容包含眾多專業知識與技能,證照在職場上的認可度和價值均較高,尤其適合想專注於職業安全衛生管理領域的人士參考。
▶️【點我免費做線上模擬測驗】
🟢Top7 總幹事證照 事務管理人員
• 適用職務:社區總幹事、大樓管理員 ↗️面試邀約提升:1.3倍
Q:誰需要考總幹事證照?
A:凡欲從事社區公寓大廈管理的總幹事工作者,必須取得此證照,依據《公寓大廈管理條例》規定,通過中央主管機關舉辦的事務管理人員講習並考試合格,才能合法擔任總幹事,負責社區組織運作、公共安全及財務管理等工作。
🟢Top8 工地主任
營造業法定必備的高階管理證照,專業度極高且考試具相當挑戰性,為營建工程領域的核心資格認證,薪資待遇優渥證照資訊
🟢Top9 乙級就業服務技術士
人資領域的唯一一張國家級證照,每年考照日期為三次,無論是人力銀行、人力仲介公司的從業人員,還是企業人資部門的招募專員,擁有就業服務乙級證照都能為職涯發展帶來更多機會與保障。
報考資格:具備高中職以上學歷或同等學歷證明。
🟢Top10 照顧服務員單一(丙)級技術士
長照領域的基礎專業認證,門檻友善、考試彈性,是投入照護產業的理想起點。
看更多
0 0 127 0
你可能感興趣的教室