麥迪遜數據花園

data pipeline、資料清理、資料整理、ETL、大數據分析、大數據、AI人工智慧、模型建立、大數據資料、Big Data、數據處理、數位科技、MLOPs、資料前處理

邱志威

創辦人

2022/01/07

資料清理與型態調整:資料前處理必須要做的事

實務上在收集完資料之後,到真正進入模型之前還有一個重要的環節需要處理,稱為是「資料前處理(Data Preprocessing)」。收集到的資料是從使用者的角度下去規劃,不一定是最適合數學模型存取的樣子。在這個環節的主要工作就是將資料調整成適合模型的輸入,也有人把這個過程稱為 ETL (Extract-Transform-Load) 。
ETL 用來描述將資料從來源端經過抽取(extract)、轉置(transform)、載入(load)至目的端的過程。ELT 這個字常用在 BI、 Data Pipeline、資料倉儲 領域上。Data Pipeline 是指利用程式自動化定期的資料處理過程,Data Pipeline 其實就是 MLOPs 前面那一段自動化過程。
4 0 298 3