Learn with Shin

關注

HsuShin

2022/05/31

Spark - 窺探Big Data

最近這幾年Big Data（大數據）這個詞相當的流行，媒體新聞也會常常用到這個字眼。

當然，我們可以輕易的從網路上取得Big Data的定義，不過還是簡單的講一下，Big Data的Big（大）通常指的是資料的數量、速度以及類型（volume, velocity, variety），根據情況還有其他的特性。基本上當這些要素符合的時候，一般的單一電腦系統往往無法負荷。

因此，我們會利用所謂的分散式運算（distributed computing），簡單來說將資料拆成很多塊，並分給很多電腦來同時處理：一種團結力量大的概念。這些連在一起的大大小小的電腦形成一個所謂的Cluster。

實際上，一般來說自己會碰到Big Data的機會可能不多，大概也不會需要用到Cluster。但是這裡仍然希望給大家作一個參考，如果將來在工作上有遇到這個需求，或許可以提供一個方向。

今天要跟大家一起看的是在這種大數據概念下產生的一個工具（或是架構），叫做Spark（全名Apache Spark），或是更精準一點（因為我們用的是Python）-- 我們要來介紹PySpark（Python + Spark）....

0 0 286 0

拍手

留言

分享到：

Line

Facebook

複製連結

取消

本篇內容來自以下教室

推薦學習