104學習

資料探勘

資料探勘
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「資料探勘:負責從大量數據中發掘有價值的資訊,以支持業務決策並提升經營效益。主要責任包括制定數據分析策略、使用各種數據探勘技術(如機器學習、統計分析)來識別趨勢與模式,以及撰寫報告以清楚呈現結果。要求具備強大的數據處理能力與編程技能(如Python、R),並熟悉資料庫管理(如SQL)。此外,需具備良好的跨部門協作與溝通技巧,以便有效解釋分析結果並推動改善措施,特別是在快速變動的台灣市場環境中,應對資料完整性與準確性挑戰。」
關於教室
關注人數 12 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 12 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料探勘 學習推薦

一零四線上嚴選

小編

2022/10/08

[AI關鍵技能:資料探勘] 一步到位_原理、分類及聚類演算
這兩週連續介紹兩個AI關鍵技術,本週是另一個關鍵技術「資料探勘」;
這兩週所分享的機器學習與資料探勘,可以做到的不只是 AlphaGO 所能做到的與人類下棋,更可以擴大應用範圍至網路電商的商品推薦、製造業的自動化製造流程等,所以會被視為關鍵技術。
本週課程專門針對「資料探勘」來分享;本課程我們可以獲得以下知識技能:資料探勘的原理、關聯規則原理與實務、分類原理、聚類原理、平均聚類演算法、階層聚類技術、DBSCAN密度式聚類法等。
那需要如何依序學習呢? 課程將分為三大部分進行教學,分別為:資料探勘概論及關聯規則、分類概念與技術、聚類概念與技術。
第一部分資料探勘部分,老師從學習方法開始分享,讓我們往後接觸時,可以快速掌握;接下來就會定義資料探勘的意義,以了解其重要性。之後,將會帶我們知道目前主要技術有哪些、各自在哪些地方應用、業界常用的專業用語;,在第一部份下半段,會開始學習Apriori 及 FP-Growth 兩種演算法;透過兩種演算法所獲得的資料支持度與信賴度該如何看。
第二部分及第三部份分別要學分類與聚類概念;將會以演算法帶大家了解分類與聚類演算法;除了演算法的部分是必要的技術外,還會學習如何衡量分類模型準確性、決策樹、屬性選擇指標、屬性分割等。
這門課程希望參與的學員能夠一次帶領大家學會資料探勘所有觀念及技術。
推薦課程網址:
祝您 工作順利、學習愉快
104學習精靈小編 陪您每日學習成長1%
看更多
0 0 556 0
Mike Ku

Learn Code With Mike品牌創辦人

2021/11/24

4個必學的Pandas套件處理遺漏值資料方法
本文以Kaggle網站的「Netflix data with IMDB scores added( https://www.kaggle.com/sarahjeeeze/imdbfile )」資料集為例,來和大家分享筆者在處理遺漏值(Missing Value)時,常用的Pandas套件方法(Method)。
Q:Pandas如何探索遺漏值(Missing Value)?
如果想要探索每一個欄位資料是否有遺漏值(Missing Value),通常會使用Pandas套件的isnull()方法(Method)來查看,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull())
Pandas套件的isnull()方法(Method)會將所有欄位資料內容顯示為布林值(Boolean),只要是遺漏值(Missing Value)就會顯示為True。
但是這樣並沒有辦法讓我們快速瞭解每個欄位的遺漏值(Missing Value)狀況,這時候就可以搭配使用Pandas套件的sum()方法(Method),將每個欄位進行加總,瞭解每個欄位的遺漏值(Missing Value)個數,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.isnull().sum())
由於在Python中,True代表1,False代表0,所以利用Pandas套件的isnull()與sum()方法(Method),就能夠知道資料集的每個欄位遺漏值(Missing Value)個數。
Q:Pandas如何檢視遺漏值(Missing Value)?
探索了每個欄位的遺漏值(Missing Value)個數後,如果想要特別檢視特定欄位的遺漏值(Missing Value)資料內容,就可以利用以下的Pandas套件篩選語法:
df = pd.read_csv('mycsvfile.csv')
print(df[df.date_added.isnull()])
以上範例,就是檢視date_added(新增日期)欄位的11筆遺漏值(Missing Value)資料內容。
Q:Pandas dropna()方法(Method)如何使用?
Pandas套件提供了dropna()方法(Method)來因應不同的需求,包含:
1.dropna(how='any'):任一欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='any'))
2.dropna(how='all'):所有欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(how='all'))
3.dropna(subset=['欄位名稱', ...], how='any'):任一個指定的欄位有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='any'))
4.dropna(subset=['欄位名稱', ...], how='all'):指定的欄位皆有遺漏值(Missing Value)的資料就移除,如下範例:
df = pd.read_csv('mycsvfile.csv')
print(df.dropna(subset=['director', 'date_added'], how='all'))
Q:Pandas fillna()方法(Method)如何使用?
另一個遺漏值(Missing Value)資料的處理方式,就是填入自訂的值,這時候就能利用Pandas套件的fillna()方法(Method),指定value關鍵字參數(Keyword Argument)為想要填入的值即可,如下範例:
df = pd.read_csv('mycsvfile.csv')
df['director'].fillna(value='Not Found', inplace=True)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/07/pandas-handle-missing-value.html )網站觀看更多精彩內容。
看更多
2 0 192 2

104學習精選課程

看更多課程
想提升職場競爭力?專業技能課程看起來👇
成為AI工程師必學的深度學習與 PyTorch 實作
成為AI工程師必學的深度學習與 PyTorch 實作 完課後,你將學會 Multilayer Perceptron (MLP, 多層感知器):也稱為前饋神經網路,是深度學習中最基礎的模型,可用於處理結構化的資料,例如表格中的數值、類別等,並進行分類、回歸等任務。 Convolutional Neural Network (CNN,卷積神經網路):用於對影像或音訊等二維和一維資料進行分析和處理,能夠有效地提取出其特徵,並進行影像分類、目標檢測等任務。 Recurrent Neural Network (RNN,遞迴神經網路)Family:包含RNN、Long Short Term Memory Network (LSTM,長短期記憶網路):用於處理序列型資料,能夠有效地捕捉序列間的長期相依性,被廣泛應用於語音辨識、機器翻譯等自然語言處理領域。 Transformer:用於處理序列型的資料,透過學習來估計全部序列之間的的關聯性,能共有效的通盤考慮整段資料的特性,被廣泛用在自然語言領域,近年來也被導入影像相關AI模型。 Generative Adversarial Network (GAN,生成對抗網路):是一種生成模型,能夠透過兩個神經網路之間的對抗訓練,從噪聲中生成出與真實資料相似的新資料,用於影像生成、音訊生成等任務。 課程成果 4-5 影像切割方法介紹(U-NET) 在實務上最常拿來使用就是影像的前景背景切割,也就是如果要做去背的動作,可以靠大量資料模型訓練後,讓模型學習到哪些是主要要切割出來的物體。 5-4 Transformer 我們簡單操作NLP相關的範例,利用網路上別人的開源資料進行英中翻譯的Transformer (簡易版)的PytTorch模型建立和模型訓練。 5-5 實作:股價預測 我們將進行股價資料爬蟲 (直接利用yfinance模組),然後採用LSTM利用過去的股價進行未來股價的預測。除了股價預測之外,只要資料都是時序資料都也可以進行相同的程式操作,包含庫存預測或是失業率預測等。 課程介紹 什麼是 PyTorch? PyTorch是一個基於Torch函式上,針對Python所開發的機器學習庫,為深度學習的框架之一,主要應用於電腦視覺和自然語言處理。 PyTorch 的設計目標是提供一個簡單易用、靈活且高效的工具,深受在深度學習領域的工作者的喜愛。它最大的核心功能是提供自動微分,幫助開發人員可以更容易地定義和優化神經網絡模型。同時,PyTorch的動態計算圖表更貼近Python風格的編程,因此更易於開發和調試。你可以使用標準的Python語句進行調試,並且更容易理解和檢查中間結果。 另一個特點是會使用動態計算圖表。相較於其他框架 (TensorFlow),PyTorch的計算圖是在運行時就構建的,表示計算會在每一行程式碼都完成後執行,使得使用者可以更靈活地進行模型構建和調試。此外,PyTorch還支援多GPU平行加速,可以加快模型訓練的速度。 PyTorch與TensorFlow的差異 PyTorch和TensorFlow是當今兩個最受歡迎且廣泛使用的深度學習框架,它們有一些重要的差異: 社群生態系統:TensorFlow擁有更大的社群生態系統和更廣泛的應用案例支援。許多大型公司和研究機構使用TensorFlow進行深度學習研究和應用開發。然而,PyTorch近年來的快速發展也使其社群生態系統不斷擴大,並且在學術界和研究領域中獲得了廣泛的支持,並且在最新、State-of-the-art和開源的AI算法幾乎都以PyTorch撰寫。 開發和調試:由於PyTorch的動態圖和Python風格的編程,它通常被認為更容易於開發和調試。您可以使用標準的Python語句進行調試,並且更容易理解和檢查中間結果。 課程説明 本課程講師是擁有13年以上的AI產學經驗、並且任職上市公司人工智慧研發部副理的黃志勝老師,以業界需求的實務角度著眼,貼近初學者的心態著手,介紹完整的近代人工智慧,神經網路的模型學習技巧,例如參數初始和更新方式、梯度更新方式、損失函數等。以及網路架構的介紹,包含感知神經網路、卷積神經網路、和時序系列神經網路(RNN、LSTM、Transformer)等,並帶著學員學習PyTorch的操作,詳述近代人工智慧應用與深度學習的相關技術。 主要重點有: 深度學習與 PyTorch 基礎觀念:從深度學習的基礎觀念開始介紹,深度學習的演變以及使用 PyTorch 進行深度學習專案的開發。 類神經網路相關主題:探討損失函數、梯度下降法、參數影響等,並如何選擇優化器。 卷積神經網路(CNN):利用 PyTorch 建立 CNN 網路,學習建構和訓練模型,進行物件偵測及影像偵測等實作。並完成三項實作練習: CNN影像分類 (貓狗分類) YOLO物件偵測 (人臉偵測) U-NET影像切割 (PASCAL VOC) 時序神經網路:遞迴神經網路(RNN)、長短記憶模型(LSTM)、GRU 網路和 Transformer 自注意力機制,並實際應用於以下兩項實作練習: 股價預測 英中文翻譯 課程適合誰 1. 想成為 AI 工程師者 2. 想了解深度學習 (Deep Learning)與訓練模型者 3. 想學習 PyTorch 操作、神經網路者 課程特色 1. 課程搭配卷積神經網路(CNN)與時序神經網路範例實作 2. 內容含市面少有的 Transformer : 自注意力 (Self-Attention) 教學 3. 老師擁有 13年學術上和業界的經驗,課程所教授的知識都是在 業界實際使用到的內容 課程大綱 一、深度學習與PyTorch基礎觀念 深度學習的演變 為什麼要使用 PyTorch:PyTorch 如何協助深度學習專案的開發 PyTorch 數值型態與基本運算 ONNX簡介 Pytorch dataloader 二、類神經網路 感知機神經網路 常用的 Activation Function (激勵函數, ACT) 透過 Activation Function 做到特徵非線性轉換 三、神經網路怎麼學習 損失函數 梯度下降法 倒傳遞學習法 參數常規化 參數初始方式 優化器(Optimizer)的選擇 四、卷積神經網路(CNN) 卷積神經網路常用的原件,例如: 卷積(Convolution) 最大池化(Max pooling) 全連結層(Fully connection) 激勵函數(Activation function) Softmax函數...等等 CNN經典模型介紹 : Alexnet、VGG、GoogleNet、Inceptionv2-v4、ResNet、DenseNet、MobileNet等等。 如何利用Pytorch自行建立CNN網路,以ResNet為例。 物件偵測方法介紹(YOLO) 影像切割方法介紹(U-NET) 資料增強(Data Augumentation) 實作:使用預模型做遷移學習、訓練自己的深度學習模型 CNN影像分類 (貓狗分類) YOLO物件偵測(人臉偵測) U-NET影像切割(PASCAL Visual Object Classes(PASCAL VOC)) 五、時序神經網路 遞迴神經網路(RNN) 長短期記憶模型(LSTM) GRU網路 Transformer:自注意力(Self-Attention) 實作:股價預測 實作:中英文翻譯 解鎖 Generative Adversarial Network (GAN)
Mastertalks
你可能感興趣的教室