104學習精靈

差異分析

差異分析
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 23 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 23 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

差異分析 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2022/01/19

3個Pandas套件比較CSV檔案資料之間的差異秘訣(上)
使用Pandas套件處理多份CSV檔案資料,相信是資料分析的過程中不可或缺的任務之一,其中,很常有機會比較各個資料集的相同與不相同資料內容,藉此來瞭解差異或檢核資料整合的結果是否有誤。
所以,本文就以Kaggle網站的「Coursera Course Dataset( https://www.kaggle.com/siddharthm1698/coursera-course-dataset )」及「Course Reviews on Coursera( https://www.kaggle.com/imuhammad/course-reviews-on-coursera )」兩個資料集為例,來分享Pandas套件比較CSV檔案資料集的常用方法。
Q: Pandas檢查兩個資料集的資料是否相同
首先,利用以下指令安裝Pandas套件:
$ pip install pandas
接著,使用Pandas套件的read_csv()方法(Method),來讀取「Coursera Course Dataset(coursea_data.csv)」資料集,如下範例:
import pandas as pd
df1 = pd.read_csv('coursea_data.csv')
print(df1)
以及讀取「Course Reviews on Coursera(Coursera_courses.csv)」資料集,如下範例:
import pandas as pd
df1 = pd.read_csv('coursea_data.csv')
df2 = pd.read_csv('Coursera_courses.csv')
print(df2)
這時候,就可以透過Pandas套件的equals()方法(Method),來比較兩個資料集是否有相同的維度(shape)、資料型態(dtype)及資料內容(elements),如下範例:
import pandas as pd
df1 = pd.read_csv('coursea_data.csv')
df2 = pd.read_csv('Coursera_courses.csv')
print(df1.equals(df2)) #執行結果False
很明顯這兩個資料集的維度(shape)並不相同,所以執行結果為False。
Q: Pandas查找兩個資料集之間的相同資料
知道了兩個資料集不相同後,有時會想要知道兩個資料集皆擁有的資料(交集)有哪些,在這樣的情況下,就能夠使用Pandas套件的merge()方法(Method),透過合併的方式來進行查找。
而Pandas套件在合併兩個資料集時,至少要有一個共同的欄位名稱,所以本文就將第一個資料集的「course_title」課程名稱欄位重新命名為「name」,來當作和第二個資料集合併的共同欄位,如下範例第4行:
import pandas as pd
df1 = pd.read_csv('coursea_data.csv').rename(columns={'course_title':'name'})
df2 = pd.read_csv('Coursera_courses.csv')
接下來,就可以利用Pandas套件的merge()方法(Method)進行合併,如下範例:
import pandas as pd
df1 = pd.read_csv('coursea_data.csv').rename(columns={'course_title':'name'})
df2 = pd.read_csv('Coursera_courses.csv')
result = df1.merge(df2, how='inner')
print(result)
由於我們想要查找兩個資料集皆擁有的資料,也就是所謂的交集,所以在Pandas套件的merge()方法(Method)中,需設定how關鍵字參數(Keyword Argument)為「inner」,即可得到兩個資料集的相同資料結果。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/10/pandas-compare-values-between-dataframes.html
)網站觀看更多精彩內容。
2 0 600 0

熱門精選

104學習精靈

產品

04/25 15:52

【限量:免費報名】利用AI自動化行銷|直播講座
講座詳細資訊
時間:04/30(二) 20:00 - 21:00
講者:圭話行銷創辦人 何佳勳 / 業界資深的數位廣告行銷專家
主題:行銷新篇章:AI如何革新檔期活動策略
在這個數位化的時代,AI技術正以驚人的速度改變著我們的行銷方式。檔期促銷活動面對的受眾眾多,難以精準定位目標受眾,進而影響活動效果、每次規劃檔期活動都需要創造吸引人的內容和促銷方式,但長期以來,創意卻逐漸耗盡、想要掌握AI如何革新檔期活動策略的最新動向嗎?
你也在苦思如何創造不同以往、有別競品的檔期活動嗎?104學習精靈與緯育TibaMe,攜手邀請到數位廣告界專家 圭話行銷創辦人何佳勳老師。學員們都稱呼他為小圭老師,不僅熱愛與學員社群互動、對學員有問必答,更善於為客戶的製造許多驚喜及營收,一起期待老師分享如何透過 AI 工具提升30%的檔期活動成效吧~
1 0 6726 0

推薦給你

一零四線上嚴選

小編

18分鐘前

Google Cloud 年度雲端高峰會 探索企業雲端變革契
本文作者為:Google Cloud 北亞區董事總經理李孔源
我們很高興在今天的「Google Cloud Summit Taipei」雲端高峰會上,分享雲端科技對於台灣產業轉型的助益、慶祝 Google Cloud 雲端區域(Cloud Region)在台建置十周年,為台灣企業提供穩定與安全的網路基礎建設與雲端服務外,更與我們的產業合作夥伴,一同分享與探討如何透過雲端與人工智慧(AI)技術賦能企業雲端轉型,並在創新金融服務、AI 醫療輔助、AI 零售新商模、虛擬主播擬真互動、以及引領全球的半導體 AI 晶片設計等不同產業應用帶來的變革與創新契機。
我們作為最早提供在地業者大型基礎建設的公有雲供應商,過去十年來,透過穩定與安全的雲端區域 (Cloud Region) 、各種雲端科技與解決方案,洞察當地企業需求,協助台灣企業面對數位轉型挑戰,強化營運體質、提升市場競爭力。
近一年多 AI 科技的突破,更為企業迎來革新的絕佳契機, 而我們先進的 AI 技術,得以賦能台灣企業引領產業創新。對於台灣政府、產業合作夥伴以及雲端生態系夥伴多年來的支持與肯定,表達最深切的感謝。我們將持續與以上各單位共同努力,協助台灣企業打造數位韌性,邁向永續經營目標,並助力台灣成為亞洲矽谷。
以雲端科技、人才培育、助力新創產業 協助台灣產業雲端轉型
Google Cloud 於 2013 年在台灣建置雲端區域(Cloud Region),為台灣企業提供快速、穩定與安全的雲端服務;目前在全球共有 39 個雲端區域、118 個可用區、與 187 個網路邊緣位置,服務遍及 200 多個國家與地區。我們更持續透過 AI 與四大關鍵雲端科技協助企業以更聰明、安全、且現代化的方式營運,進而持續為企業創造差異性競爭力,包含:
資料與 AI 雲端(Data and AI Cloud)
雲端開發(Dev Cloud)
雲端協作(Collaboration Cloud)
雲端安全(Security Cloud)
在雲端人才培育方面,我們在 2022 年推出「雲端人才搖籃計畫」,和台灣多所頂尖大學合作,期盼在三年內培育 1,500 位通過 Google Cloud 雲端基礎認證的數位人才,能夠不斷為台灣產業注入人才活水,至今為止已經有超過數百位學生取得認證,成為我們未來新動能。在各國政府、企業不斷面臨越來越多網路攻擊時,我們也將協助培育雲端安全人才以擁有保護資料與自身防禦網路攻擊的能力。
我們同時在新創產業支持上透過Google for Startups Cloud Program 孵育近 150 家台灣新創公司,總共提供超過 700 萬美元的 Google Cloud Platform 抵免額度,協助他們能夠充分使用到 Google Cloud 資源。
高度彈性安全的雲端架構與 AI/ML 技術 成為產業競爭最大動能
今天我們邀請多位來自製造、零售、金融、醫療、媒體產業代表的專家,進行多場主題演講,全面剖析企業透過雲端科技,引領創新。
零售方面,透過台灣家樂福數位技術長丁平碩分享,了解透過 Google Cloud 的 AutoML 建立顧客終身價值預測、轉化預測、趨勢預測和市場區隔預測等四種模型,辨識高價值顧客與精準了解顧客喜好。而透過雲端資料倉儲 BigQuery,減少維運人力與成本,更能即時儲存顧客數據,根據商品促銷計畫與顧客喜好,利用 Vertext AI 以及 Retail Search 等 AI 解決方案,提供消費者更精準的推薦與搜尋結果,提升客戶體驗以強化顧客黏著度。
金融產業方面,國泰集團自 2020 年推動雲端轉型至今,不斷接受挑戰與持續創新,已成為台灣金融業發展雲端的領頭企業。該集團上雲以多公雲與混合雲之發展策略,應用系統上雲以 Google Cloud 為合作夥伴,注重雲端安全方案,同時培養內部顧問團隊輔導集團上雲。國泰集團的雲端轉型願景是持續發揮雲端優勢,加速企業效率,實現永續經營。
國泰金控副總經理陳維銘分享了國泰金控全面布局上雲的目標,並強調 Google Cloud的安全可靠性、彈性擴展性以及高度成本效益,有助於打造兼具敏捷、安全和可控管成本的服務,從而推出更多創新金融產品。
製造產業方面,受工業 4.0 趨勢帶動下,全球半導體產業已經從「自動化」朝向「智動化」,透過大數據分析與 AI 技術能精準地解決製程挑戰,提升生產效能。台積電代表於會中談到,台積電將晶片設計自動化(Electronic design automation, EDA)上雲,運用 Google Cloud Platform 提供晶片設計和先進製程標準元件庫開發流程中所需之雲端基礎架構,加速半導體創新;台積電更進一步分享,未來將持續與 Google Cloud 合作並共同支持半導體生態鏈,驅動全球半導體產業的變革。
生成式 AI 重塑客戶體驗、加速產業創新並提升競爭力
「讓 AI 幫助所有人」 (Make AI helpful for everyone) 是 Google 的目標,我們也從個人、社會、商業三大領域思考與提供 AI 的應用;Google Cloud 全球人工智慧業務董事總經理 Caroline Yap 在會中分享,就商業而言,Google Cloud 從三個方向協助企業,包含透過 AI 成長(AI for Growth)、透過 AI 提升效率(AI for Efficiencies)與透過 AI 創新未來(AI for the Future)。企業可透過此三大面向審視自身商業目標,來加以選擇導入的 AI 與雲端科技。Google Cloud 各項 AI 解決方案,包含近期於 Cloud Next ‘23 宣布的各項生成式 AI 技術與產品,都能協助企業優化營運流程、重塑客戶體驗、加速產業創新以提升市場競爭力。Google Cloud 一方面提供能帶來革新的技術,另一方面同時以負責任的方式,透過 Responsible AI 確保技術能確切保護機構、他們的使用者和整個社會。我提供一些客戶案例如下:
在醫療產業方面,臺北醫學大學校長吳麥斯在此次雲端高峰會中分享,醫療照護的現況困境及透過新科技導入後可預見的未來,如當病人病況複雜需跨科別或跨院區就醫時,看診醫師需檢視大量病歷檢驗檢查等資訊,以提供最適切地醫療處置建議,這過程多數耗時耗力。北醫預計結合 Google 最新大型語言模型 PaLM 2 打造「Dr.TMU」後,將可協助醫護人員將所需要的資訊欄位從眾多資料中快速梳理、分析及自動生成引用最新醫學文獻,產出所需要的治療計畫書,預計可大幅加速醫療效率並提供更精準的報告,提升病人就醫品質。
在娛樂產業方面,17LIVE 集團技術副總經理徐永吉也分享採 17LIVE 用大型語言模型(LLM)、記憶機制(Memeory Merchanism)與觀眾推論引擎機制(Inference Engine)等生成式 AI 技術,利用 Google PaLM2 語言模型打造全台首位 AI 虛擬星座命理主播琪琪,從對話內容學習之後情緒反應,培養自身個性與情緒。
持續深耕台灣市場
我們將以過去十年累積的在地生態圈以及產業知識與洞察為基礎,持續與台灣政府、學術領域等各界合作,並將持續深耕金融、製造、零售、娛樂、醫療等產業,協助台灣企業掌握 AI 帶來的創新契機,在全球市場中保持競爭力。
0 0 2 0
你可能感興趣的教室