Hahow 好學校

GA數據、Google Adwords 認證、Google關鍵字廣告、Excel數據統計、數據管理、Google Analytics (分析) 個人認證資格、數據分析、Google Analytics、大數據

Hahow 小蛙編輯

創作內容編輯

2022/08/25

想提升數據團隊效率、讓協作更順暢,從coding下手吧!

想了解資料科學家的工作日常?這篇文章我們來談談團隊協作:你的 coding style 其實會影響整個團隊?要怎麼透過「Function 化」提升團隊效率?一次告訴你!
Hello 我是資料科學家 Aron!這是【資料科學家的工作日常】的系列文章。
第一篇文章我們簡介了資料科學家的工作內容;這篇文章會著墨在更技術面與實務面的內容,像是不好的 coding style 可能會造成什麼樣的風險,甚至進一步對公司造成什麼樣的傷害。
你的 coding style 如何影響整個數據團隊
對於資料科學家和數據分析師來說,雖然他們也寫程式,但他們寫程式的習慣和一般認知的工程師不太相同,甚至有些人對於寫 code 的背景知識明顯不足。或許你會說,「因為現在很多做數據分析的都不是本科系,理論知識當然不會那麼紮實」,我認同這是個可能的原因,但我也認為這不能當成藉口,一個專業工作者本來就應該補足自身的不足。我知道軟體工程師中也有類似的問題存在,但我畢竟對於資料科學界比較熟悉,因此只在我熟悉的領域內作評論。
舉個我親眼見證的例子。我們數據團隊有一台 Server,可以用來運算較大量的資料。在 Server 上通常可以開多個帳號,每個人在自己的帳號底下作業,偶爾也會為了某些業務新增獨立的帳號,所有的程式碼與運算結果就放在這個帳號底下。另外,數據團隊也經常需要排程執行某些運算,像是每個月初會預測即將流失的顧客,並與行銷部門合作,針對這些顧客進行挽回的行銷活動。
我曾經在Server上發現一個很少人使用的帳號,根據團隊的說明文件,這個帳號會在每天執行某些檢查,並判斷是否需要進行運算及資料更新。當我登入這個帳號的時候,發現它的自動排程不是使用 Linux 的 crontab 執行,而是寫一個 for 迴圈,每天在固定時間點檢查是否需要進行運算,不需要的話就等 24 小時候再檢查。當我發現這支驚為天人的 code 時,它已經不眠不休的跑了兩年,程式的撰寫者早已離職,而且這支程式占用了一顆 CPU 99.8% 的效能,極度荒謬。
另一個例子,是我發現竟然有人會在 code 裡面使用中文作為變數名稱,這在技術面上可能可行,但有一定的風險,因為中文字會牽涉到編碼問題,當同樣一份檔案換到另一台電腦執行時,可能會因為電腦系統的設定不同,或是編輯器 (IDE) 的設定不同,導致無法正常運作。如果要寫中文,強烈建議還是寫在註解裡面就好。
詳見原文>
0 0 410 1