Meta 繼推出 Llama3 後,再次震撼市場,這次的主角是新一代電腦視覺模型——SAM2。在電腦視覺領域,影像分割技術一直是個難題。傳統方法需要大量人工標註,耗時費力。而 SAM2 模型的出現,將這一切變得簡單高效。這篇文章將帶你了解 SAM2 是什麼,如何利用其開源優勢,及其在影像分割上的革命性進展。
▍SAM2 是什麼?
去年,Meta 推出了首個「Segment Anything Model」(SAM),目標是自動化圖片分割,減少人工標註的需求。相比傳統的分類和物體檢測模型,SAM 能夠自主學習分類,不僅限於已訓練的物體。用戶只需提供範例,模型便能進行分類,無需大量訓練數據,特別適用於特殊物體的分割。
▍SAM2 的突破
在 SAM 基礎上,SAM2 進一步簡化了模型架構,提升了性能。SAM2 不僅處理靜態圖像,還支持動態影片分割,每秒可處理最多 44 幀。更重要的是,SAM2 提高了分割精度,加速了數據集的創建,讓物體檢測模型的訓練更加容易。
例如,物流公司每天需識別大量物品,自動駕駛公司需實時識別路況物件,SAM2 的高效分割能力可大大提升這些應用場景的效率。
▍時空遮罩與 Masklets SA-V Dataset
Meta 隨 SAM2 發布了包含 51,000 個影片和超過 600,000 個「Masklets SA-V Dataset」的小型時空遮罩。這些遮罩是去背後的連續影像,經過 Diffusion model 切分成像素化的網格,轉換成 Transformer 模型可讀的資料元。這讓影像分割變得更加智能和精確,開啟了 Diffusion model 與 Transformer model 混用的新模式。
▍SAM2 的開源策略
Meta 釋出 SAM2 的程式碼和模型權重,並使用 Apache 2.0 授權,這一舉動反映了祖克柏的願景——將 AI 模型免費提供給更多人使用。這對試圖商業化此類技術的公司是一大挑戰,但對開發者和研究者來說,無疑是個巨大機會。
開源的 SAM2 提供了強大的工具,讓開發者能在電腦視覺領域進行更多創新與探索。從提升影像分割效率,到推動新技術的應用,SAM2 將成為許多項目的基石。
SAM2 的推出,不僅在性能上有了飛躍性的進步,還大大簡化了模型設計,提升了分割精度和效率。通過開源,Meta 讓更多人能夠利用這項技術,推動電腦視覺的發展。
無論你是開發者還是企業主,SAM2 都能為你的項目提供強大支持,讓影像分割變得更簡單、更高效。Meta 的這一舉動,將AI技術推向了新的高度,也為未來的創新打開了無限可能。
➤ 歡迎在104學習精靈關注【AI趨勢報-科技愛好者的產地】獲得更多科技新知!