AI 趨勢報-科技愛好者的產地🤖

人工智能、ChatGPT、調校、Artificial Intelligence、研發、數學、人工智慧、Bing

知識貓星球

喵星人

08/09 09:00

Apple 開源 OpenELM AI 模型:功能、優勢及訓練框架解析

蘋果終於進軍AI領域,推出全新開源語言模型OpenELM。這篇文章將深入探討OpenELM的功能、優勢及其訓練框架,幫助開發人員了解如何在蘋果裝置上高效運行AI模型,提升工作效率和產品質量。
▍蘋果推出OpenELM:AI模型的新選擇
在微軟、Meta、Google等科技巨頭相繼發布自家AI模型後,蘋果終於發聲,推出了全新的開源語言模型家族——OpenELM。這個模型的全名是開源高效語言模型(Open-source Efficient Language Model),能夠在蘋果裝置上高效運行。OpenELM提供了四種不同參數規模的模型,分別是2.7億、4.5億、11億及30億參數,並且每個規模都有預訓練和指令調校兩個版本,總共提供了八種版本供開發者選擇。
▍多樣化模型選擇,滿足不同需求
蘋果已經在Hugging Face上公開了這些模型,並提供完整的訓練和評估框架,開發人員還可以利用提供的程式碼將模型轉換成MLX函式庫,以便在蘋果裝置上進行推論和微調。這意味著,無論是從事什麼樣的AI應用,開發人員都能找到適合的OpenELM模型版本來滿足需求。
▍高效訓練框架:CoreNet
在訓練方面,OpenELM模型使用了CoreNet函式庫作為訓練框架。其預訓練資料集包括了RefinedWeb、去除重覆資料的PILE、RedPajama和Dolma v1.6各一個子資料集,共1.8兆token。這樣的資料集配置使得模型在訓練過程中能夠獲得廣泛而深入的語言知識。
▍分層擴展策略提升準確率
OpenELM融合了分層擴展策略,能將模型參數有效分配到transformer模型各層,以提升準確率。例如,11億參數版本的OpenELM比12億參數版本的OLMo在準確率上高出2.36%,但使用的預訓練資料token僅為其一半。這展示了OpenELM在有效利用資源方面的優越性能。
▍性能比較:OpenELM vs 其他模型
蘋果也列出了OpenELM在不同裝置上的性能數據。在一台Nvidia GPU/Ubuntu筆電上,OpenELM 4.5億參數版本的提示執行效能已超過MobiLama,而2.7億參數版本與OPT相差無幾。在程式碼生成任務上,雖然各個版本都還有改進空間,但已經展示了不錯的潛力。此外,蘋果還提供了在Apple Silicon-based MacBook Pro上的執行數據,顯示出OpenELM在自家裝置上的優異表現。
▍蘋果的AI研發成果
這次OpenELM的推出,是蘋果繼去年十月開源多模語言模型Ferret及今年三月的MM1之後,再度展示其在AI領域的研發成果。與以往不同的是,OpenELM特別強調其在蘋果裝置上的高效運行能力,這對於廣大使用蘋果產品的開發者來說無疑是個好消息。
▍競爭與未來展望
目前,微軟也推出了可在筆電上執行的小語言模型(SLM)Phi-3系列,最小版本有38億參數。微軟強調Phi-3在語言理解、推理、數學及寫程式等能力上,比更多參數的模型如GPT-3.5 Turbo、Mistral還要強大。面對這樣的競爭,蘋果與其他晶片業者如英特爾、AMD、高通等,預計在今年內推出為AI模型執行設計的第一代或新一代晶片。蘋果最新的Apple Silicon M4預計在今年稍後問世,並會在年底推出搭載M4晶片的Mac產品。
OpenELM的推出標誌著蘋果在AI領域邁出了重要一步。通過開源這些高效能的語言模型及其訓練和推論框架,蘋果不僅為開發者提供了強大的工具,也展示了其在AI技術上的雄厚實力。無論是在語言理解、程式碼生成,還是其他AI應用領域,OpenELM都有望成為開發者的首選。
➤ 歡迎在104學習精靈關注【AI趨勢報-科技愛好者的產地】獲得更多科技新知!
1 0 626 0