AI難題：為什麼ChatGPT無法正確數出 Strawber... - 機器學習學習

AI難題：為什麼ChatGPT無法正確數出 Strawberry 中的 r？OpenAI o1如何解決？

在使用AI如ChatGPT或Claude時，你是否曾嘗試過問一個簡單的問題：「Strawberry這個單字中有幾個r？」令人驚訝的是，許多AI會給出錯誤的答案：2個，而實際上是3個。為什麼會出現這樣的錯誤？本文將探討AI難題「Strawberry問題」，以及OpenAI全新推理模型o1是如何解決這一挑戰的。

▍AI難題：Strawberry草莓問題

當你問ChatGPT或Claude關於「Strawberry中有幾個r」時，這些AI模型大多數都會回答錯誤，通常給出「2個」這樣的答案，儘管正確答案應該是「3個」。這是因為大多數大型語言模型（LLM）在訓練過程中，是基於一個「標記」來進行語言理解，AI將整個「Strawberry」視為一個單位，並不會逐字拆解這個單詞中的字母，因此無法正確判斷出其中的r數。

這類問題之所以被稱為「Strawberry問題」，是因為它看似簡單卻讓多數AI無法應對。這暴露出大型語言模型在處理細微語言結構時的局限性。對使用者來說，這類錯誤不僅令人失望，還可能帶來錯誤資訊的風險，尤其是在涉及精確問題的場景下。

▍OpenAI o1的出現：推理能力的新突破

為了解決「Strawberry問題」，OpenAI推出了全新的推理模型o1。這個模型具有一個關鍵的突破：擁有「思維鏈」推理能力。與傳統的LLM不同，o1不僅僅是基於預訓練的標記來回答問題，它會根據問題進行逐步推理和拆解，從而得出更準確的答案。

以「Strawberry問題」為例，OpenAI o1能夠分析出單詞中的每個字母，並正確回答其中有3個r。這種推理能力源於OpenAI在o1訓練中引入的強化學習（Reinforcement Learning, RL）技術。該技術讓AI在面對問題時，能夠反覆推敲，進行逐步解構，並且學會自我反思，從而修正自己理解錯誤的部分。

▍推理模型的應用與限制

OpenAI的o1模型在多項特定任務上表現卓越，特別是在競爭性編程、數學推理以及科學計算等領域。例如，根據OpenAI的報告，o1模型在國際數學奧林匹克資格考試中的得分達到了83%，遠超過此前GPT-4o的13%成績。此外，o1在Codeforces競爭性程式設計問題中排名第89位，這些成績展示了推理模型在解決特定高難度任務上的潛力。

不過，儘管o1在推理能力上優於傳統的LLM，但它也並非完美。例如，o1的推理步驟較多，因此在回答速度上相較於其他模型會有所延遲。OpenAI產品經理Joanne Jang也提醒大眾，雖然o1的確展現了進步，但它並非一個奇蹟般的「超級AI」，許多任務仍然有待提升，尤其是針對複雜任務的持續學習與進步。

▍未來展望：推理AI的發展方向

儘管o1模型在某些領域展示了其強大的推理能力，但這並不意味著AI的全面進化。事實上，AI的進步仍需長期的技術投入和研究突破，才能在更多領域中實現真正的實質性提升。尤其是在語言理解和複雜任務推理方面，AI如何實現更接近人類水平的判斷力，仍然是科學家們需要解決的重要課題。

對於普通使用者來說，理解AI的局限性，以及新技術的潛在可能性，將有助於更好地利用這些工具，並設定合理的期望。

「Strawberry草莓問題」揭示了目前多數AI模型在處理細節問題上的局限性，也反映了推理AI的潛在價值。OpenAI o1推理模型雖然展現了令人期待的解題能力，但其發展仍有空間。隨著技術的進步，我們期待AI能更好地處理複雜問題，並在未來的各種應用中發揮更大的作用。

➤ 歡迎在104學習精靈關注【AI趨勢報－科技愛好者的產地】獲得更多科技新知！