蘋果公司聲稱針對推理的人工智能模型能力有限,並且在超過一定複雜度後無法生成準確結果。
蘋果公司(Apple Inc)週末發布了一份研究論文,聲稱針對推理的人工智能模型能力有限,並且在超過一定複雜度後無法生成準確結果。
在一篇題為「思考的幻覺:通過問題複雜性的視角理解推理模型的優勢與局限性」的論文中,蘋果(Apple)(NASDAQ:AAPL)研究人員表示,較大的推理模型(LRMs)在推理質量上存在明顯差距,並且未能發展出通用問題解決能力。
研究人員測試了包括OpenAI的O1/o3、DeepSeek-R1、Claude 3.7 Sonnet Thinking和Gemini Thinking等LRM模型,通過日益複雜且偏離標準AI測試基準的問題進行評估。
蘋果研究人員使用「可控制的謎題環境」來測試這些模型,發現LRM的性能隨著複雜性增加而惡化,最終在面對高複雜度時準確率降至零。
「我們表明,最先進的LRM(例如o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能發展出可泛化的問題解決能力,在不同環境中,當超過特定複雜度時,準確率最終會降至零,」蘋果研究人員在論文中寫道。
研究人員表示,測試顯示LRM存在「根本性效率低下」問題,並且在擴展能力方面有明顯限制。研究人員還質疑了基於既定數學基準的LRM當前評估方法,並表示他們通過使用算法謎題環境設計了更受控的實驗方法。
蘋果研究人員質疑LRM是邁向通用AI重要一步的說法——通用AI是一種理論形式的AI,可以模擬人類展示的廣泛認知能力和問題解決技能。
通用AI長期以來被主要開發商視為最終目標,儘管它在本質上仍然是高度理論性的。當前的AI模型,特別是大型語言模型,使用模式識別來預測序列中的下一個詞以生成新文本,這仍然使它們容易出現高錯誤率並限制了它們的推理能力。
蘋果的論文發布時間恰好在該公司6月9日全球開發者大會前幾天,由於該公司的AI努力大幅落後於競爭對手,市場預期較低。
儘管與OpenAI合作在其旗艦設備中啟用AI功能,蘋果仍在努力推出其AI產品——Apple Intelligence——所承諾的功能。