苹果公司声称针对推理的人工智能模型能力有限,并且在超过一定复杂度后无法生成准确结果。
苹果公司(Apple Inc)周末发布了一份研究论文,声称针对推理的人工智能模型能力有限,并且在超过一定复杂度后无法生成准确结果。
在一篇题为「思考的幻觉:通过问题复杂性的视角理解推理模型的优势与局限性」的论文中,苹果(Apple)(NASDAQ:AAPL)研究人员表示,较大的推理模型(LRMs)在推理质量上存在明显差距,并且未能发展出通用问题解决能力。
研究人员测试了包括OpenAI的O1/o3、DeepSeek-R1、Claude 3.7 Sonnet Thinking和Gemini Thinking等LRM模型,通过日益复杂且偏离标准AI测试基准的问题进行评估。
苹果研究人员使用「可控制的谜题环境」来测试这些模型,发现LRM的性能随着复杂性增加而恶化,最终在面对高复杂度时准确率降至零。
「我们表明,最先进的LRM(例如o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能发展出可泛化的问题解决能力,在不同环境中,当超过特定复杂度时,准确率最终会降至零,」苹果研究人员在论文中写道。
研究人员表示,测试显示LRM存在「根本性效率低下」问题,并且在扩展能力方面有明显限制。研究人员还质疑了基于既定数学基准的LRM当前评估方法,并表示他们通过使用算法谜题环境设计了更受控的实验方法。
苹果研究人员质疑LRM是迈向通用AI重要一步的说法——通用AI是一种理论形式的AI,可以模拟人类展示的广泛认知能力和问题解决技能。
通用AI长期以来被主要开发商视为最终目标,尽管它在本质上仍然是高度理论性的。当前的AI模型,特别是大型语言模型,使用模式识别来预测序列中的下一个词以生成新文本,这仍然使它们容易出现高错误率并限制了它们的推理能力。
苹果的论文发布时间恰好在该公司6月9日全球开发者大会前几天,由于该公司的AI努力大幅落后于竞争对手,市场预期较低。
尽管与OpenAI合作在其旗舰设备中启用AI功能,苹果仍在努力推出其AI产品——Apple Intelligence——所承诺的功能。