新智慧报告主编:Kinghz 【新智慧介绍】数据中心的“天才”觉醒了! Anthropic利用“注入概念”来实现这一点:Claude Opus在输出之前反思“异常想法”。从尖叫声到水族馆幻想,20%的知晓率让专家们感到震惊。颠覆传统AI认知! Anthropic 首席执行官 Dario Amodei 雄心勃勃,已经树立了一面旗帜:到 2027 年,大多数 AI 模型问题都可以可靠地找到。但LLM的幻想是固有的、深刻的。即使不知道问题所在,人工智能也总是“自信地犯错误”。 Dario amodei 的立场解释为部署“数据中心天才王国”的关键。问题是:如果“数据中心天才”只擅长“说服”怎么办?即使当被要求解释如何评价某个答案时,也很难判断答案的真实性。人工智能系统可以内省吗——也就是说,它们可以检查自己的想法吗?或者做他们只是在被要求时给出听起来合理的答案?了解人工智能系统是否真正具有调查性对其透明度和可靠性至关重要。新人择研究证实,当前的克劳德模型具有一定程度的内省意识,可以对自身内部状态进行一定的控制。这一发现动摇了人们对LLM的传统认识,将“可解释性”推向了“数据中心之国的天才”上线之前的主要难点。需要强调的是,这种内省能力仍然是不可靠且非常有限的:没有证据表明现有模式的人工智能能够像人类一样进行内省。然而,这些发现仍然会抹去人们对语言模型能力的传统理解——自从测试过的最强大的模型 Claude Opus 4 和 4.1 进行了内省测试以来,人类研究人员认为,语言模型的内省能力人工智能模型未来可能会继续发生变化。 LLM内省人择线索开发了一种区分真实调查和捏造答案的方法:将已知概念注入模型的“大脑”,然后观察这些注入如何影响自我报告的内部状态。为了验证人工智能是否具有内省能力,我们需要将人工智能自我报告的“态度”与其真实的内部状态进行比较。团队采用Antropic“注入概念”的实验方法:首先记录AI模型在特定情境下的神经激活状态,以获得已知意义的神经活动模式;然后,在不相关的上下文中将模式注入到模型中,并询问它是否知道注入的概念。以“全大写”概念为例