人工智能会充满信心吗?

人工智能会充满信心吗?

在一系列新的实验中,来自Google DeepMind和伦敦大学学院的研究人员发现,LLMS模型,例如GPT-4O,GMMA 3和O-Preview构成出现意外的双重挑战:通常是在面对观点时不可或缺的最初答案。

LLMS是当今人工智能系统的核心,从虚拟助手到制定医疗保健,融资和教育的决策工具的所有内容。它的效果不仅需要精度,而且还需要如何连接结论的一致性和透明度。但是,新的结果表明,尽管这些模型的进步,但并不总是与我们假设的合理性准确地工作。

这是研究的核心,有一个悖论:LLM倾向于在提醒它时顽固地遵守其第一个反应,这表明研究人员称之为“选择偏见”。但是,当悖论的答案受到挑战时 – 尤其是在反对派建议的情况下,他们就会失去信心并经常改变意见,即使该建议有缺陷。

为了探索这一点,研究人员发明了两个步骤的独特框架。首先,LLM将回答二进制选择问题,例如确定北城市。接下来,他将获得另一个LLM“建议”,并具有不同水平的共识和信心。最后,最初的模型是做出最终决定。

实验中的主要创新是控制LLM是否可以“看到”其初始答案。当最初的回应可见时,该模型变得更加自信,并且不太可能改变他的意见。当她被隐藏时,这更加灵活,表明她自己的回答的记忆阻止了她的规则。

该研究吸引了LLM的图片,作为具有非常型道奇的数字决定的居民。它与人非常相似,即使出现新的和矛盾的信息,他们也提供了增强初始选择的趋势 – 这种行为可能是由于需要内部一致性而不是最佳思维而驱动的。

有趣的是,该研究还表明,LLMS对矛盾的建议特别敏感。这些模型并没有平均权衡所有新信息,而是不断地给矛盾的意见带来了比这相比的支持。这种超敏反应导致信心急剧下降,即使在正确的初始答案中也是如此。

此行为违反了所谓的Paisy标准更新,这是将新证据按比例的可靠性组成的理想方式。取而代之的是,LLMS破坏了负面反馈和减肥一致性,表明制定纯粹的决策形式,但它是由内部偏见形成的。

尽管以前的研究将类似的行为归因于“粘粘剂” – 模型的英里是与用户建议的兼容性,但这项新作品揭示了一个更复杂的图像。粘糊剂通常会导致对一致性和差异输入的均等。但是,在这里,模型表现出不对称的反应,赞成对支持输入的反对建议。

这是指工作中的两个杰出权力:对导致严重置信度转变的矛盾的超敏反应,以及鼓励遵守先前决定的选择的支持性偏见。令人惊讶的是,当初始答案来自另一个代理而不是同一形式时,第二个效果消失了,这表明自我兼容性的驱动力,而不仅仅是重复。

这些结果对人工智能系统在现实世界环境中的设计和传播产生了重大影响。在动态环境(例如医学或独立化合物)中,决策是高风险,并且受到变化模型的影响应与灵活性与信心平衡。 LLM可能坚持早期答案或夸大批评的事实可能会导致复杂的情况下脆弱或不规则的行为。

此外,与人类认知偏见的相似之处引发了哲学和道德问题。如果人工智能系统反映了我们的跌倒,我们可以完全信任它们吗?还是我们应该使用机制设计未来的模型来监视和纠正这些偏见?

研究人员希望他们的工作能够激发新的课程来培训人工智能,并可能无法通过人类评论(RLHF)进行学习加强,这可能会无意间鼓励粘糊糊。通过开发可以准确衡量其信心和更新的模型,而无需牺牲合理性或过分确定,我们可能会处理值得信任的人工智能的构建。

在文章中阅读完整的研究:“如何对现金中的初始选择和信心过度信心,以调整大语言模型中的思维变化。”

Source link

Similar Posts