
在十七世纪,德国天文学家约翰内斯·基布尔(Johannes Kibler)再次发现了运动定律,使我们有可能在阳光下旋转时太阳系的行星在天空中出现在天空中。但是,这只是几十年来,艾萨克·牛顿(Isaac Newton)制定了全球重力定律,这些定律被理解为基本原则。尽管它受到开普勒法律的启发,但它们走得更远,并可以将相同的格式应用于从炮弹路径到潮汐控制的潮汐云的所有事物,或者如何从地球到月球或行星表面发射卫星。
如今,先进的人工智能系统已经在做出类似Kepler轨道预测的这种特定预测方面变得非常出色。但是,他们知道为什么这些预测有效,并具有从牛顿法律等基本原则中产生的深刻理解?由于世界取决于这些类型的人工智能系统,因此研究人员努力试图衡量他们的工作方式以及对现实世界的理解深度。
现在,马萨诸塞州科技研究所的信息系统和决策研究所(LID)和哈佛大学创造了一种新方法来评估其主题中这些预测系统的加深,以及他们是否可以将知识从一个领域应用于稍微不同的群体。通常,在他们研究的示例中,这个阶段的答案并不多。
结果是在上个月在不列颠哥伦比亚省温哥华举行的国际自动学习会议上介绍的。
该研究的主要作者法瓦说:“人们一直都能够从良好的预测到全球模型的过渡。”因此,他们的团队正在对待的问题是:“我们有大赦国际的机构能够实现从预测到全球模型的发展?他说。
彼得·德·弗洛雷斯(Peter de Florez)教授莫利纳森(Molinathan)说:“我们知道如何测试该算法是否很好。但是我们需要的是一种测试我是否理解的方法。” “即使定义理解的含义也是一个挑战。”
在开普勒对抗牛顿的类比中,瓦法说:“这两种模型都在一个任务中运作良好,该任务主要在这项任务中以相同的方式工作。牛顿提出的是能够概括新任务的想法。”当将其应用于执行各种人工智能系统的预测时,将需要一个全球模型,以便能够“克服您从事的任务并能够概括新类型的问题和模型”。
与格雷戈尔(Gregor)对遗传遗传基本定律相比,有助于阐明这一点的另一个措施是,积累的知识几个世纪之间的累积知识几个世纪之间的差异。
他说:“在这个领域,关于使用基本模型不仅要执行任务,而且要学习有关世界的东西的兴奋,”例如在自然科学中。 “您将需要适应,并且它具有通用模型来适应任何可能的任务。”
人工智能系统是否在达到这种概括的能力附近?为了测试这个问题,团队研究了预测性人工智能系统的各种示例,即复杂程度不同。在最简单的示例中,系统成功地创建了模拟系统的现实模型,但是由于这些示例变得更加复杂,因此这种能力已迅速消失。
该团队开发了一个新的量表,这是一种衡量系统接近实际情况的方式。他们称归纳偏见 – 基于考虑有关特定案例的大量数据而得出的推论,对反映现实的反应的任何趋势或偏见。
他们将其视为诗歌模型的最基本的例子是。在单一的诗歌中,有些东西可以沿线移动。 VAFA分别将其与百合平台之间跳跃的青蛙进行了比较。当青蛙跳或坐着时,他称您为您所做的事情 – 右或左或留下。如果您到达行中的最后一个百合板,则只能留下或返回。如果某人或人工智能系统会听到呼叫,而没有了解百合垫的数量,可以发现该构图吗?答案是肯定的:在如此简单的情况下,预测模型可以很好地重建“世界”。但是,即使使用网络,随着它们增加尺寸的数量,系统也无法再实现这一目标。
张说:“例如,在两到三种情况的诗歌中,我们已经证明该模型对实际状态具有良好的提取偏见。” “但是随着案件数量的增加,它开始对现实世界中的模型不同意。”
一个更复杂的问题是可以玩其他Lo的游戏的系统,该游戏包括网络上的黑色或白色平板电脑的玩家。人工智能模型可以准确地预测一定时刻允许的内容,但事实证明,在结论黑板上切割的总体安排是什么是什么,包括当前被禁止使用的那些。
之后,团队研究了实际使用的五个不同类别的预测模型,而且系统越复杂,与真正的全球基本模型相匹配时所产生的预测条件就越多。
Fava说:“借助这种新的归纳偏见规模,“我们的希望是提供一种测试床,您可以在其中评估不同的模型和不同的培训方法,以及我们知道现实世界模型的问题。”他说,如果在这些情况下我们已经知道基本现实的良好表现,那么我们可以更加相信它的预测即使在“我们真的不知道真相”的情况下,它也可能有用。
人们已经在尝试使用这些类型的人工智能系统来帮助科学发现,包括诸如尚未实际创建的化合物的特性,或用于潜在的药物化合物的特性,或者预测未知蛋白质颗粒的行为和特性。 Fava说:“对于更现实的问题,即使对于基本机制之类的问题,我们发现这似乎还有很长的路要走。”
“基本模型周围有很多噪音,人们试图建立基于生物学,基于物理学的基本模型,机器人机构模型,其他类型的领域的基本模型的基本模型的基本模型,并在其他类型的领域中收集了很多数据”,并培训这些模型以做出预测,”我希望您在其他大厅中使用同一领域的知识。
这项工作表明还有很长的路要走,但也有助于展示前线。张说:“我们的论文表明,我们可以运用我们的标准来评估通过表演来评估学习的学习量,以便我们可以达到培训基本模型的更好方法,或者至少评估我们目前训练的模型。” “作为一个工程领域,一旦我们有一定的衡量标准,人们就会真正地改善这一规模。”