与Syftr一起找到AI AI AIS“银弹”流

tl;医生

阻止Aignic AI项目的最快方法是重复使用不再适合的工作流程。使用SYFTR,我们为Lodernner和Righinacy优先级选择了“银弹”流,它们在多个数据集中都表现良好。这些流动的表现要优于随机的播种和转移学习。他们在一小部分成本上恢复了大约75%的SYFTR操作性能,使其成为一个快速的起点,但仍然留出了改进的空间。

如果您试图从一个项目中重复一个代理商的工作,那么您就会知道您跌倒了多少次。模型上下文的长度可能不够。新用途可能需要更深入的思考。或者,茴香要求已改变。

即使旧设置有效,对于新问题,它也可能过多 – 价格过高。在这些情况下,您可能需要的最简单,更快的准备工作。

我们开始回答一个简单的问题: 是否有在许多使用案例中效果很好的代理流,因此您可以根据自己的优先级选择一个,并继续前进?

我们的研究表明答案是肯定的,我们称它们为“银线”。

我们已经将银色的领先优势设定为传播和较高写作的每个较低的目标。在早期的改进中,他们不断地克服随机传播和种子学习,同时避免运营完整的SYFTR的全部成本。

在以下各节中,我们解释了如何找到它以及如何通过其他播种策略积累。

Barretto所有者的快速初步

您不需要一定程度的数学来遵循它,但是了解国家设备将使本文的其余部分变得更加容易。

图1是一个解释性散射图,不是我们的实验 – 它显示了完整的SYFTR改进体验。子图A和子图B是相同的,但B强调了前三个Barito所有者:P1(RED),P2(绿色)和P3(蓝色)。

与Syftr一起找到AI AI AIS“银弹”流
  • 每种经验: 评估特定流量的形成,以准确性和平均小茴香(较高的精度,较低的小茴香更好)评估。
  • Pareto-Frontier(P1): 没有其他流量具有更高的精度和较低的小茴香。这是 罕见
  • 其他部分流: 至少一个巴里托流都超过两个标准。这是 控制
  • P2,P3: 如果删除P1,则P2成为最佳边框,然后是P3,依此类推。

您可以根据自己的优先级在帕累托流量之间进行选择(例如,以最高准确性下降小茴香),但是没有理由选择主要的流程 – 边界上总有更好的选择。

通过SYFTR改善人工智能的流动

在实验过程中,我们使用SYFTR来改善剂量的准确性和小茴香。

这种方法可以让您:

  • 选择包含问题的数据收集 – 答案(QA)
  • 确定流动教师的搜索空间
  • 设定诸如准确性和成本之类的目标,或在这种情况下,准确性和小茴香

简而言之,SYFTR自动化以探索针对您的目标的流程配置。

图2显示了高级SYFTR结构。

图02 SYFTR
图2:高级SYFTR结构。对于一组质量保证,SYFTR可以通过比较实际答案的流量来自动探索代理流动的代理流动。

查看并未在工作流的可能标准中结束的数字,SYFTR取决于两种主要技术:

  • PAISI – 目标改进 有效地在搜索空间中移动。
  • 甲状腺酸占主导地位 停止尽早评估最佳最佳最佳流量,节省时间和计算,同时继续浏览最有效的配置。

银铅实验

我们的经验遵循四个部分的过程(图3)。

图03实验
图3:工作流程从两个步骤的生成数据开始:
一个: 使用种子的简单随机样品运行SYFTR。
为了: 在所有其他实验中运行所有最终流。结果数据,然后以下一步为单位。
一个: 确定银线并进行运输。
D: 使用三种不同的种子策略,在四个数据库设置上进行SYFTR的操作。

步骤1:改善每个数据集的流量

我们对以下每个数据收集进行了数百次经验:

  • 讨论任务3音乐
  • Financebench
  • hotpotqa
  • 多hoprag

每个数据集, syftr 帕累托最佳流量一直在搜索,提高准确性和茴香(图4)。

图04训练
图4:四个数据集的改进结果。每个点都是一个在50对质量检查中评估的教师组。红线非常出色,具有TPE注定的最佳准确性和访问物体。

步骤3:确定银线

一旦我们在所有训练数据集中都有相同的流量 平均的 通过所有数据集。

图05银铅过程
图5:产生银铅的过程,将“银铅”步骤分开。

实际的:

  1. 每个数据组结果的归一化。对于每个数据集,我们根据该数据集中的最高值将准确性和茴香的归一化。
  2. 一组相同的流。然后,我们收集跨数据收集的流量,并计算出它们的平均准确性和砂浆。
  3. 确定帕累托 – 弗朗特。使用此中等数据收集(请参见图6),我们选择构建预构建的流量。

这23个流是我们的银线 – 那些在所有培训数据集中都效果很好。

图06银铅图
图23在所有训练数据集中,帕累托 – 弗朗特埃尔(Pareto-Frontier)流动很好。

步骤4:有学习,运输的种子

在原始的SYFTR纸中,我们探索了传输学习,以改善种子。在这里,我们将其直接与银铅种子进行了比较。

在这种情况下, 转移学习 仅意味着从历史(培训)研究中选择特定的高性能流,并在悬浮数据集上对其进行评估。我们在这里使用的数据对于银子弹是相同的(图3)。

实际的:

  1. 选择候选人。 从每个训练小组中,我们从两个巴里托的顶部(P1和P2)取了上流。
  2. 包容和群体。使用BAAI/BGE-LARGE-E-V1.5包含模型,我们将每个流的参数转换为数字向量。然后,我们应用了K-均值(K = 23)的集合来收集相似的流(图7)。
  3. 一致性限制。 我们将每个种子策略(银线,传输,随机样品)限制为23个流动比较,因为这是我们确定的银铅的数量。

笔记: 转移种子尚未得到改善。我们可以使用更多的Barito攀岩,选择更多的流量或尝试不同的包含模型。

图07运输学习
图7:通过训练数据集中从假面的P1和P2进行的实验。

步骤5:测试一切

在最终评估阶段(图3中的步骤D),我们对四个测试组进行了约1000个改进实验 – 明亮的生物学,DRDOC,InfiniteBench和Phantomwiki-对以下种子策略进行了三次重复该过程:

  • 银弹播种
  • 转移种子学习
  • 随机样品

对于每次审判,他曾担任GPT-4O-Mini担任法官,并验证代理人反对对地球真理的答案的回应。

结果

我们开始答案:

什么是播种方法 – 随机样本,运输学习或银色铅 – 在最少的体验中提供了新数据集的最佳性能?

四个测试数据集(明亮的生物学,DRDOC,Infinitebench和Phantomwiki)中的每个测试集)吸引了我们:

  • 准确性
  • 小茴香
  • 分配
  • 巴里托:最佳结果结果程度的度量

在每个作品中, 垂线 它表示完成所有播种实验时的点。播种后,银子弹表现出平均水平:

  • 9% 最大限度
  • 84% 最小茴香低
  • 28% 最大的巴里托地区

与其他策略相比。

明亮的生物学

银铅的精度最高,传输时间最低,播种后最大的巴里托区域。随机种子的某些经历还没有结束。随着时间的流逝,帕累托 – 艾瑞雷斯(Pareto-Aareas)已增加到所有道路,但随着进步的加剧。

图08明亮的生物学
图8: 明亮生物学的结果

drdocs

与明亮的生物学相似,播种后银铅达到88%,而71%(运输学习)和62%(随机)。

图09 DRDOC
图9: DRDOCS结果

InfiniteBench

其他方法需要〜100个额外的体验来适应银色区域,并且在1000次实验结束时仍然与银线的最快流动不符。

图10 InfiniteBench
图10: InfiniteBench结果

幻影

播种后,银色表现会更好。该数据收集的成本最大。经过〜70次实验,银弹不久便集中在更昂贵的流量上。

图11 Phantomwiki
图11: 幻影结果

帕累托植入率分析

在银色的奔跑中,平均1000个实验后,银色子弹流占帕托尔决赛的75%。

  • 红色区域:改善第一银铅的性能而获得。
  • 蓝色区域:银弹流仍然终于占主导地位。
图12测试方案
图12: 在所有数据集中

我们的准备餐

尽管您可以从各种职业历史流中汲取这种方法,但用银铅播种提供了不断的效果,甚至超过了传输。

为了我们的指导(准确性和小茴香),银铅总是以更高的准确性开始,而不是从其他策略的流量到达的时间少于到达的时间。

从长远来看,TPE降低了主要功能。在几百个经验中,所有策略的结果通常都在融合,这是可以预期的,因为每个策略最终都必须找到最佳的流动。

那么,在许多使用情况下,代理商的流量是否很好?是的 – 在某种程度上:

  • 平均而言,一小群银铅可恢复约75%的巴里托地区的75%。
  • 性能取决于数据集,例如,光明生物学的回收率为92%,而幻象维基(Phantomwiki)为46%。

底线银线是一种廉价而有效的方法,可以带来全面的SYFTR操作,但这不是替代品。它的影响可以通过更长的培训数据集或培训改进来增长。

参数化

我们使用以下内容:

LLMS

  • Microsoft/phi-4-Multimodal-Instruct
  • DeepSek-ai/deepseek-r1-distill-lama-70b
  • qwen/qwen2.5
  • QWEN/QWEN3-32B
  • Google/gemma-3-27b-it
  • NVIDIA/LLAMA-3-HEOTRON-SUPER-49B

模型包括

  • baai/bge-small-e-v1.5
  • thnper/gte-large
  • 混合bread-ei/mxbai-imbed-large-v1
  • 批发变形金刚/全米尼L12-V2
  • 批发变压器/mpnet-base-v2
  • BAAI/BGE-BASE-E-V1.5
  • baai/bge-large-e-v1.5
  • tencentbac/conan-empding-v1
  • linq-ai reseread/linq dembed-Mistral
  • 雪黄
  • baai/bge-multililel-gemama2

流量类型

  • 香草
  • 施工的工人反应
  • 批评代理
  • 子注册抹布

这是每个人的完整列表 23个银子弹,从低精度 /低精度 /高过渡时间的RAS: silver_bullets.json

自己尝试

想尝试这些标准吗?在我们的syftr仓库中使用notbor Running_flows.ipynb笔记本 – 只需确保您可以访问上述型号即可。

对于Syftr的结构和参数最深的潜水,请检查我们的技术论文或探索刀片的底部。

我们还将在2025年9月在纽约市举行的国际汽车自动会议上介绍这项工作。

Source link

Similar Posts

  • 与B Corp Bra队友一起玩

    由吉吉·西伯曼(Gigi Siblman)于2025年3月21日撰写 自2016年以来,Play(宠物生活方式和您)为成为一家认可的公司而感到自豪,但这确实意味着什么? AB Corp证书(B LAB)由公司对社会,环境,透明和问责制的高标准的承诺表示。拥有此证书的公司旨在将其运营用作永久的权力,在我们的情况下,它对人,宠物和地球都有积极的影响。 在这里,我们所做工作的核心,在演奏,可持续性和道德商业实践中。因此,我们喜欢与B Corp公司的合作,这些公司类似于思考我们对环保宠物和道德生产的承诺。 让我们看一下一些激动人心的B Corp合作,在其一些最著名的产品上创建独特的有趣游戏设计!…

  • Crunchyroll娱乐时间表从2025年6月至8月•英国新闻动画

    动漫迷现在可以享受他们喜欢的连锁店,包括 约会现场V,Log Horizo​​n,我的英雄学术界第7季和 单一定居季节 在Blu-ray™和DVD上发行了1个以及更多。 crunchyroll 它在6月至8月之间宣布了英国的家庭娱乐时间表。粉丝将能够从6月9日从广告中购买Blu-ray™,DVD和Steelbook版本 亚马逊和 温暖的, 和…

  • 健康,护理和繁殖技巧

    法国 – 法国布尔达金(Buldagin),也被称为法国人,他们没有释放,他们的独特外观和罕见的范围获得了很多塔娜(Tanna)。这些狗与通常的法国汉堡有所不同,因为它们没有皮毛。这一独特的功能使它变得非常有趣,并引起了人们的注意。尽管没有头发的法国珠看起来温柔而有吸引力,但重要的是要知道一个人的护理涉及特定的责任和挑战。 本文介绍了您需要了解的有关这种惊人菌株的所有知识,包括其遗传根源以及他们维持健康所需的独特护理。我们还将讨论与养育这些特殊狗有关的重要道德问题,如果您考虑将一个狗添加到家庭中,这可以帮助您做出聪明的选择。 没有头发的法国公牛是什么? mybreederlife 没有头发的法国凸出块是它具有独特的狗的菌株 一点。她以友好的角色和有趣的自然而闻名,使他们成为伟大的同志。尽管他们缺乏头发,但它们仍然具有与普通法国助理相同的出色功能! 没有头发的法国凸出块是普通法国邦德的独特类型。这种菌株以其尺寸小,坚固的建筑物和类似蝙蝠的轻柔耳朵而闻名。顾名思义,没有头发的Frenchie大部分是或完全没有头发,这与普通的法国公牛包含柔软且厚实的外套不同。该特殊功能来自影响头发的生长方式的遗传变化。 引起这种特征没有头发的基因被称为“…

  • 2025年夏季登机手4-5

    Wooper: 一周后,两个星期后,但是,嘿,我很高兴能以一个带有我的新学年开始来获得这篇文章。这应该很容易,因为馅饼在一个季节中仅涵盖四个报价,该报价值得一提,但目前我的动机并未显示。直到这里有一些关于一些动画的想法,包括几乎结束,他们在提供的同一天结束,以及我什么时候将它们放在分离的上部。 Carrosy Eko! -2-4 在过去的几周中,关于该报价是否有四到五集的报道有所冲突,但我们现在似乎有最后一个答案:将有第五集,但直到9月下旬才会播放。我会很高兴地与更多的卡拉OK iko合作,但是考虑到前四个自我,我不会完全处理数字5;这个报价变成了简单的珠宝,其速度是这样做的主要原因。从OCA的噩梦开始,她的前排座位的紧凑型幽默逐渐被Yakuza Hijinks逐渐稀释和稀释,以便他可以通过更有趣的梦想结束。但是,对他不断变化的声音的这种担忧仍然存在,因此第3集在不安全感的演讲中返回地球,包括他与Kyuji的关系的性质,Kyuji的暴力职业开始淹没他温柔的本性。坦率地说,我没想到卡拉OK会走得更远 – 她是领导角色,即使他这样做是为了保护Oka,她还是以可怕的金属包来收集了一个以前的下属。然后,屏幕外发生了一场车祸,这使我真的相信凯吉(Kyji)“下地狱”。…

  • 它使90年代的头发感到舒适!发际线😍| 16英寸Yaki直假发。

    2025年4月15日,星期二 我的姐妹 !! 今天,我正在审查Ashimary的16英寸Yaki的保密性,让我告诉您,这头发给您带来了90年代的大型 – 我在这里为此!我有点痴迷 和往常一样,感谢您的观看! ♥上述或提出的元素: Source link