与Syftr一起找到AI AI AIS“银弹”流

tl;医生

阻止Aignic AI项目的最快方法是重复使用不再适合的工作流程。使用SYFTR，我们为Lodernner和Righinacy优先级选择了“银弹”流，它们在多个数据集中都表现良好。这些流动的表现要优于随机的播种和转移学习。他们在一小部分成本上恢复了大约75％的SYFTR操作性能，使其成为一个快速的起点，但仍然留出了改进的空间。

如果您试图从一个项目中重复一个代理商的工作，那么您就会知道您跌倒了多少次。模型上下文的长度可能不够。新用途可能需要更深入的思考。或者，茴香要求已改变。

即使旧设置有效，对于新问题，它也可能过多 – 价格过高。在这些情况下，您可能需要的最简单，更快的准备工作。

我们开始回答一个简单的问题： 是否有在许多使用案例中效果很好的代理流，因此您可以根据自己的优先级选择一个，并继续前进？

我们的研究表明答案是肯定的，我们称它们为“银线”。

我们已经将银色的领先优势设定为传播和较高写作的每个较低的目标。在早期的改进中，他们不断地克服随机传播和种子学习，同时避免运营完整的SYFTR的全部成本。

在以下各节中，我们解释了如何找到它以及如何通过其他播种策略积累。

Barretto所有者的快速初步

您不需要一定程度的数学来遵循它，但是了解国家设备将使本文的其余部分变得更加容易。

图1是一个解释性散射图，不是我们的实验 – 它显示了完整的SYFTR改进体验。子图A和子图B是相同的，但B强调了前三个Barito所有者：P1（RED），P2（绿色）和P3（蓝色）。

每种经验： 评估特定流量的形成，以准确性和平均小茴香（较高的精度，较低的小茴香更好）评估。
Pareto-Frontier（P1）： 没有其他流量具有更高的精度和较低的小茴香。这是罕见。
其他部分流： 至少一个巴里托流都超过两个标准。这是控制。
P2，P3： 如果删除P1，则P2成为最佳边框，然后是P3，依此类推。

您可以根据自己的优先级在帕累托流量之间进行选择（例如，以最高准确性下降小茴香），但是没有理由选择主要的流程 – 边界上总有更好的选择。

通过SYFTR改善人工智能的流动

在实验过程中，我们使用SYFTR来改善剂量的准确性和小茴香。

这种方法可以让您：

选择包含问题的数据收集 – 答案（QA）
确定流动教师的搜索空间
设定诸如准确性和成本之类的目标，或在这种情况下，准确性和小茴香

简而言之，SYFTR自动化以探索针对您的目标的流程配置。

图2显示了高级SYFTR结构。

图02 SYFTR — *图2：高级SYFTR结构。对于一组质量保证，SYFTR可以通过比较实际答案的流量来自动探索代理流动的代理流动。*

查看并未在工作流的可能标准中结束的数字，SYFTR取决于两种主要技术：

PAISI – 目标改进 有效地在搜索空间中移动。
甲状腺酸占主导地位 停止尽早评估最佳最佳最佳流量，节省时间和计算，同时继续浏览最有效的配置。

银铅实验

我们的经验遵循四个部分的过程（图3）。

图03实验 — 图3：工作流程从两个步骤的生成数据开始：
**一个：** 使用种子的简单随机样品运行SYFTR。
**为了：** 在所有其他实验中运行所有最终流。结果数据，然后以下一步为单位。
**一个：** 确定银线并进行运输。
D：使用三种不同的种子策略，在四个数据库设置上进行SYFTR的操作。

步骤1：改善每个数据集的流量

我们对以下每个数据收集进行了数百次经验：

讨论任务3音乐
Financebench
hotpotqa
多hoprag

每个数据集， syftr 帕累托最佳流量一直在搜索，提高准确性和茴香（图4）。

图04训练 — *图4：四个数据集的改进结果。每个点都是一个在50对质量检查中评估的教师组。红线非常出色，具有TPE注定的最佳准确性和访问物体。*

步骤3：确定银线

一旦我们在所有训练数据集中都有相同的流量 平均的 通过所有数据集。

实际的：

每个数据组结果的归一化。对于每个数据集，我们根据该数据集中的最高值将准确性和茴香的归一化。
一组相同的流。然后，我们收集跨数据收集的流量，并计算出它们的平均准确性和砂浆。
确定帕累托 – 弗朗特。使用此中等数据收集（请参见图6），我们选择构建预构建的流量。

这23个流是我们的银线 – 那些在所有培训数据集中都效果很好。

图06银铅图 — *图23在所有训练数据集中，帕累托 – 弗朗特埃尔（Pareto-Frontier）流动很好。*

步骤4：有学习，运输的种子

在原始的SYFTR纸中，我们探索了传输学习，以改善种子。在这里，我们将其直接与银铅种子进行了比较。

在这种情况下， 转移学习 仅意味着从历史（培训）研究中选择特定的高性能流，并在悬浮数据集上对其进行评估。我们在这里使用的数据对于银子弹是相同的（图3）。

实际的：

选择候选人。 从每个训练小组中，我们从两个巴里托的顶部（P1和P2）取了上流。
包容和群体。使用BAAI/BGE-LARGE-E-V1.5包含模型，我们将每个流的参数转换为数字向量。然后，我们应用了K-均值（K = 23）的集合来收集相似的流（图7）。
一致性限制。 我们将每个种子策略（银线，传输，随机样品）限制为23个流动比较，因为这是我们确定的银铅的数量。

笔记： 转移种子尚未得到改善。我们可以使用更多的Barito攀岩，选择更多的流量或尝试不同的包含模型。

步骤5：测试一切

在最终评估阶段（图3中的步骤D），我们对四个测试组进行了约1000个改进实验 – 明亮的生物学，DRDOC，InfiniteBench和Phantomwiki-对以下种子策略进行了三次重复该过程：

银弹播种
转移种子学习
随机样品

对于每次审判，他曾担任GPT-4O-Mini担任法官，并验证代理人反对对地球真理的答案的回应。

结果

我们开始答案：

什么是播种方法 – 随机样本，运输学习或银色铅 – 在最少的体验中提供了新数据集的最佳性能？

四个测试数据集（明亮的生物学，DRDOC，Infinitebench和Phantomwiki）中的每个测试集）吸引了我们：

准确性
小茴香
分配
巴里托：最佳结果结果程度的度量

在每个作品中，垂线它表示完成所有播种实验时的点。播种后，银子弹表现出平均水平：

9％最大限度
84％ 最小茴香低
28％ 最大的巴里托地区

与其他策略相比。

明亮的生物学

银铅的精度最高，传输时间最低，播种后最大的巴里托区域。随机种子的某些经历还没有结束。随着时间的流逝，帕累托 – 艾瑞雷斯（Pareto-Aareas）已增加到所有道路，但随着进步的加剧。

drdocs

与明亮的生物学相似，播种后银铅达到88％，而71％（运输学习）和62％（随机）。

InfiniteBench

其他方法需要〜100个额外的体验来适应银色区域，并且在1000次实验结束时仍然与银线的最快流动不符。

幻影

播种后，银色表现会更好。该数据收集的成本最大。经过〜70次实验，银弹不久便集中在更昂贵的流量上。

帕累托植入率分析

在银色的奔跑中，平均1000个实验后，银色子弹流占帕托尔决赛的75％。

红色区域：改善第一银铅的性能而获得。
蓝色区域：银弹流仍然终于占主导地位。

我们的准备餐

尽管您可以从各种职业历史流中汲取这种方法，但用银铅播种提供了不断的效果，甚至超过了传输。

为了我们的指导（准确性和小茴香），银铅总是以更高的准确性开始，而不是从其他策略的流量到达的时间少于到达的时间。

从长远来看，TPE降低了主要功能。在几百个经验中，所有策略的结果通常都在融合，这是可以预期的，因为每个策略最终都必须找到最佳的流动。

那么，在许多使用情况下，代理商的流量是否很好？是的 – 在某种程度上：

平均而言，一小群银铅可恢复约75％的巴里托地区的75％。
性能取决于数据集，例如，光明生物学的回收率为92％，而幻象维基（Phantomwiki）为46％。

底线银线是一种廉价而有效的方法，可以带来全面的SYFTR操作，但这不是替代品。它的影响可以通过更长的培训数据集或培训改进来增长。

参数化

我们使用以下内容：

LLMS

Microsoft/phi-4-Multimodal-Instruct
DeepSek-ai/deepseek-r1-distill-lama-70b
qwen/qwen2.5
QWEN/QWEN3-32B
Google/gemma-3-27b-it
NVIDIA/LLAMA-3-HEOTRON-SUPER-49B

模型包括

baai/bge-small-e-v1.5
thnper/gte-large
混合bread-ei/mxbai-imbed-large-v1
批发变形金刚/全米尼L12-V2
批发变压器/mpnet-base-v2
BAAI/BGE-BASE-E-V1.5
baai/bge-large-e-v1.5
tencentbac/conan-empding-v1
linq-ai reseread/linq dembed-Mistral
雪黄
baai/bge-multililel-gemama2

流量类型

香草
施工的工人反应
批评代理
子注册抹布

这是每个人的完整列表 23个银子弹，从低精度 /低精度 /高过渡时间的RAS： silver_bullets.json。

自己尝试

想尝试这些标准吗？在我们的syftr仓库中使用notbor Running_flows.ipynb笔记本 – 只需确保您可以访问上述型号即可。

对于Syftr的结构和参数最深的潜水，请检查我们的技术论文或探索刀片的底部。

我们还将在2025年9月在纽约市举行的国际汽车自动会议上介绍这项工作。

Source link

Barretto所有者的快速初步

通过SYFTR改善人工智能的流动

银铅实验