
人工智能的形成很快就可以恢复SSL学习,从而使表格能够学习大量的原始数据,而无需昂贵的手工艺品。尽管该模型在大型语言模型中促进了突破性,但到目前为止,它在计算机视觉中的全部功能尚未开发。
Meta AI揭开了Dinov3,这是Dino Vision家族的最新发展,该家族代表了在监督下学习图像的主要老师。 Dinov3建立在多年的研究基础上,将SSL扩展到前所未有的水平,从而使脊柱具有多种用途的视野,从而通过各种任务为新的高级标准树立了新的高级标准。
Dinov3已接受了17亿张图片的培训,并增加了70亿个老师的培训,但是它仅以较差的剪辑(例如剪辑)的方式消耗了一小部分帐户。尽管在评估过程中保持了冷冻的脊柱,但它仍能达到模型或超过最高的性能:
- 照片的分类
- 语义
- 检测对象
- 跟踪视频中的对象
- 估计相对深度
这种渗透率首次解释了经过SSL训练的模型可以不断地超过监督方法,而通过全球任务和密集的预测任务来弱。
Dinov3背后的主要创新之一是一种新方法,称为Anchor Grams。传统上,在自我底漆下的模型缩放导致长期训练时间表的密集特征逐渐恶化。通过清洁和安装功能来治疗整合这一挑战的克,从而确保了工程任务的可靠执行,例如3D匹配或深度估计。此进展使Dinov3能够维持高质量的密集表示,这些表示可以有效地跨越自然图像到医疗数据和卫星数据。
Dinov3的灵活性已经显示在高influential应用中。例如:
- 环境监测:世界资源研究所(WRI)用于监测以前所未有的精确度来拆除森林。在肯尼亚,该模型将估计树木伞高度的平均误差从4.1米(Dinov2)降低到仅1.2米的改进 – 更改游戏有助于自动化气候融资并支持本地恢复项目。
- 太空探索:NASA已经采用了以前的宗教模型来对火星进行自动探索,因为有效的有效视觉系统对资源限制非常重要。
- 医疗保健和科学:通过免费培训,Dinov3在医学成像,生物学和天文学等领域为SSL打开了大门,其中解释性评论很少或昂贵。
虽然Dinov3老师7B是边境模型,但并非所有应用程序都可以承受其帐户要求。为了满足各种需求,研究人员在一个较小变量的家族中提炼了对大型模型的知识,包括:
- VIT-B和VIT-L模型,在许多标准上使用7B模型实现了半刹车。
- 基于资源限制的方案进行构建。
这意味着开发人员可以利用Dinov3脊柱在从云视觉平台到具有有限算术边缘的设备的所有事物中的所有优势。
dinov3不仅是向前迈的又一步,它代表了计算机的愿景。通过证明自学学习可以超过受监督和弱点的策略,它为以下方式开辟了道路:
- 更快的培训,没有昂贵的人贴
- 通过行业适应的更多通用模型
- 现实世界应用的开发出版
通过发布培训法,预培训的脊柱和详细的资源,Meta AI使研究人员和开发人员能够以此为基础建立,并通过科学领域,工业和人性开放新的用例。