- 2022年5月21日
- Vasilis Friniots
- 。没有评论

自从我上次发布回忆录Torchvision系列的新简介以来,已经有一段时间了。想想,该消息已经分享了官方的Pytorch博客和 叽叽喳喳我认为最好更多地谈论最新版本的Torchvision(v0.12)以及接下来会发生的事情(v0.13)以及我们对2022H2的计划。我的目标是克服对新功能的一般概述,而不是提供有关我们希望在接下来几个月进行该项目的地方的愿景。
Torchvision V0.12是一个大版本,重点是:a)更新过失和模型贡献政策,以提高透明度并吸引更多的社会贡献者,b)通过添加新的典型结构,数据组和ML技术来加倍更新工作。
更新我们的政策
成功的开源项目的关键是维持一个健康而活跃的社会,该社会为此做出了贡献并带领前进。因此,我们团队的重要目标是增加社会贡献的数量,并具有长期的愿景,使社会能够以出色的特征(新模型,ML技术等)贡献,此外还有通常的改进(错误/文档改革,小型功能等)。
从历史上看,尽管社会渴望为这种优势做出贡献,但我们的团队犹豫不决。主要的障碍是缺乏贡献政策和一个切实的模型。为了解决这个问题,Joao Gomees与社会合作制定和发布了第一个模型贡献指南,这些指南旨在清楚地促进需要培训培训的新结构,权重和功能的过程。此外,Nicolas Hug与Pytorch核心开发商合作制定并采用了具体忽视的政策。
以上变化对项目产生了直接的积极影响。新的贡献政策帮助我们获得了许多社会贡献(下面的更多详细信息),而明确的忽视政策使我们能够清理代码基础,同时确保Torchvision提供了强大的兼容性保证。我们的团队非常渴望继续与开源开发人员,研究团队和简短的图书馆创建者合作,以保持相关和新鲜的火炬。如果您有任何笔记,评论或优势请求,请与我们联系。
火炬更新
过去几个版本中我们的目标是将所有增援,损失,课程,培训设施和新的建筑设施添加到torchvision中,这并不是一个秘密,以便我们的用户可以使用Pytorch轻松地复制SOTA结果。以这种方式遵循Torchvision v0.12:
对Rockstar,Hu Ye和Zhiqiang Wang社区的贡献促进了FCOS结构,该结构是一个阶段检测生物的模型。
尼古拉斯通过添加强奸结构来增加火炬手中光流的支持。
Yiwen Song增加了Vision Transformer(VIT)的支持,并在预训练的重量和预训练的同时增加了Convnext结构。
最后,在社区的帮助下,我们添加了14组新的视觉流数据组。
像往常一样,该版本具有许多较小的改进,错误维修和文档改进。要查看所有新功能和我们的股东列表,请检查V0.12版本注释。
Torchvision v0.13在拐角处,预计将于6月初发布。这是一个非常大的版本,具有大量的新功能和大量的API改进。
现代性的结论和SOTA的差距封闭
我们通过添加原始的,典型的结构和食谱工具来为主要计算机视觉任务生成SOTA结果所需的原始,典型的结构和食谱工具,继续我们的旅程来更新图书馆:
在Victor fium的帮助下,数据扩大技术(例如Augmix,Wide Wrembling等)。这些技术使我们能够从SOTA弥合差距并产生更好的权重(见下文)。
在Aditya Oke,Hu Ye和Yassine Alouini和Abhijit Deo的帮助下,我们添加了重要的基本块,例如Dropblock层,MLP组,Ciou&Diou的丢失等。最后,我与Shen Li合作解决了Pytorch Syncbaccicnorm层的长期问题,这些问题可估计。
Hu Ye在Joao Gomees的支持下,在训练前添加了一个Swin Converter以及改进的重量。我将NetV2效率的结构和纸张后的许多建筑改进添加到了Retinanet,fasterrcnn和Makrcnn的实施中。
它还讨论了Pytorch博客,我们做出了巨大的努力,通过创建改进的培训配方来改善以前训练的权重。这使我们能够提高分类模型的准确性3点的准确性,并为不同结构提供了新的SOTA成就。我们也采取了类似的努力来检测和零售,因为我们平均提高了模型的准确性,平均地图超过8.1地图。最后,Yosua Michael M与Laura Gustafson,Mannat Singhand和Aaron Adcock一起增加了Swag的支持,Swag是一群现代重量,在Vit和Regnets之前接受过培训。
一个新的应用程序编程接口,用于多重支持
正如我之前在Pytorch博客上讨论的那样,Torchvision扩展了当前的模型创建者,以支持先前训练的多个权重。新的应用程序编程接口是完全兼容的,可以安装各种权重模型,并为有用的死数据(例如类别,参数数量,标准等)提供机制,并转换模型的预先策划。有一个专门针对Github的反馈的问题,可以帮助我们解决任何严酷的边缘。
更新的文件
尼古拉斯·汉(Nicholas Hang)领导了努力重组Torchvision的模型文档。新结构能够利用来自接口编程接口的功能,用于多重量支持应用程序,以提供预先训练的权重并在库中使用的更好的文档。我们的社区成员尖叫着,以帮助我们准时记录所有结构。
人们认为,我们的2022H2的详细路线图尚未完成,以下是我们目前计划进行的一些主要项目:
我们正在与Haoqi和Christoph Feishtenhofer的粉丝紧密合作,从Pytorch视频中,将改进的多视频变压器(MVITV2)的结构添加到Torchvision中。
Philip Meier和Nicolas Hug在使用Torchdata管和数据管的API(V2)数据集的改进版本中工作。 Victor Fatemino的Philip Maeer还致力于扩大API(V2)的范围,不仅支持图片,还支持特定的盒子,零售商等。
最后,社会通过添加结构和流行技术来帮助我们维护新的和相关的火炬。 Lezwon Castelino目前与Victor Fomin合作,添加了SimperCopycy。 Hu Ye目前致力于添加DEDR结构。
如果您想参加该项目,请查看我们的第一个好问题和所需的辅助列表。如果您是Pytorch/Computer Vision的资深战士,并且想做出贡献,那么我们有许多候选人为新的运营商,损失,奖金和模型。
希望您发现这篇文章很有趣。如果您想打电话,请在LinkedIn上打我 叽叽喳喳。