当前位置:首页 > > 视觉大模型拥有18亿参数 30亿的标注图像进行训练 |
预训练大模型是过去几年AI发展主旋律,但是主要集中于自然语言处理领域。视觉领域 在2021年开始迎来进展。谷歌构建了一个扩展的ViT模型,拥有18亿参数,并使用30亿的 标注图像进行训练,在ImageNet上取得了新的记录(90.45%)。这一工作还表明,在视觉领 域上,模型同样符合Scaling Lawo即:模型越大、性能越好。
SwinV2则进一步证明了视觉大模型(30亿参数)在广泛视觉问题上的有效性,其在图像 分类、物体检测、语义分割和视频分类等任务上均达到了 SoTA性能。这一工作也验证了自监 督学习对于驱动大模型训练的有效性,基于SimMIM方法,SwinV2用相比谷歌小40倍的标 注数据(7000万)达成了十亿级视觉模型的训练。
|
机器人推荐 |