视觉大模型拥有18亿参数 30亿的标注图像进行训练-创泽

当前位置：首页 > > 视觉大模型拥有18亿参数 30亿的标注图像进行训练

预训练大模型是过去几年AI发展主旋律，但是主要集中于自然语言处理领域。视觉领域在2021年开始迎来进展。谷歌构建了一个扩展的ViT模型，拥有18亿参数，并使用30亿的标注图像进行训练，在ImageNet上取得了新的记录（90.45%）。这一工作还表明，在视觉领域上，模型同样符合Scaling Lawo即：模型越大、性能越好。

SwinV2则进一步证明了视觉大模型（30亿参数）在广泛视觉问题上的有效性，其在图像分类、物体检测、语义分割和视频分类等任务上均达到了 SoTA性能。这一工作也验证了自监督学习对于驱动大模型训练的有效性，基于SimMIM方法，SwinV2用相比谷歌小40倍的标注数据（7000万）达成了十亿级视觉模型的训练。

多模态问答的方法和挑战

我国新一代人工智能治理工作框架是什么样的

2022人工智能产业市场规模和发展特点

人工智能产品不同阶段(规划设计,研发部署,运营使用)的

人工智能安全技术体系包括提升技术安全和构建技术管理机制

可持续发展人工智能治理框架：协同共治治理实践企业面

三大人工智能的风险初步探析

六大人工智能的热点问题

上海数字大脑研究院发布《2022上半年度人工智能行业报

人工智能关键词:可信落地

人工智能关键词:企业智能

人工智能关键词:人工智能新基建