Meta公司近日推出WebSSL系列模型,参数规模覆盖3亿至70亿,专注于探索无语言监督的视觉自监督学习(SSL)潜力。该模型基于纯图像数据训练,采用DINO和ViT架构,旨在突破传统对比语言-图像模型(如CLIP)对语言数据的依赖。
WebSSL仅使用MetaCLIP数据集中的20亿张图像进行训练,通过联合嵌入学习(DINOv2)和掩码建模(MAE)两种范式,评估纯视觉SSL的性能表现。实验显示,随着参数规模增加,WebSSL在视觉问答(VQA)任务上表现接近对数线性提升,尤其在OCR和图表解读任务中优势显著,部分场景性能超越CLIP达13.6%。
此外,WebSSL展现出与文本语义的隐式对齐能力,并在传统基准测试中保持竞争力。模型已开源至Hugging Face平台,便于研究者进一步探索无语言监督的视觉表征学习。