上海人工智能实验室近日宣布升级并开源通用多模态大模型书生・万象3.0(InternVL3)。该模型通过创新的多模态预训练方法,在10亿至780亿参数的全量级版本中,于专家级基准测试和多模态性能评测中均居开源模型首位。
InternVL3采用原生多模态预训练技术,在预训练阶段即融合文本与多模态数据,使模型能同步学习语言与视觉能力。除通用任务外,该模型还强化了图形用户界面(GUI)智能体操作、建筑图纸理解、空间感知推理及通识学科推理等专项能力。值得一提的是,InternVL3可作为GUI智能体,直接执行电脑或手机专业软件的指令操作。