英伟达推出Eagle 2.5视觉语言模型,长上下文多模态学习表现优异

科技媒体marktechpost报道,英伟达近日发布视觉-语言模型Eagle 2.5,专注于长上下文多模态学习,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为8B,该模型在Video-MME基准测试(512帧输入)中取得72.4%的高分,性能媲美更大规模模型。

Eagle 2.5的成功得益于创新训练策略,包括信息优先采样和渐进式后训练。前者通过图像区域保留技术和自动降级采样优化视觉与文本输入平衡;后者逐步扩展上下文窗口,确保模型在不同输入长度下保持稳定。此外,定制数据集Eagle-Video-110K结合双重标注方法,显著提升了模型在高帧数任务中的表现。

性能测试显示,Eagle 2.5在多项视频和图像理解任务中表现优异,例如MVBench得分74.8,DocVQA达94.1。消融研究证实,其关键训练策略和数据集的贡献不可替代。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1