DoNews2月7日消息,近日,APUS与深圳大学大数据系统计算技术国家工程实验室(以下简称“大数据国家工程实验室”)联合研发的伶荔Linly-70B中文大模型,在GitHub上正式开源,这是APUS大模型3.0的首个开源大模型。
此次,APUS和大数据国家工程实验室强强联合,集成各自优势,更有大数据国家工程实验室陈国良院士权威背书,APUS大模型3.0伶荔在中文基准测评榜单C-Eval上获得80.6分,在所有参评模型中排名第三,更加适配中文场景,中文场景能力更加突出。
跻身700亿以上参数开源大模型第一梯队
当前市场中,700亿以上参数的开源大模型寥寥无几。700亿参数规模的大模型能力接近GPT-4,在局部水平上甚至可以超越GPT-4。
在深圳大学李煜东博士看来,700亿参数规模的开源大模型市面上很少的原因在于三个方面:一是训练成本更高,二是增量预训练时需要更大数据量,三是使用时需消耗更多的资源。
此次开源意味着APUS大模型3.0伶荔迈出至关重要的一步。
「APUS大模型3.0伶荔」中文能力大幅提升
基于APUS郑州智算中心强大的计算能力,APUS大模型3.0伶荔在中文扩表后进行了严格训练,显著提高了模型的训练效率和准确性。
该模型的上下文长度设定为4,096,能够处理大约8,000-10,000个汉字的文本输入,从而更好地理解和生成中文语境下的自然语言,提高其在各种中文任务中的表现。在中文自然语言处理领域,APUS大模型3.0伶荔表现非常优秀。
训练能力定制化调优,综合实力凸显
为了提高在中文场景中的表现,APUS大模型3.0伶荔在语料、训练框架和训练方法上进行了定制化调优。基于自研模块化增量预训练框架,针对中文特点扩充词表,增加了对汉字和中文符号的支持。在训练语料方面,精选高质量中英文公开数据源,包括悟道、万卷、MNBVC等,并结合自研的数据选择策略,构建了适合模型高效训练的混合语料库。
此外,项目团队还提出创新性课程学习策略,通过动态数据采样,在训练过程中不断调整数据分布,确保模型的英文语言能力能够平稳迁移到中文语言能力。这一策略的运用,使得模型在中文语境下能够更加自然、准确地理解和生成文本。
正式开源的APUS大模型3.0伶荔在中文自然语言处理领域,展现出了卓越的性能和巨大的潜力,并已经准备好应对各种中文任务和挑战。APUS与大数据国家工程实验室已迈出构建中文场景大型语言模型的关键一步,在中文大模型领域树立了全新标杆。
未来双方将持续密切合作,共同探索模型在知识、推理和长文本处理等方面的通用能力,并深化其在工具使用、剧情生成和角色扮演以及医疗等专业领域的应用,进一步提升模型的能力和应用范围。此外,双方还将扩展到视觉模态,构建跨模态生成模型,以更好、更精准地满足通用和领域特定的需求。