SuperCLUE-Open测评结果发布，Baichuan-13B百亿参数表现最佳- DoNews

日前，国内最权威的中文模型评测机构之一“CLUE“基于SuperCLUE-Open测评基准，发布百亿级参数大模型评测报告。从最新的评测结果可以看出：Baichuan-13B毫无疑问是目前百亿参数量级性能最好的开源模型，各项能力大幅领先同规格模型产品。

首个中文通用大模型开放域多轮测评基准SuperCLUE-Open是一个有挑战的多轮对话开放域测试集，用于评估中文大模型多轮对话、主观题和遵循指令的能力。重点考察模型的十大能力，包括：语义理解与抽取，闲聊，上下文对话，角色扮演，知识与百科，生成与创作，代码，逻辑与推理，计算，代码和安全。

每个子能力有六十道题目，每个题目包括两轮问题。共1200道题目的测试可以体现大模型在典型使用场景（如生成、创作和提供想法）中的实际能力。

在SuperCLUE开放式多轮基准中，相对于国内的百亿级开源模型，Baichuan-13B-Chat具有很大的领先性（超过了20点以上）。在与国际代表性的模型对战中，也有65.28%的胜和率，而在当前的生成问题与多轮评测基准中，Baichuan-13B相对于GPT-3.5、Claude基础版也基本相当。

此外，SuperCLUE-Open基准测试的十大能力评估显示，在同等量级开源模型中，Baichuan-13B-Chat表现最为出色。在生成与创作能力（91.67%），上下文对话能力（78.33%）、角色扮演能力（91.67%）、闲聊能力（88.33%）、安全能力（81.67%）五种应用场景均大幅领先。

十大能力评估中Baichuan-13B在多个能力上都有出色表现。

本次百川智能发布的Baichuan-13B中英文大语言模型，凭借百亿参数量已经展现出可以媲美千亿模型的能力，相比同尺寸开源模型在某些场景测试更是遥遥领先。

可以说Baichuan-13B不仅是百川智能大模型之路上的又一里程碑，也是中国大模型快速进步的重要标志。

声明：本站转载此文目的在于传递更多信息，并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系，我们将在第一时间删除内容,本网站对此声明具有最终解释权。