Hugging Face、英伟达和约翰霍普金斯大学的研究人员近日宣布推出ModernBERT,这是对2018年发布的BERT模型的重大升级。ModernBERT不仅保留了BERT的高效性,还新增了处理长达8192个Token上下文的能力,显著提升了模型的适用范围和性能。
尽管BERT模型自发布以来一直是Hugging Face平台上最受欢迎的模型之一,每月下载量超过6800万次,但随着技术的进步,原版BERT已显得有些落后。ModernBERT的开发团队借鉴了近年来大型语言模型(LLM)的进展,对BERT的架构和训练过程进行了全面改进。
据悉,ModernBERT使用了2万亿个Token进行训练,使其在多种分类测试和向量检索测试中均达到了业界领先水平。目前,开发团队已发布了两个版本的ModernBERT,分别是1.39亿参数和3.95亿参数版本,供开发者和研究人员使用。