中文通用大模型基准测试SuperCLUE发布，讯飞星火认知大模型是国内表现最好

5月9日消息，今日，中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。

据悉，SuperCLUE主要关注的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

榜单显示，国内大模型中表现最好的是讯飞星火认知大模型，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是，在语义理解方面，讯飞星火认知大模型甚至得到100分的满分，超过GPT-4。百度文心一言在总榜单中排名最后一名，得分32.61分。

据了解，SuperCLUE从三个不同维度评价中文GPT大模型的能力。

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

中国联通：截至10月，“大联接”用户累计到达数11.18亿户