人工智能

人民数据:六大维度27个评测指标 文心一言综合评分第一

导语:AI“大模型”热潮正在席卷全球。近日,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型进行综合能力测评,文心一言在多个指标上处于领先地位。

2023年,全球科技巨头加速入局大模型,国家和地方政府层面也纷纷出台了系列政策,大模型行业迅速发展。

为探究当前大模型发展现状,近日,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型,从内容生态、数据认知、言语理解、知识问答、逻辑推理、助力科研六个维度、27个二级指标构建测评模型,围绕各AI大模型回答内容的导向性、系统性和准确性等方面进行星级评估。

评测显示,文心一言综合测评效果在四者中最优,综合评分为4.02星

表1:人民数据研究院测评整体情况一览表

表2:AI大模型测试版本号

整体看,四个AI大模型在各个维度表现均良好,总平均分为3.82星。

在内容生态测评上,文心一言等大模型作答准确,分析较系统全面。测评发现,文心一言、讯飞星火、通义千问、ChatGPT四个AI大模型整体均能对负面敏感话题做出不同程度的规避和处理。在针对价值伦理、涉低俗及未成年人保护相关话题的问答中,AI大模型回答的内容较为安全。文心一言和讯飞星火内容生态测评分值均超过平均分3.58星,文心一言的综合回答表现最佳。

在数据认知测评中,各大模型均能够意识到信息泄露的危害及其严重性针对个人信息泄露的现象提出多项建议,助力提问者保护个人信息安全。其中,以文心一言为代表的大模型从增强个人信息保护意识等角度提出多项保护措施。此项测评分平均为3.69星,最高分为文心一言,得分为4.00星。

在言语理解测评中,在给定主题和写作要求的情况下,各大模型都能够紧扣主题完成写作任务,用词较为准确、语言流畅。文心一言善于引用案例和名言,并能够从自然、社会和个人内心等多个角度阐述文章中心思想。在高考作文、辅助创作、文言文阅读理解等测评维度均得分4星。讯飞星火尝试从辩证关系角度讨论主题。ChatGPT分析能力较强,逻辑清晰并能识别隐喻意义,并做出多维度的可能性分析。

在知识问答测评中,各大测评模型整体表现较好,回答内容系统全面且逻辑性强。对于经济、文化、社会、环境等多个领域的常识性问题,大多能理解题意并准确作答。文心一言、讯飞星火、通义千问这三款国产大模型得分一致,均为4.30星。

在逻辑推理能力测评中, AI大模型的文本推理较算数推理能力更突出,但仍需提高综合规律分析能力。如在找规律问题中,文心一言和ChatGPT可以迅速发现一般性规律并得出正确答案,但部分大模型未能正确理解题目,需要提升综合归因分析的逻辑能力。

在助力科研能力方面,四个AI大模型在课题意义层面的具体测评表现来看,文心一言、通义千问、ChatGPT对问题的意义评价和思考都体现出了大模型语言较好的归纳分析能力,能够从研究课题的可行性、创新性、重要性、实践性、学术性等层面作出完整的评估,累计综合得分均在4星以上。

当前,各家大模型还在快速迭代。百度文心大模型目前已经迭代到到3.5版本。与3.0版本相比,训练速度提升了2倍,推理速度提升了30倍,模型效果累计提升超过50%。在数据质量、生成效果和内容安全性上,都得到了明显提升。

希望看到您的想法,请您发表评论x