AIBetas消息,10月31日,阿里云正式发布千亿级参数大模型通义千问2.0。阿里云表示在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。
根据阿里云报道,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。表示通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。
英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。
在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。
此外,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容