工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位
近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中
近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。
工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。
(资料图)
5位院士,8位IEEE Fellow,共13位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前6名的模型进行公布。
百度文心一言在国内“最懂工业”
本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。
评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。
在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。
主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。
在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。
大模型发展新热点:丰富特定行业专业知识
虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。
实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。
关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。
当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。
比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。
通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how,扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速地实现迭代升级。
未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。
(编辑:吴双)
关键词:
近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中
6月20日,泰州举行“医养融合”签约仪式,向在养老人和困境儿童提供规
在整个欧美医药产业研发投入大盘见顶的情况下,像三星生物这样的“破局
公安部交管局部署开展夏季交通安全整治行动,主流媒体,山西门户。山西新
在这里度过了无数的小日子——几度欢笑,几度泪水;在这玩耍、奔跑、交
首都教育密云区教委所属学校面向2023年应届毕业生公开招聘教师54名,现
本文内容是由小编为大家搜集关于二手车信贷,以及二手车信贷业务员知识
27日夜间开始新一轮大范围强降雨过程上线影响波及四川、安徽、陕西等26
公开资料显示,深圳市苏摩科技有限公司成立于2009年,法定代表人为李逸
导语:御田的人设解析,竟然是草帽团三大战力的合体目前海贼王中最火的
截止6月27日收盘,COX黄金8月合约收盘于1923 3美元 盎司,跌幅-0 54%,
“我大概是疯了,1天内来回2000公里来存款,不过现在真香。”在经历5月
1、音序指音节的第一个字母的大写,音节是指整个拼音(包括声母、韵母)
要闻与重要数据1 WTI8月原油期货收跌美元,跌幅%,报美元 桶;布伦特8
1—5月份,全国规模以上工业企业实现利润总额26688 9亿元,同比下降18
当潮水退去,才知道谁在裸泳。1“一查就撤”近日,上交所对海通证券出
一、荣誉权属于人格权还是身份权人格权和身份权统一称呼为人身权。人格
截至2023年6月27日收盘,康缘药业(600557)报收于27 5元,上涨4 56%,换
1、影响混凝土拌合物的和易性的主要因素有:(1)水泥浆数量与水胶比;(2)
国际移民组织:苏丹冲突已致近280万人流离失所当地时间6月27日,国际移