中国AI大模型

“本文依据工信部及网信办公布备案的“8+151”个大模型算法,全面梳理了中国现有的主流和非主流大模型及开发公司,希望为大家提供一个理解大模型竞争格局的客观视角!”

一 官方发布大模型备案企业

2023年8月31日,工信部公布8家企业/机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务
百度-文心一言抖音-云雀大模型智谱AI-GLM大模型中科院-紫东太初大模型百川智能-百川大模型商汤科技-日日新大模型MiniMax-ABAB大模型上海人工智能实验室-书生通用大模型位列其中。

(原文链接地址:https://www.miit.gov.cn/jgsj/zfs/bmgz/index.html)

2023年6月20日,网信办发布《国家互联网信息办公室关于发布深度合成服务算法备案信息的公告》,第一批41个大模型算法备案信息公布。

2023年9月1日,网信办发布《国家互联网信息办公室关于发布第二批深度合成服务算法备案信息的公告》,公告清单显示,第二批深度合成服务共计110个算法信息完成备案。

(原文链接地址:http://www.cac.gov.cn/202309/01/c_1695224377544009.htm)

2022年ChatGPT引爆全球热度,国内有少数多年深耕AI大模型算法的企业,也出现很多新的逐鹿选手。中国“百模大战”的序幕正式拉开!

二 “百模大战”下的大模型地图解析

国内大模型全景图(2023年9月)

大模型地图导读:

1.横坐标:大模型发布时间;横轴图例:大模型类型

2.纵坐标:大模型应用领域

3.模型展示:公司logo、大模型名称、大模型参数规模、大模型具体类型。

大模型地图解析:从大模型的模型规模、发布时间、分布态势,可以发现国内大模型呈现如下特征:

  • AI大模型参数规模显示出两极分化趋势:

    图中梳理了国内70家AI大模型公司,模型规模呈现两极分化。    以百度、智谱AI、华为、商汤为代表的AI大模型头部企业,大模型参数大都在千亿级别。快手大模型1.9万亿,阿里的通义大模型在万亿别,具体参数规模尚未公布。    中尾部企业起步晚,参数规模也较小,甚至于大多数处在哪一量级都尚未知。    模型和数据规模的扩大可以突破模型现有精度的局限,但是优化算法设计仍是大模型早期发展的重要部分,忽略结构优化,而只追求数据规模的增大,得到的大模型结果一定是不尽人意的。

  • AI大模型发布时间集中、模态单一:

    国内大模型基本在2023年集中发布。百度、智谱AI、华为、商汤、阿里在1-2年前有既往版本大模型发布,大多企业为初次发布。    中尾部企业初次发布的AI大模型以单一模态为主,而头部企业的AI大模型多为多模态。一个多模态通用模型可替代多个小模型,还可以表现得更好。     在未来大模型领域,国内AI大模型或将面临大范围洗牌,AI大模型“大吃小”的局面将很快不可避免的出现! 

  • AI大模型公司良莠不齐

    根据国外公布数据,千亿级别的通用AI大模型训练,需上千张A100训练卡1次训练的费用达到百万美元级别。    而国内公布的大模型企业中,注册资本300万以下的企业有14家,其中不乏注册资本为1万、5万、10万人民币的企业。必然无法承担通用大模型的开发费用。    很多企业寄希望于垂直化,通过垂直语料训练,解决单一场景问题,从而减小模型规模,降低训练成本。但是即使是GPT-4这种万亿级别的大模型也只能接近人工智能,不能达到认知智能状态,而这些“垂直化”的小模型,或许也只能达到“人工智障”的水平。

  • 互联网/科技公司、科研院所抢占AI大模型赛道:

    国内大模型公司普遍为互联网科技企业,部分为以华为为代表的IT/云厂商,科研院所依托国家超算中心也强势进入大模型赛道。    开发大模型需要具备大型算力资源、NLP算法高端人才储备、持续研发投入和迭代能力。真正参与大模型角逐的企业有限,并不是拿现有的开源模型做有限的微调就可以声称拥有大模型能力,向外提供服务。
 “百模大战”重新洗牌后,未来胜出的大模型巨头,将参与应用场景广泛的政府、金融、制造等行业的市场争夺!

三 国际视野

     Google团队在2017年发布全新的Transformer架构,由此拉开了深度学习及大模型的序幕。2022年,OpenAI的ChatGPT引爆了大家的眼球,GPT-4这种万亿级的多模态大模型,已经进入大家的视野。
    国内的大模型公司,在算法原创性、大模型的发布节奏、大模型的参数规模、开源贡献等方面与海外还存在差距。
    后续,我们将继续梳理国内外主流的大模型公司,结合国内外专业测评机构的测评结果,总结国内外大模型的格局和竞争态势。

HELM(Holistic Evaluation of Language Models) 

斯坦福大学大模型中心对国际主流30个大模型的测评

滚动至顶部