AI大模型的白垩纪

互联网2022-10-10 12:41:4599it.com.cn

美好的长假即将过去,我们又该忙起来了。在AI领域,这两年最忙的一项基础技术应该非大模型莫属。

随着最近AI绘画、AI生成视频等能力不断刷新大众对AI技术边界的认知,站在AI创作家们背后的大模型的地位也跟着水涨船高。轰轰烈烈的“炼大模型”运动似乎来到了丰收时节。

但在大模型愈发火爆的同时,我们不难看到一个问题:预训练大模型虽然在众多领域都表现出了良好的应用效果,但这些效果所产生的商业价值,却很难与大模型的训练成本、基础设施投入成本画上等号。

事实上,表面光鲜的大模型正在经历一个有些艰难的转型阶段:大模型不断表现出的“神奇”效果,引发了资本、产业、学术界的巨大关注。随着一个又一个大模型被训练完成,推向市场,却会发现大模型的应用场景与商业价值虽然有,但并不充沛。如何从“炼大模型”,走向“用大模型”,正在成为关键考验。尤其值得注意的是,中国AI行业对大模型的投资、建设更加激进,那么大模型的应用转型考验也将更加显著、先觉地浮现于中国市场。

AI预训练大模型在目前阶段的境况,让我想到一个词:白垩纪。

白垩纪是地质年代中,中生代的最后一个纪元。这时候全球开始变暖,大陆架结构开始定型。恐龙依旧统治着世界,但哺乳动物已经开始活跃。

大模型似乎也处在这样一个阶段里。被BERT、GPT-3夯定的大模型思路依旧笼罩在AI产业头顶。但如何让大模型走向新的应用纪元,已经成为一个非常热切,同时略带迷茫的必答题。

新物种开始出现,

老物种依旧占据主流

在讨论大模型的转型之前,我们还是需要用一点篇幅回溯一下大模型的发展思路与应用逻辑。

所谓的预训练大模型,是指在大规模宽泛数据上进行训练的基础模型。它抓住了深度学习算法数据越多模型鲁棒性越强的基础特点,对模型进行暴力地“数据投喂”。经过大规模数据的预训练后,模型可以适应更多种类、更为复杂的下游任务,从而最终获得更好的智能体验。

大规模预训练模型,其实并不是一种技术路径上的创新,而是更接近把握技术特征之后的工程创新。大模型之路被广泛认可,开始于谷歌在2018年10跃发布BERT。它利用BooksCorpus和维基百科的大规模数据进行模型训练,在11个下游任务上刷新了当时的业界纪录。

相关推荐

猜你喜欢

大家正在看