一般认为,AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后,伴随着参数量的不断提升,它在自然语言处理领域慢慢成为基础性架构,并在2018年其参数量达到3亿规模,也就是我们所熟知的BERT。基于如此之大的参数量,研究者发现它能够同时出色地完成多种自然语言处理任务,这也就吸引了越来越多的人加入其中。
在大模型研究的早期阶段,仍然主要集中在自然语言处理领域,诞生了诸如上述BERT、GPT-3等一系列代表性模型,它们的参数量从起初的几亿,快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升,具备了从简单的文本问答、文本创作到符号式语言的推理能力;近两年,部分研究者提出了以其他模态(如视觉等)为基础的大模型研究,希望模型也可以看懂世间万物。在这个阶段,诞生了如ViT等包含数亿参数规模的视觉模型。
上述模型分别具备了读的能力和看的能力,研究者期望将这两类能力统一起来,具备如大脑体现的多模态感知能力,这一部分的代表性模型就是文澜、CLIP、DALL·E等模型。
当前,AI大模型的发展正从以不同模态数据为基础过渡到同知识、可解释性、学习理论等方面相结合,呈现出全面发力、多点开花的新格局。这对AI大模型研究而言是一件非常好的事情。