AI江湖风起云涌,加之计算机视觉、自然语言处理等技术日趋成熟,使得打破语言与视觉之间的次元壁成为可能,文本与图像互通的多模态模型成为AI大模型的热点研究方向。
与BERT和GPT-3这两个都是在纯文本上进行训练并应用于自然语言处理下游任务的基础模型不同,在2021年3月、2021年6月以及2022年6月发布的文澜模型是在成对的“图像-文本”或者“视频-文本”数据上训练得到,可以适应一系列多模态、视觉和自然语言处理多种类别任务。这种多模态的学习方式与人类孩子成长的过程更加接近,是通过边看边听来认识世界和学习语言的。