多模态模型：让 AI 同时看懂图文

2026年6月15日 · 多模态视觉

人类理解世界从不只靠一种感官：看到一张图、读到一行字、听到一段话，会自然地把它们联系起来。让 AI 也具备这种跨模态的理解能力，正是”多模态模型”要做的事。这篇文章聊聊它的基本思路。

什么是多模态

“模态”指的是信息的形式：文字、图像、音频、视频都是不同的模态。单模态模型只处理一种，比如纯文本模型只读写文字；多模态模型则能同时处理两种或更多，最常见的是”图 + 文”的组合。

它能做的事很直观：看一张照片用自然语言描述内容、回答关于图片的问题、把一段文字描述去匹配最相关的图片。难点在于，图像是像素，文字是符号，二者形式天差地别——怎么让模型”用同一种语言”理解它们？

一个有里程碑意义的思路来自 CLIP。它的训练目标朴素而巧妙：用海量”图片—文字说明”配对，让模型学会把”一张图”和”它的正确描述”映射到向量空间里彼此靠近的位置，同时把不匹配的图文推远。

训练完成后，图片和文字就被放进了同一个语义空间。这带来一个很实用的能力——“零样本”分类：想判断一张图是不是猫，不需要专门训练猫的分类器，只要比较这张图的向量和”一只猫的照片”这句话的向量有多接近即可。图文检索（用文字搜图、用图搜图）也是同样的道理。

CLIP 解决了”对齐”，但要让模型像聊天那样围绕图片对话，还需要把视觉信息接进语言模型。这类模型通常叫视觉语言模型（VLM, Vision-Language Model），结构上一般有三部分：

这样，用户既可以发一张图，也可以配上一句问题，模型就能结合两者作答。训练上通常先让各部分各司其职，再用图文对话数据做指令微调，让模型学会”看着图好好回答问题”。

多模态能力已经渗透到很多场景：

多模态模型的核心，是把不同形式的信息映射到同一个语义空间，让”看”和”说”能互相对话。从 CLIP 的图文对齐，到 VLM 的边看边答，AI 正一步步获得更接近人类的综合理解能力。