多模态模型:让 AI 同时看懂图文
人类理解世界从不只靠一种感官:看到一张图、读到一行字、听到一段话,会自然地把它们联系起来。让 AI 也具备这种跨模态的理解能力,正是”多模态模型”要做的事。这篇文章聊聊它的基本思路。
什么是多模态
“模态”指的是信息的形式:文字、图像、音频、视频都是不同的模态。单模态模型只处理一种,比如纯文本模型只读写文字;多模态模型则能同时处理两种或更多,最常见的是”图 + 文”的组合。
它能做的事很直观:看一张照片用自然语言描述内容、回答关于图片的问题、把一段文字描述去匹配最相关的图片。难点在于,图像是像素,文字是符号,二者形式天差地别——怎么让模型”用同一种语言”理解它们?
CLIP:把图和文对齐到同一空间
一个有里程碑意义的思路来自 CLIP。它的训练目标朴素而巧妙:用海量”图片—文字说明”配对,让模型学会把”一张图”和”它的正确描述”映射到向量空间里彼此靠近的位置,同时把不匹配的图文推远。
训练完成后,图片和文字就被放进了同一个语义空间。这带来一个很实用的能力——“零样本”分类:想判断一张图是不是猫,不需要专门训练猫的分类器,只要比较这张图的向量和”一只猫的照片”这句话的向量有多接近即可。图文检索(用文字搜图、用图搜图)也是同样的道理。
视觉语言模型:让模型”边看边说”
CLIP 解决了”对齐”,但要让模型像聊天那样围绕图片对话,还需要把视觉信息接进语言模型。这类模型通常叫视觉语言模型(VLM, Vision-Language Model),结构上一般有三部分:
- 视觉编码器:把图像转成一组特征向量(常基于 CLIP 这类预训练视觉模型)。
- 连接模块:把视觉特征”翻译”成语言模型能接受的形式,相当于一座桥。
- 语言模型:接收图像特征和文字提示,像处理普通文本一样生成回答。
这样,用户既可以发一张图,也可以配上一句问题,模型就能结合两者作答。训练上通常先让各部分各司其职,再用图文对话数据做指令微调,让模型学会”看着图好好回答问题”。
典型应用
多模态能力已经渗透到很多场景:
- 看图问答:上传一张图表,让模型解读其中的趋势。
- OCR 与文档理解:识别图片里的文字,并理解票据、表格、合同的结构。
- 图文检索:电商里”以文搜图""以图搜图”,本质都是在共享语义空间里找近邻。
- 辅助创作:根据图片生成文案,或根据文字理解去筛选素材。
小结
多模态模型的核心,是把不同形式的信息映射到同一个语义空间,让”看”和”说”能互相对话。从 CLIP 的图文对齐,到 VLM 的边看边答,AI 正一步步获得更接近人类的综合理解能力。
← 返回首页