跳到主要内容

8 多模态提示词工程

导言

多模态 AI (Multimodal AI) 代表了文本、图像、音频、视频和文档等不同输入模态在统一推理系统中的融合。现代视觉语言模型 (VLMs),如 GPT-4V、Claude 4 和 Gemini 2.0,已经能够理解复杂的视觉场景、从文档中提取信息、分析图表,并同时对多张图像进行跨模态推理。

本章涵盖了多模态系统的实用提示词技术,并提供了面向生产环境的 Spring AI 实践实现。


1. 模型能力对比 (2025)

能力矩阵

特性GPT-4oClaude 4Gemini 2.0
图像输入✅ 原生支持✅ 原生支持✅ 原生支持
多图处理✅ 最多 20 张✅ 最多 20 张✅ 最多 3600 张
PDF 处理⚠️ 通过图像转换✅ 原生支持✅ 原生支持
视频输入⚠️ 抽帧处理✅ 原生支持 (1小时)
音频输入✅ 通过 Whisper⚠️ 独立模块✅ 原生支持
医疗/工业影像⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

2. 视觉-文本提示词基础

2.1 编写有效视觉提示词的关键

  • 定义角色:设定特定的专家背景(如“资深放射科医生”、“前端工程师”)。
  • 指定关注区域:利用坐标或描述性语言引导模型关注特定细节。
  • 结构化输出:要求返回 JSON 或 Markdown 表格,以便于后续自动化处理。

2.2 空间定位技术

引导模型使用像素坐标(归一化为 0-1000)来精确定位图像中的目标,这在 UI 自动化和工业检测中至关重要。


3. 文档理解 (Document Understanding)

文档理解是目前最成熟的多模态应用之一,涵盖了从 OCR 到语义提取的全过程。

3.1 票据与发票提取

利用多模态模型直接读取扫描件,能够处理复杂的层级结构、倾斜文本及手写签名。

3.2 复杂表格提取

针对多层嵌套表格,多模态模型相比传统的正则/规则解析展现出了压倒性的鲁棒性。


4. 图表与数据可视化分析

4.1 趋势识别与预测

模型不仅能读出柱状图的数值,还能分析趋势(如“同比增长 25%”)并识别异常点(Outliers)。

4.2 业务看板 (Dashboard) 审计

一次性分析包含多个图表的业务看板,生成高层级的执行摘要(Executive Summary)。


5. Spring AI 视觉集成实战

利用 Spring AI 的 ChatClientMedia API,可以轻松构建类型安全的多模态请求。

// Spring AI: 多模态请求示例
UserMessage message = new UserMessage(
"请分析这张财务报表中的核心风险点",
List.of(new Media(MimeTypeUtils.IMAGE_JPEG, financialReportImage))
);

String analysis = chatClient.prompt()
.messages(message)
.call()
.content();

6. 视频理解 (Video Understanding)

6.1 抽帧分析模式 (Frame-based)

适用于 GPT-4V 等不支持原生视频的模型。通过等间隔提取关键帧,并将多图同时喂给模型。

6.2 原生视频推理 (Gemini)

Gemini 2.0 支持长达 1 小时的视频输入,能够理解视频中的时间依赖关系、复杂的连贯动作以及语音内容。


7. 多模态 RAG (Multimodal RAG)

7.1 图文双路索引

不仅对文本进行向量化,还对图像生成语义描述(Image Captioning)并存入向量库,实现“以文搜图”或“以图搜文”。

7.2 跨模态上下文注入

在生成回答时,同时参考检索到的文本片段与相关的图像/图表上下文。


8. 安全与合规性

  • 隐私脱敏:在发送至云端 API 前,自动识别并模糊化人脸、身份证号等敏感区域。
  • 内容审核 (Moderation):利用多模态模型自查生成内容是否包含暴力或歧义图像。

总结

多模态提示词工程的核心在于语义对齐

  1. 视觉接地:确保模型能将“词语”与图像中的“对象”精准对应。
  2. 多模态互补:发挥文本的逻辑性与视觉的直观性。
  3. 工程化保障:通过图像预处理、批量处理及安全审计确保生产环境的稳健。

上一章2.3 高级提示词技术 ← stone