8 多模态提示词工程
导言
多模态 AI (Multimodal AI) 代表了文本、图像、音频、视频和文档等不同输入模态在统一推理系统中的融合。现代视觉语言模型 (VLMs),如 GPT-4V、Claude 4 和 Gemini 2.0,已经能够理解复杂的视觉场景、从文档中提取信息、分析图表,并同时对多张图像进 行跨模态推理。
本章涵盖了多模态系统的实用提示词技术,并提供了面向生产环境的 Spring AI 实践实现。
1. 模型能力对比 (2025)
能力矩阵
| 特性 | GPT-4o | Claude 4 | Gemini 2.0 |
|---|---|---|---|
| 图像输入 | ✅ 原生支持 | ✅ 原生支持 | ✅ 原生支持 |
| 多图处理 | ✅ 最多 20 张 | ✅ 最多 20 张 | ✅ 最多 3600 张 |
| PDF 处理 | ⚠️ 通过图像转换 | ✅ 原生支持 | ✅ 原生支持 |
| 视频输入 | ⚠️ 抽帧处理 | ❌ | ✅ 原生支持 (1小时) |
| 音频输入 | ✅ 通过 Whisper | ⚠️ 独立模块 | ✅ 原生支持 |
| 医疗/工业影像 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
2. 视觉-文本提示词基础
2.1 编写有效视觉提示词的关键
- 定义角色:设定特定的专家背景(如“资深放射科医生”、“前端工程师”)。
- 指定关注区域:利用坐标或描述性语言引导模型关注特定细节。
- 结构化输出:要求返回 JSON 或 Markdown 表格,以便于后续自动化处理。
2.2 空间定位技术
引导模型使用像素坐标(归一化为 0-1000)来精确定位图像中的目标,这在 UI 自动化和工业检测中至关重要。
3. 文档理解 (Document Understanding)
文档理解是目前最成熟的多模态应用之一,涵盖了从 OCR 到语义提取的全过程。
3.1 票据与发票提取
利用多模态模型直接读取扫描件,能够处理复杂的层级结构、倾斜文本及手写签名。
3.2 复杂表格提取
针对多层嵌套表格,多模态模型相比传统的正则/规则解析展现出了压倒性的鲁棒性。
4. 图表与数据可视化分析
4.1 趋势识别与预测
模型不仅能读出柱状图的数值,还能分析趋势(如“同比增长 25%”)并识别异常点(Outliers)。
4.2 业务看板 (Dashboard) 审计
一次性分析包含多个图表的业务看板,生成高层级的执行摘要(Executive Summary)。
5. Spring AI 视觉集成实战
利用 Spring AI 的 ChatClient 和 Media API,可以轻松构建类型安全的多模态请求。
// Spring AI: 多模态请求示例
UserMessage message = new UserMessage(
"请分析这张财务报表中的核心风险点",
List.of(new Media(MimeTypeUtils.IMAGE_JPEG, financialReportImage))
);
String analysis = chatClient.prompt()
.messages(message)
.call()
.content();
6. 视频理解 (Video Understanding)
6.1 抽帧分析模式 (Frame-based)
适用于 GPT-4V 等不支持原生视频的模型。通过等间隔提取关键帧,并将多图同时喂给模型。
6.2 原生视频推理 (Gemini)
Gemini 2.0 支持长达 1 小时的视频输入,能够理解视频中的时间依赖关系、复杂的连贯动作以及语音内容。