8 多模态提示词工程

导言

多模态 AI (Multimodal AI) 代表了文本、图像、音频、视频和文档等不同输入模态在统一推理系统中的融合。现代视觉语言模型 (VLMs)，如 GPT-4V、Claude 4 和 Gemini 2.0，已经能够理解复杂的视觉场景、从文档中提取信息、分析图表，并同时对多张图像进行跨模态推理。

本章涵盖了多模态系统的实用提示词技术，并提供了面向生产环境的 Spring AI 实践实现。

1. 模型能力对比 (2025)

能力矩阵

特性	GPT-4o	Claude 4	Gemini 2.0
图像输入	✅ 原生支持	✅ 原生支持	✅ 原生支持
多图处理	✅ 最多 20 张	✅ 最多 20 张	✅ 最多 3600 张
PDF 处理	⚠️ 通过图像转换	✅ 原生支持	✅ 原生支持
视频输入	⚠️ 抽帧处理	❌	✅ 原生支持 (1小时)
音频输入	✅ 通过 Whisper	⚠️ 独立模块	✅ 原生支持
医疗/工业影像	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐

2. 视觉-文本提示词基础

2.1 编写有效视觉提示词的关键

定义角色：设定特定的专家背景（如“资深放射科医生”、“前端工程师”）。
指定关注区域：利用坐标或描述性语言引导模型关注特定细节。
结构化输出：要求返回 JSON 或 Markdown 表格，以便于后续自动化处理。

2.2 空间定位技术

引导模型使用像素坐标（归一化为 0-1000）来精确定位图像中的目标，这在 UI 自动化和工业检测中至关重要。

3. 文档理解 (Document Understanding)

文档理解是目前最成熟的多模态应用之一，涵盖了从 OCR 到语义提取的全过程。

3.1 票据与发票提取

利用多模态模型直接读取扫描件，能够处理复杂的层级结构、倾斜文本及手写签名。

3.2 复杂表格提取

针对多层嵌套表格，多模态模型相比传统的正则/规则解析展现出了压倒性的鲁棒性。

4. 图表与数据可视化分析

4.1 趋势识别与预测

模型不仅能读出柱状图的数值，还能分析趋势（如“同比增长 25%”）并识别异常点（Outliers）。

4.2 业务看板 (Dashboard) 审计

一次性分析包含多个图表的业务看板，生成高层级的执行摘要（Executive Summary）。

5. Spring AI 视觉集成实战

利用 Spring AI 的 ChatClient 和 Media API，可以轻松构建类型安全的多模态请求。

// Spring AI: 多模态请求示例
UserMessage message = new UserMessage(
    "请分析这张财务报表中的核心风险点",
    List.of(new Media(MimeTypeUtils.IMAGE_JPEG, financialReportImage))
);

String analysis = chatClient.prompt()
    .messages(message)
    .call()
    .content();

6. 视频理解 (Video Understanding)

6.1 抽帧分析模式 (Frame-based)

适用于 GPT-4V 等不支持原生视频的模型。通过等间隔提取关键帧，并将多图同时喂给模型。

6.2 原生视频推理 (Gemini)

Gemini 2.0 支持长达 1 小时的视频输入，能够理解视频中的时间依赖关系、复杂的连贯动作以及语音内容。

7. 多模态 RAG (Multimodal RAG)

7.1 图文双路索引

不仅对文本进行向量化，还对图像生成语义描述（Image Captioning）并存入向量库，实现“以文搜图”或“以图搜文”。

7.2 跨模态上下文注入

在生成回答时，同时参考检索到的文本片段与相关的图像/图表上下文。

8. 安全与合规性

隐私脱敏：在发送至云端 API 前，自动识别并模糊化人脸、身份证号等敏感区域。
内容审核 (Moderation)：利用多模态模型自查生成内容是否包含暴力或歧义图像。

总结

多模态提示词工程的核心在于语义对齐：

视觉接地：确保模型能将“词语”与图像中的“对象”精准对应。
多模态互补：发挥文本的逻辑性与视觉的直观性。
工程化保障：通过图像预处理、批量处理及安全审计确保生产环境的稳健。

上一章：2.3 高级提示词技术 ← stone

导言​

1. 模型能力对比 (2025)​

能力矩阵​

2. 视觉-文本提示词基础​

2.1 编写有效视觉提示词的关键​

2.2 空间定位技术​

3. 文档理解 (Document Understanding)​

3.1 票据与发票提取​

3.2 复杂表格提取​

4. 图表与数据可视化分析​

4.1 趋势识别与预测​

4.2 业务看板 (Dashboard) 审计​

5. Spring AI 视觉集成实战​

6. 视频理解 (Video Understanding)​

6.1 抽帧分析模式 (Frame-based)​

6.2 原生视频推理 (Gemini)​

7. 多模态 RAG (Multimodal RAG)​

7.1 图文双路索引​

7.2 跨模态上下文注入​

8. 安全与合规性​

总结​

导言