Data Agent 项目介绍演示 PPT 生成稿

使用说明

本稿用于生成一份 16:9 比例、约 5-7 分钟讲解时长的项目演示 PPT。建议生成 10 页，不要自动增加目录页、致谢页或大段说明页。

项目名称：

复杂文档处理 Data Agent
基于 MinerU 的可规划、可降级、可追溯文档智能体

全局生成提示词

请生成一份 16:9 中文技术路演 PPT，共 10 页，用于“智能进化 Agent 能力评测赛道”的项目介绍和现场演示。

项目名称：复杂文档处理 Data Agent
副标题：基于 MinerU 的可规划、可降级、可追溯文档智能体

视觉风格：
- 专业、克制、现代，适合技术评审答辩。
- 使用白色或浅灰背景，搭配深灰正文、青绿色重点色、少量橙色用于异常恢复或强调。
- 不要使用大面积渐变、装饰性光球、卡通插画、复杂背景或过多圆角卡片。
- 封面简洁，突出项目名称和一条端到端流程线。
- 架构图、流程图和测试数据图优先使用可编辑图形，不要生成难以修改的复杂图片。
- 每页只表达一个结论，标题尽量写成明确判断。
- 中文字体使用微软雅黑、思源黑体或阿里巴巴普惠体；英文和数字可使用 Inter 或 Arial。
- 图标使用统一线性风格：文件、网页、API、Agent、大模型、数据库、日志、校验、降级切换。
- 每页右下角保留小号页码。

内容要求：
- 所有数据必须使用本文提供的数据，不要编造准确率、用户规模、商业收入或性能提升比例。
- 不要虚构客户案例。
- 强调系统已完成可运行 API、MinerU 三种后端接入、统一结构化输出、JSONL 日志和测试验证。
- 对尚未完成的 OCR 强化、任务队列和自动化指标，放入“下一步”中，不要描述为已实现。

第 1 页：封面

页面标题

复杂文档处理 Data Agent

页面副标题

基于 MinerU 的可规划、可降级、可追溯文档智能体
智能进化 · Agent 能力评测赛道

页面内容

页面中央或底部放置一条简洁流程线：

多格式输入 → Agent 规划 → MinerU 解析 → 结构化抽取 → 质量校验 → 可追溯日志

讲解提示

我们的项目是一个面向复杂文档和网页的 Data Agent。它不是单次模型调用，而是一个能够理解目标、规划步骤、选择工具、完成结构化抽取并保留完整日志的处理系统。

单页生成提示词

制作技术路演封面。浅灰白背景，中央使用大号深灰标题“复杂文档处理 Data Agent”，下方副标题“基于 MinerU 的可规划、可降级、可追溯文档智能体”。页面底部用六个线性图标和一条横向细线表达：多格式输入 → Agent 规划 → MinerU 解析 → 结构化抽取 → 质量校验 → 可追溯日志。整体留白充足，青绿色作为重点色，不要使用人物图片或复杂装饰。

第 2 页：真实文档处理需要一条稳定流水线

页面标题

真实文档处理的难点，不止是“读懂文字”

页面内容

左侧列出四类输入：

PDF 报告
Word 合同
PPT 汇报材料
HTML / 网页公告

右侧列出四类难点：

跨格式结构不统一
长文档、表格与跨页信息容易遗漏
结果缺少证据，难以验证
外部解析服务异常时需要自动恢复

底部结论：

目标：把“解析能力”组织成可复现、可审计、可扩展的数据处理 Agent

讲解提示

财报、合同、研究报告和网页公告的结构差异很大。单一模型直接读取，很容易遇到长文档截断、表格遗漏和证据不可追溯的问题。我们希望把解析、抽取和验证组织成一条工程化流水线。

单页生成提示词

制作左右对照页。左侧用四个文件类型图标表示 PDF、Word、PPT、HTML/网页；右侧用四条短句展示难点：跨格式结构不统一、长文档与跨页信息易遗漏、结果缺少证据、外部服务异常需要恢复。中间可用一条细分隔线。底部放一句青绿色重点结论：“把解析能力组织成可复现、可审计、可扩展的数据处理 Agent”。避免卡片堆叠。

第 3 页：从输入到结果形成完整闭环

页面标题

系统将复杂任务拆成五个可验证阶段

页面内容

使用横向流程图：

1. 输入解析
文件 / URL / 文本

2. 任务规划
拆解 3-6 个执行步骤

3. 工具调用
选择 MinerU 或本地解析器

4. 结构化抽取
摘要、实体、表格、证据

5. 校验与归档
质量检查、任务状态、JSONL 日志

底部补充：

统一 API：POST /v1/tasks
结果查询：GET /v1/tasks/{task_id}
日志查询：GET /v1/tasks/{task_id}/logs

讲解提示

用户只需要提交任务目标和一个输入源。系统会在后台完成规划、解析、抽取、校验和持久化，并通过 task_id 提供结果查询和日志查询接口。

单页生成提示词

制作横向五阶段流程图。每个阶段使用简洁线性图标、序号和两行说明，按从左到右排列，用细箭头连接。阶段分别为：输入解析、任务规划、工具调用、结构化抽取、校验与归档。页面底部用小号等宽字体展示三个 API 路径。不要使用大块圆角卡片，使用开放式布局和细分隔线。

第 4 页：Agent 架构让工具链可以替换和扩展

页面标题

统一中间表示，让解析后端与抽取逻辑解耦

页面内容

架构图建议分为五层：

API 层
FastAPI：任务创建、状态查询、日志查询

Agent 层
Planner：任务拆解
Executor：工具调度、异常处理、质量校验

解析工具层
MinerU SaaS 精准解析
MinerU Agent 轻量解析
MinerU 本地 CLI
TXT / HTML / PDF / DOCX / PPTX 本地兜底

结构化抽取层
OpenAI-compatible LLM
统一 JSON Schema

存储层
JSON 任务记录
JSONL 事件日志

架构图中央突出：

Markdown 统一中间表示

讲解提示

系统把 MinerU 输出统一转换为 Markdown，再交给 LLM 做结构化抽取。这样解析后端可以替换，抽取逻辑也不会和某一个服务绑定。

单页生成提示词

制作分层架构图。顶部为 FastAPI API 层，中间为 Planner 和 Executor，下一层并列四种解析工具，中央突出“Markdown 统一中间表示”，之后连接 OpenAI-compatible LLM 和统一 JSON Schema，底部连接 JSON 任务记录与 JSONL 日志。用青绿色表示主链路，用橙色虚线表示降级路径。所有节点使用可编辑矩形和线条，避免过度装饰。

第 5 页：MinerU 三后端构成可切换解析策略

页面标题

MinerU 三种后端兼顾精度、稳定性与可复现性

页面内容

使用三列对比：

后端	定位	使用场景
`mineru_precise`	MinerU SaaS 精准解析	正式评测与高质量解析
`mineru_agent`	轻量解析接口	精准接口异常或未配置 Token 时降级
`mineru_local`	MinerU 开源本地 CLI	离线验证与开源工具链复现

底部放置降级逻辑：

优先 precise → 异常时自动切换 agent → 必要时手动切换 local

侧边小字：

本地 CLI 已验证可输出 Markdown、content list、middle/model JSON、layout/span PDF

讲解提示

正式演示和评测默认使用精准解析接口。如果 Token 未配置或精准解析异常，系统会自动降级到轻量接口。需要展示开源工具链时，可以切换为本地 CLI。

单页生成提示词

制作三列对比页。每列包含后端名称、定位和使用场景：mineru_precise、mineru_agent、mineru_local。用青绿色强调 precise，用橙色强调 agent 降级，用深灰强调 local 可复现。页面底部使用一条清晰箭头流程：“优先 precise → 异常时自动切换 agent → 必要时手动切换 local”。加入小号说明：本地 CLI 可输出 Markdown、content list、middle/model JSON、layout/span PDF。

第 6 页：每个任务都有结构化输出和审计日志

页面标题

结果不仅可读，还能被验证和追溯

页面内容

左侧展示结构化结果字段：

{
  "summary": "...",
  "metadata": {...},
  "entities": [...],
  "tables": [...],
  "quality": {...},
  "evidence": [...]
}

右侧展示日志事件链：

task_queued
task_started
plan_created
plan_step_updated
tool_call
task_succeeded

底部结论：

输入、计划、工具、证据、质量检查均可查询

讲解提示

我们输出的不只是摘要。结果包含实体、表格、质量检查和证据片段；日志记录任务进入系统后的关键事件，方便评审复现，也方便生产环境审计。

单页生成提示词

制作“结果与日志”对照页。左侧模拟代码窗口，展示 JSON Schema 的六个字段；右侧使用垂直时间线展示 task_queued、task_started、plan_created、plan_step_updated、tool_call、task_succeeded。使用等宽字体显示代码和事件名称。底部突出一句：“输入、计划、工具、证据、质量检查均可查询”。代码窗口保持简洁，不要放过多真实 JSON。

第 7 页：已完成多格式与长文档验证

页面标题

9 个测试样例覆盖多格式输入与 132 页长文档

页面内容

左侧：本地样例，全部成功。

类型	样例数	状态
TXT	1	`succeeded`
HTML	1	`succeeded`
DOCX	1	`succeeded`
PPTX	1	`succeeded`
PDF	1	`succeeded`

右侧：公开 PDF 测试，全部成功。

文档	页数	解析字符数
arXiv scikit-learn 论文	6	15,351
NASA 空气质量报告	21	138,325
NASA 微电网论文	22	130,522
DigitalOcean 年报	132	510,976

页面上方或右上角突出数字：

9 / 9 succeeded

讲解提示

我们完成了两组验证。本地样例覆盖五种常见格式，公开 PDF 覆盖论文、NASA 报告和 132 页上市公司年报。当前记录中的 9 个样例全部成功。

单页生成提示词

制作数据证明页。右上角用大号数字突出“9 / 9 succeeded”。左侧为五行本地样例小表格，展示 TXT、HTML、DOCX、PPTX、PDF 各 1 个且全部 succeeded。右侧为四行公开 PDF 测试表格，展示页数和解析字符数。将 DigitalOcean 年报的“132 页”和“510,976 字符”使用青绿色强调。表格使用细线、充足留白，不要使用复杂图表。

第 8 页：现场演示只需要三个接口

页面标题

三步完成一次可追溯的数据处理任务

页面内容

使用三步演示流程：

Step 1  创建任务
POST /v1/tasks
上传文件、提交 URL 或直接提交文本

Step 2  查询结果
GET /v1/tasks/{task_id}
查看状态、计划、工具调用和结构化结果

Step 3  查询日志
GET /v1/tasks/{task_id}/logs
查看事件链和异常恢复记录

底部命令：

python -m uvicorn src.main:app --host 127.0.0.1 --port 8000
python scripts/run_smoke_tests.py --no-start

讲解提示

演示时先启动服务，然后提交任务。创建接口会立即返回 task_id，后台异步执行。接着查询结果和日志，就能看到完整处理过程。

单页生成提示词

制作三步现场演示流程页。使用三个从左到右排列的步骤：创建任务、查询结果、查询日志。每个步骤突出对应 API 路径。底部放一个深灰色终端代码块，展示两条启动和烟测命令。使用线性图标和箭头连接，整体像清晰的开发者工作流，不要堆叠说明文字。

第 9 页：工程化设计保证系统可以持续演进

页面标题

稳定性来自明确的降级、校验与存储边界

页面内容

用四个支柱展示：

输入保护
限制上传文件大小

异常恢复
MinerU 精准解析失败后自动降级

稳定输出
Pydantic Schema 校验
LLM 不可用时返回 fallback 结构

可追溯存储
JSON 保存任务状态
JSONL 保存事件日志

底部增加“下一步”小区域：

下一步：强化 OCR、增加任务队列、补充字段准确率与证据召回率指标

讲解提示

当前版本已经具备上传限制、解析降级、Schema 校验、fallback 输出和任务日志。下一步会把 OCR、队列和量化评测补齐，使它更接近大规模语料生产系统。

单页生成提示词

制作四支柱工程稳定性页面。四列分别为输入保护、异常恢复、稳定输出、可追溯存储，每列使用一个线性图标、一个短标题和不超过三行说明。底部用一条浅灰分隔线增加“下一步”区域：强化 OCR、增加任务队列、补充字段准确率与证据召回率指标。主色为青绿色，异常恢复可使用少量橙色。

第 10 页：总结

页面标题

从“解析文档”走向“可交付的数据处理 Agent”

页面内容

使用四个结论词：

统一入口
文件、URL、文本

可切换工具链
MinerU precise / agent / local

稳定结构化输出
摘要、实体、表格、质量、证据

全链路可追溯
任务状态与 JSONL 事件日志

底部放置项目地址占位：

GitHub：github.com/PingGuoMiaoMiao/MinerU_TrackTwo

讲解提示

我们的目标不是做一次性的文档解析 Demo，而是做一个能够进入数据生产流程的 Agent。它有统一入口、可替换工具链、稳定输出和全链路日志，也为后续扩展 OCR、任务队列和自动评测保留了清晰接口。

单页生成提示词

制作收尾总结页。浅灰白背景，左上角使用大标题“从‘解析文档’走向‘可交付的数据处理 Agent’”。中间用四个简洁关键词和短说明排列：统一入口、可切换工具链、稳定结构化输出、全链路可追溯。底部用小号文字显示 GitHub：github.com/PingGuoMiaoMiao/MinerU_TrackTwo。风格克制，留白充分，不要增加“谢谢观看”等空洞文案。

可选附录页：备用问答

如生成工具支持附录，可额外添加 1 页，不计入正式 10 页。

页面标题

评审常见问题

页面内容

Q：是否只能解析 PDF？
A：不是。支持 PDF、Word、PPT、HTML、TXT、网页 URL 和直接文本输入。

Q：MinerU SaaS 不可用怎么办？
A：精准接口异常时自动降级轻量接口，也可切换本地开源 CLI。

Q：结果如何验证？
A：结构化结果包含 evidence，日志接口保留计划、工具调用和最终质量检查。

Q：当前版本还可以增强什么？
A：OCR 极端场景、任务队列、批处理调度和自动化准确率评测。

单页生成提示词

制作简洁附录问答页。使用四组 Q/A，问题使用青绿色粗体，回答使用深灰正文。保持信息密度适中，不要使用大块卡片，不要添加无关图标。

生成后检查清单

共 10 页正式内容，可选 1 页附录。
没有虚构准确率、性能提升比例、客户名称或商业成果。
第 4 页架构图能清楚区分 API、Agent、解析工具、LLM、存储。
第 5 页明确体现 precise → agent → local 的切换逻辑。
第 7 页测试数据与 docs/TEST_REPORT.md 一致。
第 8 页命令可以直接复制用于演示。
字体、图标和颜色保持统一。
页面中没有过多圆角卡片、渐变背景或无意义装饰。