Data Agent 项目介绍演示 PPT 生成稿

Article detail

学习笔记

2026/5/31 · 35 分钟阅读

Data Agent 项目介绍演示 PPT 生成稿

使用说明

本稿用于生成一份 16:9 比例、约 5-7 分钟讲解时长的项目演示 PPT。建议生成 10 页,不要自动增加目录页、致谢页或大段说明页。

项目名称:

复杂文档处理 Data Agent
基于 MinerU 的可规划、可降级、可追溯文档智能体

全局生成提示词

请生成一份 16:9 中文技术路演 PPT,共 10 页,用于“智能进化 Agent 能力评测赛道”的项目介绍和现场演示。

项目名称:复杂文档处理 Data Agent
副标题:基于 MinerU 的可规划、可降级、可追溯文档智能体

视觉风格:
- 专业、克制、现代,适合技术评审答辩。
- 使用白色或浅灰背景,搭配深灰正文、青绿色重点色、少量橙色用于异常恢复或强调。
- 不要使用大面积渐变、装饰性光球、卡通插画、复杂背景或过多圆角卡片。
- 封面简洁,突出项目名称和一条端到端流程线。
- 架构图、流程图和测试数据图优先使用可编辑图形,不要生成难以修改的复杂图片。
- 每页只表达一个结论,标题尽量写成明确判断。
- 中文字体使用微软雅黑、思源黑体或阿里巴巴普惠体;英文和数字可使用 Inter 或 Arial。
- 图标使用统一线性风格:文件、网页、API、Agent、大模型、数据库、日志、校验、降级切换。
- 每页右下角保留小号页码。

内容要求:
- 所有数据必须使用本文提供的数据,不要编造准确率、用户规模、商业收入或性能提升比例。
- 不要虚构客户案例。
- 强调系统已完成可运行 API、MinerU 三种后端接入、统一结构化输出、JSONL 日志和测试验证。
- 对尚未完成的 OCR 强化、任务队列和自动化指标,放入“下一步”中,不要描述为已实现。

第 1 页:封面

页面标题

复杂文档处理 Data Agent

页面副标题

基于 MinerU 的可规划、可降级、可追溯文档智能体
智能进化 · Agent 能力评测赛道

页面内容

页面中央或底部放置一条简洁流程线:

多格式输入 → Agent 规划 → MinerU 解析 → 结构化抽取 → 质量校验 → 可追溯日志

讲解提示

我们的项目是一个面向复杂文档和网页的 Data Agent。它不是单次模型调用,而是一个能够理解目标、规划步骤、选择工具、完成结构化抽取并保留完整日志的处理系统。

单页生成提示词

制作技术路演封面。浅灰白背景,中央使用大号深灰标题“复杂文档处理 Data Agent”,下方副标题“基于 MinerU 的可规划、可降级、可追溯文档智能体”。页面底部用六个线性图标和一条横向细线表达:多格式输入 → Agent 规划 → MinerU 解析 → 结构化抽取 → 质量校验 → 可追溯日志。整体留白充足,青绿色作为重点色,不要使用人物图片或复杂装饰。

第 2 页:真实文档处理需要一条稳定流水线

页面标题

真实文档处理的难点,不止是“读懂文字”

页面内容

左侧列出四类输入:

PDF 报告
Word 合同
PPT 汇报材料
HTML / 网页公告

右侧列出四类难点:

跨格式结构不统一
长文档、表格与跨页信息容易遗漏
结果缺少证据,难以验证
外部解析服务异常时需要自动恢复

底部结论:

目标:把“解析能力”组织成可复现、可审计、可扩展的数据处理 Agent

讲解提示

财报、合同、研究报告和网页公告的结构差异很大。单一模型直接读取,很容易遇到长文档截断、表格遗漏和证据不可追溯的问题。我们希望把解析、抽取和验证组织成一条工程化流水线。

单页生成提示词

制作左右对照页。左侧用四个文件类型图标表示 PDF、Word、PPT、HTML/网页;右侧用四条短句展示难点:跨格式结构不统一、长文档与跨页信息易遗漏、结果缺少证据、外部服务异常需要恢复。中间可用一条细分隔线。底部放一句青绿色重点结论:“把解析能力组织成可复现、可审计、可扩展的数据处理 Agent”。避免卡片堆叠。

第 3 页:从输入到结果形成完整闭环

页面标题

系统将复杂任务拆成五个可验证阶段

页面内容

使用横向流程图:

1. 输入解析
文件 / URL / 文本

2. 任务规划
拆解 3-6 个执行步骤

3. 工具调用
选择 MinerU 或本地解析器

4. 结构化抽取
摘要、实体、表格、证据

5. 校验与归档
质量检查、任务状态、JSONL 日志

底部补充:

统一 API:POST /v1/tasks
结果查询:GET /v1/tasks/{task_id}
日志查询:GET /v1/tasks/{task_id}/logs

讲解提示

用户只需要提交任务目标和一个输入源。系统会在后台完成规划、解析、抽取、校验和持久化,并通过 task_id 提供结果查询和日志查询接口。

单页生成提示词

制作横向五阶段流程图。每个阶段使用简洁线性图标、序号和两行说明,按从左到右排列,用细箭头连接。阶段分别为:输入解析、任务规划、工具调用、结构化抽取、校验与归档。页面底部用小号等宽字体展示三个 API 路径。不要使用大块圆角卡片,使用开放式布局和细分隔线。

第 4 页:Agent 架构让工具链可以替换和扩展

页面标题

统一中间表示,让解析后端与抽取逻辑解耦

页面内容

架构图建议分为五层:

API 层
FastAPI:任务创建、状态查询、日志查询

Agent 层
Planner:任务拆解
Executor:工具调度、异常处理、质量校验

解析工具层
MinerU SaaS 精准解析
MinerU Agent 轻量解析
MinerU 本地 CLI
TXT / HTML / PDF / DOCX / PPTX 本地兜底

结构化抽取层
OpenAI-compatible LLM
统一 JSON Schema

存储层
JSON 任务记录
JSONL 事件日志

架构图中央突出:

Markdown 统一中间表示

讲解提示

系统把 MinerU 输出统一转换为 Markdown,再交给 LLM 做结构化抽取。这样解析后端可以替换,抽取逻辑也不会和某一个服务绑定。

单页生成提示词

制作分层架构图。顶部为 FastAPI API 层,中间为 Planner 和 Executor,下一层并列四种解析工具,中央突出“Markdown 统一中间表示”,之后连接 OpenAI-compatible LLM 和统一 JSON Schema,底部连接 JSON 任务记录与 JSONL 日志。用青绿色表示主链路,用橙色虚线表示降级路径。所有节点使用可编辑矩形和线条,避免过度装饰。

第 5 页:MinerU 三后端构成可切换解析策略

页面标题

MinerU 三种后端兼顾精度、稳定性与可复现性

页面内容

使用三列对比:

后端定位使用场景
mineru_preciseMinerU SaaS 精准解析正式评测与高质量解析
mineru_agent轻量解析接口精准接口异常或未配置 Token 时降级
mineru_localMinerU 开源本地 CLI离线验证与开源工具链复现

底部放置降级逻辑:

优先 precise → 异常时自动切换 agent → 必要时手动切换 local

侧边小字:

本地 CLI 已验证可输出 Markdown、content list、middle/model JSON、layout/span PDF

讲解提示

正式演示和评测默认使用精准解析接口。如果 Token 未配置或精准解析异常,系统会自动降级到轻量接口。需要展示开源工具链时,可以切换为本地 CLI。

单页生成提示词

制作三列对比页。每列包含后端名称、定位和使用场景:mineru_precise、mineru_agent、mineru_local。用青绿色强调 precise,用橙色强调 agent 降级,用深灰强调 local 可复现。页面底部使用一条清晰箭头流程:“优先 precise → 异常时自动切换 agent → 必要时手动切换 local”。加入小号说明:本地 CLI 可输出 Markdown、content list、middle/model JSON、layout/span PDF。

第 6 页:每个任务都有结构化输出和审计日志

页面标题

结果不仅可读,还能被验证和追溯

页面内容

左侧展示结构化结果字段:

{
  "summary": "...",
  "metadata": {...},
  "entities": [...],
  "tables": [...],
  "quality": {...},
  "evidence": [...]
}

右侧展示日志事件链:

task_queued
task_started
plan_created
plan_step_updated
tool_call
task_succeeded

底部结论:

输入、计划、工具、证据、质量检查均可查询

讲解提示

我们输出的不只是摘要。结果包含实体、表格、质量检查和证据片段;日志记录任务进入系统后的关键事件,方便评审复现,也方便生产环境审计。

单页生成提示词

制作“结果与日志”对照页。左侧模拟代码窗口,展示 JSON Schema 的六个字段;右侧使用垂直时间线展示 task_queued、task_started、plan_created、plan_step_updated、tool_call、task_succeeded。使用等宽字体显示代码和事件名称。底部突出一句:“输入、计划、工具、证据、质量检查均可查询”。代码窗口保持简洁,不要放过多真实 JSON。

第 7 页:已完成多格式与长文档验证

页面标题

9 个测试样例覆盖多格式输入与 132 页长文档

页面内容

左侧:本地样例,全部成功。

类型样例数状态
TXT1succeeded
HTML1succeeded
DOCX1succeeded
PPTX1succeeded
PDF1succeeded

右侧:公开 PDF 测试,全部成功。

文档页数解析字符数
arXiv scikit-learn 论文615,351
NASA 空气质量报告21138,325
NASA 微电网论文22130,522
DigitalOcean 年报132510,976

页面上方或右上角突出数字:

9 / 9 succeeded

讲解提示

我们完成了两组验证。本地样例覆盖五种常见格式,公开 PDF 覆盖论文、NASA 报告和 132 页上市公司年报。当前记录中的 9 个样例全部成功。

单页生成提示词

制作数据证明页。右上角用大号数字突出“9 / 9 succeeded”。左侧为五行本地样例小表格,展示 TXT、HTML、DOCX、PPTX、PDF 各 1 个且全部 succeeded。右侧为四行公开 PDF 测试表格,展示页数和解析字符数。将 DigitalOcean 年报的“132 页”和“510,976 字符”使用青绿色强调。表格使用细线、充足留白,不要使用复杂图表。

第 8 页:现场演示只需要三个接口

页面标题

三步完成一次可追溯的数据处理任务

页面内容

使用三步演示流程:

Step 1  创建任务
POST /v1/tasks
上传文件、提交 URL 或直接提交文本

Step 2  查询结果
GET /v1/tasks/{task_id}
查看状态、计划、工具调用和结构化结果

Step 3  查询日志
GET /v1/tasks/{task_id}/logs
查看事件链和异常恢复记录

底部命令:

python -m uvicorn src.main:app --host 127.0.0.1 --port 8000
python scripts/run_smoke_tests.py --no-start

讲解提示

演示时先启动服务,然后提交任务。创建接口会立即返回 task_id,后台异步执行。接着查询结果和日志,就能看到完整处理过程。

单页生成提示词

制作三步现场演示流程页。使用三个从左到右排列的步骤:创建任务、查询结果、查询日志。每个步骤突出对应 API 路径。底部放一个深灰色终端代码块,展示两条启动和烟测命令。使用线性图标和箭头连接,整体像清晰的开发者工作流,不要堆叠说明文字。

第 9 页:工程化设计保证系统可以持续演进

页面标题

稳定性来自明确的降级、校验与存储边界

页面内容

用四个支柱展示:

输入保护
限制上传文件大小

异常恢复
MinerU 精准解析失败后自动降级

稳定输出
Pydantic Schema 校验
LLM 不可用时返回 fallback 结构

可追溯存储
JSON 保存任务状态
JSONL 保存事件日志

底部增加“下一步”小区域:

下一步:强化 OCR、增加任务队列、补充字段准确率与证据召回率指标

讲解提示

当前版本已经具备上传限制、解析降级、Schema 校验、fallback 输出和任务日志。下一步会把 OCR、队列和量化评测补齐,使它更接近大规模语料生产系统。

单页生成提示词

制作四支柱工程稳定性页面。四列分别为输入保护、异常恢复、稳定输出、可追溯存储,每列使用一个线性图标、一个短标题和不超过三行说明。底部用一条浅灰分隔线增加“下一步”区域:强化 OCR、增加任务队列、补充字段准确率与证据召回率指标。主色为青绿色,异常恢复可使用少量橙色。

第 10 页:总结

页面标题

从“解析文档”走向“可交付的数据处理 Agent”

页面内容

使用四个结论词:

统一入口
文件、URL、文本

可切换工具链
MinerU precise / agent / local

稳定结构化输出
摘要、实体、表格、质量、证据

全链路可追溯
任务状态与 JSONL 事件日志

底部放置项目地址占位:

GitHub:github.com/PingGuoMiaoMiao/MinerU_TrackTwo

讲解提示

我们的目标不是做一次性的文档解析 Demo,而是做一个能够进入数据生产流程的 Agent。它有统一入口、可替换工具链、稳定输出和全链路日志,也为后续扩展 OCR、任务队列和自动评测保留了清晰接口。

单页生成提示词

制作收尾总结页。浅灰白背景,左上角使用大标题“从‘解析文档’走向‘可交付的数据处理 Agent’”。中间用四个简洁关键词和短说明排列:统一入口、可切换工具链、稳定结构化输出、全链路可追溯。底部用小号文字显示 GitHub:github.com/PingGuoMiaoMiao/MinerU_TrackTwo。风格克制,留白充分,不要增加“谢谢观看”等空洞文案。

可选附录页:备用问答

如生成工具支持附录,可额外添加 1 页,不计入正式 10 页。

页面标题

评审常见问题

页面内容

Q:是否只能解析 PDF?
A:不是。支持 PDF、Word、PPT、HTML、TXT、网页 URL 和直接文本输入。

Q:MinerU SaaS 不可用怎么办?
A:精准接口异常时自动降级轻量接口,也可切换本地开源 CLI。

Q:结果如何验证?
A:结构化结果包含 evidence,日志接口保留计划、工具调用和最终质量检查。

Q:当前版本还可以增强什么?
A:OCR 极端场景、任务队列、批处理调度和自动化准确率评测。

单页生成提示词

制作简洁附录问答页。使用四组 Q/A,问题使用青绿色粗体,回答使用深灰正文。保持信息密度适中,不要使用大块卡片,不要添加无关图标。

生成后检查清单

  • 共 10 页正式内容,可选 1 页附录。
  • 没有虚构准确率、性能提升比例、客户名称或商业成果。
  • 第 4 页架构图能清楚区分 API、Agent、解析工具、LLM、存储。
  • 第 5 页明确体现 precise → agent → local 的切换逻辑。
  • 第 7 页测试数据与 docs/TEST_REPORT.md 一致。
  • 第 8 页命令可以直接复制用于演示。
  • 字体、图标和颜色保持统一。
  • 页面中没有过多圆角卡片、渐变背景或无意义装饰。

评论

动作测试