AiCC

/ AI知识共创
首页知识深度AI 行业情报商业业务知识库活动
保持联系
返回列表
AI 实战2026年6月13日

出差前让Agent帮我做了整套PPT,全程没碰电脑

作者 小虾子

51前朋友邀请做分享嘉宾。近期文章写得多,也有一些心得,想着可以聊聊。

完全新写内容太耗时间,刚好话题跟 Agent 相关。转念一想,这不就是个测试 Agent 干活的真实场景吗?那就来吧。

截屏2026-05-07 07.08.02
截屏2026-05-07 07.08.02

规划

先想清楚实现路径:

  • 我本地有历史文章,分布在 PC 的不同目录
  • Hermes 在局域网的 MacBook Pro 上,局域网有 NAS
  • ChatGPT Image V2 正火(前面测了100多组 prompt 的文章还没发)

资料够了。剩下的问题是 PPT 的提纲和分享定位,我的想法有几个点:

  • 不想只推荐某个工具,以前文章也说过,别追工具
  • 客观展示工具的优势和问题,上手 AI 学习要用低摩擦的方式
  • Agent 和 LLM 分不开,用好缺一不可

确定了分享提纲:以 Hermes Agent 为开头,讲如何低摩擦上手,把最影响效果的几个大坑讲出来——甚至是所有 AI 通用的问题。而且都是实际使用中必须面对和解决的,不是主流论调,是自己的实践经验。

准备实施

明天就要出差了,电脑不想带。我和电脑们的接口只有一个:Hermes。考验它能不能真的当生产力用。

素材准备

  1. 让 Hermes 读到我历史文章:告诉它本地 PC 的共享目录和 IP,让它挂载我的文章目录,指定读哪些
  2. 让 Hermes 挂载 NAS 目录——这样远程看内容更方便,不用每次让它发给我(微信发图片也不太方便),所有生产过程中的内容随时调用
  3. 让 Hermes 调用 ChatGPT Image V2 生成每页 PPT 的图片:
    1. Image V2 有很强的复杂图片生成能力
    2. 可编辑的 PPT 主要是因为要调整。但如果编辑成本低到一定程度,我可能根本不需要编辑(后面证明完全可行)
    3. 这次分享不需要华丽动画

测试关键步骤可行性

主要需要确认两件事:

  1. ChatGPT Image V2 能不能生成风格统一的 PPT 图片
  2. Hermes 能不能通过 CDP 直接操作 ChatGPT 网页,可控地完成整个流程

ChatGPT Image V2 生成稳定风格的 PPT 图片

先简单试了封面和内容页,完全没问题。剩下就是风格问题(不过对我这次任务来说,不重要)。

2026-05-07_064629
2026-05-07_064629

微调了一下 PPT 风格,丰俭由人。然后根据这个风格,结合 Image V2 的特性,让 ChatGPT 帮我生成了一个 prompt 模板。后面要用。

2026-05-07_064750
2026-05-07_064750

有个发现:Image V2 连续生成时会自主参考之前生成的系列图的风格和元素。“风格统一”的解法非常简单——整个 PPT 的图片都在一个对话中生成就行。

2026-05-07_064838
2026-05-07_064838

OK,可行性确认了一个。

Hermes 直接操作 ChatGPT 网页的可控性

OpenClaw 的 Chrome CDP 基本没法用。但 CDP 相比其他操作 Chrome 的方案,确实更灵活。之前也试过 AI 视觉方案:通过 API 获得屏幕截图,AI 识别内容给出操作建议,Agent 执行返回结果再循环……慢是肯定的,问题是不准。

百折不挠,决定再试试 Hermes 的 Chrome CDP。之前用它做简单操作还行,这次需要更复杂:

  • 打开 Chrome
  • 如果 ChatGPT 没有登录(防止出门后意外登出),使用 Gmail 登录
  • 登录后选择我的公司工作空间
  • 生成图片时选择 ChatGPT 的 Pro 模型,获得更好的生成效果
  • 发送 PPT 总控 prompt → 再发送单页 prompt
  • 等图片生成完成后下载
  • 重复单页生成,直到全部完成

能行!Hermes 还是 6。

2026-05-07_065545
2026-05-07_065545

完整流程

告诉 Hermes 历史文章在哪个目录

分析 PPT 提纲和主线,让 Hermes 去读相关文章

文章比较多,我的方法是让 Hermes 派几个子 agent 去读所有文章,把每篇的核心意图和梗概反馈回来,然后由它总体编写。涉及到细节的部分,它会自己再去读相关文章。这样防止还没开始就把上下文撑爆了。

这时候我们获得了整个 PPT 的文稿:

截屏2026-05-07 07.06.19
截屏2026-05-07 07.06.19

让 Hermes 生成每页 PPT 的 prompt

  1. 把前面 ChatGPT 写的图片生成 prompt 模板发给 Hermes,让它用这个模板把每一页 PPT 写成完整的 prompt 截屏2026-05-07 07.06.45
  2. Hermes 通过 Chrome CDP 操作 ChatGPT Image V2 生成所有 PPT 图片

这个步骤还挺通用的,所以让它做成了一个 skill,以后备用。skill 比较简单,就是一个描述文件加配套的 Python 操作脚本。

截屏2026-05-07 07.02.17
截屏2026-05-07 07.02.17

把所有 PPT 图片打包成 PPTX 并添加演讲者注释

截屏2026-05-07 07.03.11
截屏2026-05-07 07.03.11

用 Python 扫描页面里的假二维码,替换成真实的

ChatGPT Image V2 生成的图片里如果出现二维码,那个是假的,不能用。可以让 Hermes 生成一个真实的二维码替换上去。

这里有个坑:替换二维码不要用视觉模型定位,视觉模型的偏差大到离谱。

我的 PPT 是暗色系,二维码都有白边。直接用 Python 扫描像素里的白色框,就能精确识别位置和大小。识别到以后,把真实二维码缩放到对应尺寸覆盖上去就行。

截屏2026-05-07 07.04.09
截屏2026-05-07 07.04.09

整个流程完成后,如果后续需要调整细节——比如某页内容要改——Hermes 知道改完以后要重新跑后续流程,直接给你输出最新版。所以如果能到这个程度,PPT 的可编辑我们真的还需要吗?

2026-05-07_065413
2026-05-07_065413

我做过的调整就是:看到哪里要改,直接对着手机语音说哪一页改成什么内容,全部修改就完成了。

2026-05-07_065302
2026-05-07_065302

原文发布于 AiCC,转载或引用请注明出处

We don't just produce information, we reconstruct knowledge. Elevating AI efficiency to an architectural art form.

Follow
公众号
公众号:AI知识共创
小程序
小程序:AI信息王哥
Explore
  • 首页
  • 知识深度
  • AI 行业情报
  • 商业业务
  • 知识库
  • 活动
Connect
  • 活动论坛
  • AI账号
  • 提示词商城
  • AI网址导航
  • 自媒体进化
  • AI应用分享
© 2023 AiCC · JOVI / AI Creative commons
POWERED BY Claude code