杂谈：AI 多媒体任务

前段时间，我通过学校社团参加了某个 ~~PPT 大赛~~ 航天项目设计比赛，记录一下使用 AI 完成多媒体工作的经验和想法。

前言

我也算 AI 的重度用户了，从日常聊天、查资料、找灵感、提建议，到文化课答疑和竞赛题目调试，再到项目的开发维护，都离不开 AI。

不过大部分时候，我都是用 AI 进行基本对话，或者用 Agent 开发项目。平时对各种好玩的 AI 新品也有所耳闻，偶尔会去体验一下，但却很少真正上手做点什么。借这次机会，谈谈我用 AI 完成多媒体工作的经验和想法吧。

我不是很擅长处理多媒体任务，以前还得在淘宝找人代做，现在用 AI 自己动手，丰衣足食。

模型

目前大多数 AI 只能算聊天机器人，我认为真正具备生产力的只有 3 家，也就是常说的「三傻」或「御三家」：

OpenAI 公司的 ChatGPT 系列：OpenAI 就是引爆整个 AI 时代的公司，2022 年底 GPT-3.5 发布全球爆火。以前 ChatGPT 是遥遥领先的，现在这 3 家各有千秋吧。我觉得 ChatGPT 比较像竞赛生，强在纯粹的逻辑推理上，我平时遇到一些数学和算法难题，都会先扔给 ChatGPT 解答。
Google 公司的 Gemini 系列：Gemini 感觉比较全能，毕竟 Google 本身不只是 AI 公司，还有很多其他的产品，生态兼容比较好。
Anthropic 公司的 Claude 系列：Claude 比较像文科生，适合用来开发大型项目，写出来的文本也没那么 AI，还有就是人文关怀很好，现在推理其实也不比 ChatGPT 差了。

另外还有马斯克 xAI 公司的 Grok 模型，这个模型挺有意思的，2025 年初 Grok 3 发布甚至冲到第一梯队，但现在只能算聊天机器人。因为 X (Twitter) 也是马斯克的，Grok 有独占的 X (Twitter) 生态，能找到很多新闻帖子，经常刷 X (Twitter) 的应该见过，很多人会在帖子下面评论「@grok is it true?」来判断真假。

还有就是 Grok 比较开放，很多限制级内容都可以聊。上次冬日绘板活动有 IP 限速，我想搞一个 IP 池轮换，还有次我的私人网盘 lailai's Cloud 管理员密码丢失，需要在数据库改 Hash。这些只有 Grok 能用，让 ChatGPT 和 Gemini 搞都被拒绝了，而且还容易被封号，我在 2025 年 1 月的 ChatGPT 账号就是这样没的，一年多的聊天记录都没了。

价格

我比较喜欢用官方的会员套餐，因为第三方中转站虽然便宜但坑太多了。

号称0成本月入百万的API中转站，到底谁在赚钱？【差评君】 - bilibili

模型	小杯	中杯	大杯	超大杯
ChatGPT	ChatGPT Go $8/月	ChatGPT Plus $20/月	ChatGPT Pro 5x $100/月	ChatGPT Pro 20x $200/月
Claude	—	Claude Pro $20/月	Claude Max 5x $100/月	Claude Max 20x $200/月
Gemini	Google AI Plus $8/月	Google AI Pro $20/月	Google AI Ultra 5x $100/月	Google AI Ultra 20x $200/月
Grok	SuperGrok Lite $10/月	SuperGrok $30/月	—	SuperGrok Heavy $300/月

Google 比较良心，Gemini 免费额度本来就很多，日常也够用了，而且会员有很多免费渠道。充 20 美元的 Pro 会员基本用不完，还包含 5TB 的 Google One 网盘等其他 Google 生态服务，甚至还能用家庭组共享给另外 5 人。

Claude 免费额度很少，会员基本没有免费渠道。就算 20 美元的 Pro 会员几次对话五小时额度就没了，用 Claude Code 就更不够了，想正常使用就要充至少 100 美元的 Max 会员。

ChatGPT 中规中矩吧，充 20 美元的 Plus 会员日常够用了，但 Codex 额度比较少，偶尔有大型任务勉强能完成吧。

Grok 比较抽象，如果经常刷 X (Twitter) 可以考虑充 X Premium，但没必要充 SuperGrok。

我目前主力 AI 还是 Claude Max；日常用 ChatGPT Plus 已经连续充了 3 年了；Gemini 用的不多，但一直有学生认证的免费 Google One 会员，还建立了家庭组共享给 5 个同学。

根据不同预算的推荐：

低预算（$10 – 30/月）：Google AI Pro、ChatGPT Plus
高预算（$100 – 200/月）：ChatGPT Plus + Claude Max

提示

在闲鱼等平台，可能会有一些卡 Bug 获取免费或低价 AI 会员的渠道。

工具

科学上网：这是基本的互联网生存技能，如果不会我也没办法，建议看看翻墙与科学上网指南。

社交媒体：在 X (Twitter)、Reddit、YouTube、bilibili 等社交媒体，有很多人分享 AI 经验，可以去看看。

GitHub：GitHub 是全球最大的代码托管平台，开源模型、工具、各种 Awesome 清单都在上面，很多 AI 项目第一手的代码和文档也是先发 GitHub，我自己的项目也都放在这里。

Hugging Face：Hugging Face 是开源模型的大本营，模型、数据集、在线演示 Spaces 都能找到，想跑开源模型基本绕不开它。

Arena：LMArena（原 Chatbot Arena）让两个匿名模型回答同一个问题，由用户盲选哪个更好，再用 Elo 排名。想知道现在哪个模型强，看它的榜单比看官方宣传靠谱。

文本

文本（Text）毫无疑问一直都是 AI 最擅长的领域，随便找个 AI 都能对话，大家都知道我就不多说了。

我推荐用 Claude，文本的语言风格比另外两个好，ChatGPT 写的文本就是有 AI 感，最后记得要用 GPTZero 等工具降 AI 率。

代码

代码（Code）也属于文本，AI 非常擅长写代码，简单小代码随便找个 AI 都能写，大型工作建议用 Agent。

网页也是一段代码，有很多优点：一是稳定，不像让 AI 生成图片一样，每次生成都像抽奖，而且修改一个地方，其他地方就变了，网页能很精细的控制；二是便宜，网页就是一段代码，Token 比图片少很多；三是方便，网页生成后打开浏览器就能预览；四是强大，网页支持的功能很多，不仅是网页浏览，还能用来做图表、PPT 什么的，后面我会说的。

智能体

智能体（Agent）简单来说就是让 AI 不只是聊天机器人，能自行规划步骤、调用工具、完成任务的 AI 助手，独立完成一些大型项目，目前这 3 家都有桌面端，分别是 Codex、Gemini CLI、Claude Code。

我以前也用过一段时间的 Cursor，但这种实时计费的模式用起来不太舒服，经常费用爆炸。

图片

图片（Image）只有 OpenAI 的 GPT Image 和 Google 的 Nano Banana 生图模型，Claude 一直没有生图模型。

以前 nano banana 2 比 gpt-image-1.5 略强一点，现在新出的 gpt-image-2 遥遥领先了。注意很多 AI 生成的图片会有显式水印或隐形水印。

图表

图表（Chart）有三个生成思路：一是让生图 AI 直接生成，但细节和一致性不好；二是让 AI 写 Python 脚本，调用图表库生成，但设计一般，看上去很古老；三是让 AI 写 html 网页，这个是我用下来最好的，AI 给的细节和一致性都很好，大小像素级可调。

模型

模型（Model）是个相对冷门的领域，我也尝试了很多方法：首先是让 AI 直接生成图片，但效果一般；然后是专门的 text-to-3D 或 image-to-3D 建模 AI，会生成由几十万个三角形或四边形网格面构成的模型，只可远观不可亵玩；我还试了让 AI 用 Python 写脚本建模一个胚体，然后用生图 AI 贴图，这样保证比例是正确的；而现在 Claude 原生兼容 Blender 杀死了比赛，和真人手工操作完全一样，还能自动完成贴图、渲染等操作。

Office

我认为 Office 三件套 Word、PPT、Excel 是很不好的文件格式，因为它的编码混乱，换台电脑打开就乱了。而且非常不适合用 AI 编辑，会有很多格式问题，尽量还是少用吧。

你可能无法想象，这个 PPT 是我手工排版设计的……我最开始是让 Codex 直接生成的，它装了几个插件，并写了一个很长的 Python 脚本生成 PPT，但是效果不好，排版混乱。当时我急着出结果，就用 Figma 手搓了一个 PPT，设计还凑合，勉强能看吧；前段时间 Codex、Claude、Gemini 都拥有了原生的 PPT 能力，效果好多了；而且还新推出了 Claude Design 专业 AI 设计功能，可以做出顶尖设计，并支持 PPT 导出。还有一个想法，就是用网页排 PPT，因为 AI 擅长网页。

影音

视频（Video）和音乐（Music）生成我玩的不多。视频以前是 OpenAI 的 Sora，但前段时间 Sora 下架了，推荐用字节跳动旗下的 Seedance 和 Google 的 Veo。音乐模型只记得 Google 的 Lyria。

前言​

模型​

价格​

工具​

文本​

代码​

智能体​

图片​

图表​

模型​

Office​

影音​

前言

模型

价格

工具

文本

代码

智能体

图片

图表

模型

Office

影音