跳到主要内容
1518 词数8 分钟

杂谈:AI 多媒体任务

前段时间,我通过学校社团参加了某个 PPT 大赛 航天项目设计比赛,记录一下使用 AI 完成多媒体工作的经验和想法。

前言

我也算 AI 的重度用户了,从日常聊天、查资料、找灵感、提建议,到文化课答疑和竞赛题目调试,再到项目的开发和维护,基本都离不开 AI。

提示

现在很多 AI 新品是 macOS 独享,Windows 和 Linux 可能没有。

模型

目前大部分 AI 都只能算聊天机器人,能作为生产力的只有 3 家:

  • OpenAI 公司的 ChatGPT 系列
  • Google 公司的 Gemini 系列
  • Anthropic 公司的 Claude 系列

ChatGPT

OpenAI 就是引爆整个 AI 时代的公司,2022 年底 GPT-3.5 发布全球爆火。以前 ChatGPT 是遥遥领先的,现在这 3 家各有千秋吧。

我觉得 ChatGPT 比较像竞赛生,强在纯粹的逻辑推理上,我平时遇到一些数学和算法难题,都会先扔给 ChatGPT 解答。

Gemini

Gemini 感觉比较全能吧,毕竟 Google 本身不只是 AI 公司,还有很多其他的产品,生态兼容比较好。

Claude

Claude 比较像文科生,适合用来开发大型项目,写出来的文本也没那么 AI,还有就是人文关怀很好,现在推理其实也不比 ChatGPT 差了。

Grok

另外还有马斯克 xAI 公司的 Grok 模型,这个模型挺有意思的,2025 年初 Grok 3 发布甚至冲到第一梯队,但现在只能算聊天机器人。

因为 X (Twitter) 也是马斯克的,Grok 有独占的 X (Twitter) 生态,能找到很多新闻帖子,经常刷 X (Twitter) 的应该见过,很多人会在帖子下面评论「@grok is it true?」来判断真假。

还有就是 Grok 比较开放,很多限制级内容都可以聊。上次冬日绘板活动有 IP 限速,我想搞一个 IP 池轮换,还有次我的私人网盘 lailai's Cloud 管理员密码丢失,需要在数据库改 Hash。这些只有 Grok 能用,让 ChatGPT 和 Gemini 搞都被拒绝了,而且还容易被封号,我在 2025 年 1 月的 ChatGPT 账号就是这样没的,一年多的聊天记录都没了。

价格

我比较喜欢用官方的会员套餐,因为第三方中转站虽然便宜但坑太多了。

模型小杯中杯大杯超大杯
ChatGPTChatGPT Go
$8/月
ChatGPT Plus
$20/月
ChatGPT Pro 5x
$100/月
ChatGPT Pro 20x
$200/月
ClaudeClaude Pro
$20/月
Claude Max 5x
$100/月
Claude Max 20x
$200/月
GeminiGoogle AI Plus
$8/月
Google AI Pro
$20/月
Google AI Ultra 5x
$100/月
Google AI Ultra 20x
$200/月
GrokSuperGrok Lite
$10/月
SuperGrok
$30/月
SuperGrok Heavy
$300/月

Google 比较良心,Gemini 免费额度本来就很多,日常也够用了,而且会员有很多免费渠道。充 20 美元的 Pro 会员基本用不完,还包含 5TB 的 Google One 网盘等其他 Google 生态服务,甚至还能共享给 6 人的家庭组。

Claude 免费额度很少,会员基本没有免费渠道。就算 20 美元的 Pro 会员也只够每五小时的几轮对话,用 Claude Code 就更不够了,想正常使用就要充至少 100 美元的 Max 会员。

ChatGPT 中规中矩吧,充 20 美元的 Plus 会员日常够用了,Codex 额度也不少,偶尔有大型任务也能完成。

Grok 比较抽象,如果经常刷 X (Twitter) 可以考虑充 X Premium,但没必要充 SuperGrok。

我目前主力 AI 还是 Claude Max;日常用 ChatGPT Plus 已经连续充了 3 年了;Gemini 用的不多,但一直有学生认证的免费 Google One 会员,还建立了家庭组共享给 5 个同学。

根据不同预算的推荐:

  • 零预算:Gemini
  • 低预算($10-30/月):Google AI Pro、ChatGPT Plus
  • 高预算($100-200/月):ChatGPT Plus + Claude Max
  • 无上限:Google AI Ultra + ChatGPT Pro + Claude Max + SuperGrok Heavy
提示

出现卡 Bug 获取免费 AI 会员的渠道,通常会先出现在闲鱼。

工具

VPN

这是 AI 时代最基本的生存技能,如果不会我也没办法。

社交媒体

在 X (Twitter)、Reddit、YouTube、bilibili 等社交媒体上,有很多人分享 AI 经验,可以去看看。

GitHub

GitHub 是全球最大的代码托管平台,开源模型、工具、各种 Awesome 清单都在上面,很多 AI 项目第一手的代码和文档也是先发 GitHub,我自己的项目也都放在这里。

Hugging Face

Hugging Face 是开源模型的大本营,模型、数据集、在线演示 Spaces 都能找到,想跑开源模型基本绕不开它。

Arena

LMArena(原 Chatbot Arena)让两个匿名模型回答同一个问题,由用户盲选哪个更好,再用 Elo 排名。想知道现在哪个模型强,看它的榜单比看官方宣传靠谱。

GPTZero

GPTZero 是 AI 检测工具,测一段文本有多大概率是 AI 写的。前面说的「降 AI 率」就是拿它来回测,改到分数够低再交。

任务

文本

文本(Text)毫无疑问一直都是 AI 最擅长的领域,随便找个 AI 都能搞,大家都知道我就不多说了。

我推荐用 Claude,文本的语言风格比另外两个好,ChatGPT 写的文本就是有 AI 感,最后记得要降 AI 率,文科生失业!

代码

代码(Code)也属于文本,AI 非常擅长写代码,简单小代码随便找个AI都能写,大型工作建议用 Agent,程序员失业!

网页也是一段代码,有很多优点:一是稳定,不像让 AI 生成图片一样,每次生成都像抽奖,而且修改一个地方,其他地方就变了,网页能很精细的控制;二是便宜,网页就是一段代码,Token 比图片少很多;三是方便,网页生成后打开浏览器就能预览;四是强大,网页支持的功能很多,不仅是网页浏览,还能用来做图表、PPT什么的,后面我会说的。

智能体

智能体(Agent)简单来说就是让 AI 不只是聊天机器人,能自行规划步骤、调用工具、完成任务的 AI 助手,独立完成一些大型项目,目前这 3 家都有桌面端,分别是 Codex、Gemini CLI、Claude Code。

我以前也用过一段时间的 Cursor,但这种实时计费的模式用起来不太舒服,经常费用爆炸。

图片

图片(Image)只有 OpenAI 的 GPT Image 和 Google 的 Nano Banana 生图模型,Claude 一直没有生图模型。

以前 nano banana 2 比 gpt-image-1.5 略强一点,现在新出的 gpt-image-2 遥遥领先了,设计师失业!

图表

图表(Chart)有三个生成思路:一是让生图AI直接生成,但细节和一致性不好;二是让 AI 写 Python 脚本,调用图表库生成,但设计一般,看上去很古老;三是让 AI 写 html 网页,这个是我用下来最好的,AI 给的细节和一致性都很好,大小像素级可调。

模型

模型(Model)是个相对冷门的领域,我也尝试了很多方法:首先是让 AI 直接生成图片,但效果一般;然后是专门的建模 AI,会生成由几十万个三角形或四边形面构成的模型;还能让 AI 用 Python 写脚本建模一个胚体,然后让生图 AI 贴图,这样保证比例是正确的;而现在 Claude 原生兼容 Blender 杀死了比赛,和真人手工操作完全一样,还能自动完成贴图、渲染等操作。

PPT

你可能无法想象,这个 PPT 是我手工排版设计的……我最开始是让 Codex 直接生成的,它装了几个插件,并写了一个很长的 Python 脚本生成 PPT,但是效果不好,排版混乱。当时我急着出结果,就用 Figma 手搓了一个 PPT,设计还凑合,勉强能看吧;前段时间 Codex、Claude、Gemini 都拥有了原生的 PPT 能力,效果好多了;而且还新推出了 Claude Design 专业 AI 设计功能,可以做出顶尖设计,并支持 PPT 导出。还有一个想法,就是用网页排 PPT,因为 AI 擅长网页。

视频

视频(Video)生成我玩的不多,以前是 OpenAI 的 Sora,但前段时间 Sora 下架了,推荐用字节跳动旗下的Seedance 和 Google 的 Veo。

音乐

音乐(Music)我也玩的不多,只记得 Google 的 Lyria。