全文约5200字 | 阅读时间约13分钟
本期测试:AI综合创作工作流 | 测试时间:2026年5月
一、写在前面:为什么要做这个测试?
过去四期,我们分别测试了:
-
第一期:ChatGPT写文案
-
第二期:Midjourney V7画图
-
第三期:AI视频生成工具
-
第四期:AI音频工具
但一个现实问题是:真实创作中,你不会只用一个工具。
一条短视频需要:文案 + 画面 + 配音 + 配乐 + 剪辑。这篇文章要回答的是:如何把这四个工具串成一条完整的工作流?
我用一条实际发布的短视频来验证这个流程。以下是完整记录——包括每一步的操作、耗时、成本和踩过的坑。
测试目标:
| 项目 | 内容 |
|---|---|
| 视频主题 | 30秒科普类短视频:“什么是AIGC?” |
| 目标平台 | 抖音/视频号(竖屏) |
| 视频时长 | 30-40秒 |
| 输出格式 | 1080×1920 MP4 |
工具链:
| 环节 | 选用工具 | 理由 |
|---|---|---|
| 文案 | ChatGPT | 上一期已验证,效率最高 |
| 画面 | Midjourney V7 + 即梦 | 静态图为主,部分动态 |
| 配音 | 剪映·声音克隆 | 免费,用自己的声音 |
| 配乐 | Suno V4 | 生成版权无忧的BGM |
| 剪辑 | 剪映 | 免费,功能完整 |
二、整体流程概览
在开始之前,先看完整流程图:
第一步:策划与文案(约20分钟)
↓
ChatGPT生成脚本 → 人工润色 → 定稿
↓
第二步:画面生成(约40分钟)
↓
Midjourney生成5-6张核心画面 → 即梦生成1-2个动态镜头
↓
第三步:音频制作(约15分钟)
↓
剪映声音克隆生成配音 → Suno生成BGM
↓
第四步:剪辑合成(约30分钟)
↓
剪映中完成:画面+配音+字幕+BGM+转场
↓
最终输出:30秒短视频
总耗时:约1小时45分钟
如果不算工具的学习成本,一条30秒的科普短视频,从零到出片,可以控制在2小时以内。
三、第一步:策划与文案(约20分钟)
3.1 我的需求
我需要一个30秒的科普脚本,主题是“什么是AIGC?”。目标受众是对AI感兴趣但不太了解的普通用户。
3.2 ChatGPT Prompt设计
我使用了CARE框架(回顾第二期):
| 字母 | 含义 | 我填入的内容 |
|---|---|---|
| C - Context | 背景与角色 | “你是一个短视频脚本编剧,擅长30秒以内的科普类短视频,风格轻松易懂” |
| A - Audience | 目标受众 | “对AI感兴趣但不了解的普通用户,刷抖音/视频号,注意力只有10秒” |
| R - Requirements | 具体要求 | “1.时长30秒 2.分3-4个信息点 3.每句话不超过15字 4.适合配音 5.结尾有金句” |
| E - Examples | 参考示例 | 我附上了同类短视频的脚本格式 |
完整Prompt:
“你是一个短视频脚本编剧,擅长30秒以内的科普类短视频。
请为‘什么是AIGC?’这个主题写一个30秒的脚本。
受众:对AI感兴趣但不太了解的普通用户。
要求:
时长30秒(约80-100个字)
分3-4个信息点,每句不超过15字
语言轻松,适合配音
开头3秒要抓人
结尾有金句
输出格式:分镜表格,包含‘时间’‘画面描述’‘配音文案’三列。”
3.3 ChatGPT的输出
| 时间 | 画面描述 | 配音文案 |
|---|---|---|
| 0-3秒 | 各种AI应用快速切换(写作、绘画、音乐) | “AIGC,2026年最火的关键词” |
| 3-8秒 | 文字流变成图像的动画 | “AI不再是玩具,它能干活了” |
| 8-15秒 | 展示ChatGPT界面 | “写文案、写邮件,它都能干” |
| 15-22秒 | 展示Midjourney生成的图片 | “画图、做视频、配音乐” |
| 22-28秒 | 人+AI协作的画面 | “它不是替代你,是帮你放大能力” |
| 28-30秒 | 视觉logo定格 | “AIGC,你的超级副驾驶” |
3.4 人工润色
ChatGPT的输出已经可用,但我做了三处调整:
-
开头强化:“AIGC,2026年最火的关键词” → 改为 “AIGC,到底是什么?”
-
结尾金句缩短:“你的超级副驾驶” → 改为 “你的AI副驾”
-
增加一个停顿点:第15秒处加了一个“好,”作为语气转换
最终配音文案(约95字):
“AIGC,到底是什么?
它不是科幻电影,是现在就能用的工具。
写文案、做图片、剪视频、配音乐——
好,这些它都会。
但它不是替代你。
是帮你把想法,变成现实。
AIGC,你的AI副驾。”
3.5 耗时统计
| 步骤 | 耗时 |
|---|---|
| 设计Prompt | 3分钟 |
| ChatGPT生成 | 1分钟 |
| 人工润色 | 10分钟 |
| 脚本定稿 | 5分钟 |
| 合计 | 约19分钟 |
四、第二步:画面生成(约40分钟)
4.1 画面需求分析
根据脚本的6个分镜,我需要生成6张核心画面:
| 分镜 | 画面需求 | 工具选择 |
|---|---|---|
| 0-3秒 | 各种AI应用快速切换(多格拼贴效果) | Midjourney出图后拼贴 |
| 3-8秒 | 文字流变成图像的抽象动画 | 即梦生成动态 |
| 8-15秒 | 展示ChatGPT界面 | Midjourney(参考真实界面) |
| 15-22秒 | 展示Midjourney生成的图片(拼贴) | Midjourney出多张 |
| 22-28秒 | 人+AI协作的画面 | Midjourney |
| 28-30秒 | 视觉logo定格 | 剪映文字模板 |
4.2 Midjourney出图
分镜0-3秒的Prompt:
“a split screen showing four different AI applications: ChatGPT writing text, Midjourney generating art, Runway editing video, Suno composing music, modern tech style, vibrant colors, 4K, --ar 3:4 --v 7”
分镜22-28秒(人+AI协作)的Prompt:
“a young creative professional working side by side with an AI hologram interface, modern studio, warm lighting, collaborative atmosphere, realistic style, 4K, --ar 3:4 --v 7”
出图结果:
-
生成了约12张图(Draft Mode探索 → 标准模式精修)
-
筛选出5张可用
-
耗时:约25分钟
4.3 即梦生成动态片段
对于分镜3-8秒的“文字流变成图像”,静态图不够用。我用了即梦的图生视频功能。
操作步骤:
-
用Midjourney生成一张“漂浮的文字和代码”的图片
-
上传到即梦,选择“图生视频”模式
-
输入提示词:“文字慢慢转化为图像,渐变效果,流畅”
-
生成5秒视频片段
结果: 生成3次后有一条可用。耗时约10分钟。
4.4 画面准备清单
| 素材 | 数量 | 来源 | 状态 |
|---|---|---|---|
| 核心静态图 | 5张 | Midjourney | ✅ |
| 动态过渡片段 | 1段 | 即梦 | ✅ |
| 备用素材 | 3张 | Midjourney | ✅ |
4.5 画面生成阶段的经验总结
| 经验 | 说明 |
|---|---|
| 宁多勿少 | 生成比实际需要多30%的素材,剪辑时有选择空间 |
| 统一风格 | 所有画面用类似的--sref参数,保证视觉一致性 |
| 预留过渡空间 | 静态图之间至少预留1秒的过渡空间,不然后期没法加转场 |
五、第三步:音频制作(约15分钟)
5.1 配音生成(剪映·声音克隆)
为什么选剪映?
-
免费
-
我提前录制了20秒的声音样本
-
生成速度快(约10秒出结果)
操作步骤:
-
打开剪映 → 音频 → 声音克隆
-
选择已训练的我的声音模型
-
粘贴95字的配音文案
-
生成 → 导出为MP3
结果:
-
生成1次即可用
-
断句基本正确
-
只有一个地方需要微调(“好”后面的停顿太短,剪映里手动拉长了)
耗时:约5分钟
5.2 配乐生成(Suno V4)
需求分析:
-
背景音乐,不能抢人声
-
风格:科技感、现代、节奏平稳
-
时长:35秒左右
Prompt(英文效果更佳):
“modern electronic background music for tech explainer video, calm but energetic, instrumental, no vocals, 40 seconds, suitable for voiceover”
生成结果:
-
一次生成2首
-
第一首节奏太强,会盖过配音
-
第二首刚好:音量平稳,有科技氛围感,不抢戏
耗时:约3分钟(含试听筛选)
5.3 音量平衡处理
在剪映中,我把配音音量设为100%,BGM音量设为15-20%。这是经验值——既能听清BGM,又不干扰人声。
5.4 音频准备清单
| 素材 | 状态 | 备注 |
|---|---|---|
| 配音音频 | ✅ | 95字,约30秒 |
| 背景音乐 | ✅ | 35秒,循环使用 |
| 音量调校 | ✅ | BGM 15% |
六、第四步:剪辑合成(约30分钟)
6.1 剪映时间线结构
轨道1(视频): [画面1] → [画面2] → [动态过渡] → [画面3] → [画面4+5拼贴] → [画面6] → [Logo定格] 轨道2(配音): [30秒配音完整] 轨道3(BGM): [BGM从头到尾,淡入淡出] 轨道4(字幕): [字幕逐句对应配音]
6.2 关键操作点
| 操作 | 方法 | 耗时 |
|---|---|---|
| 画面卡点 | 根据配音波形图,对齐画面切换点 | 10分钟 |
| 转场添加 | 使用“淡化”转场,0.3秒,所有画面统一 | 3分钟 |
| 字幕生成 | 剪映“识别字幕”功能,一键生成后微调错别字 | 3分钟 |
| BGM淡入淡出 | 音频轨道首尾各加0.5秒淡入淡出 | 1分钟 |
| 封面制作 | 用Midjourney生成图 + 剪映文字模板 | 5分钟 |
6.3 导出设置
| 参数 | 设置 |
|---|---|
| 分辨率 | 1080×1920 |
| 帧率 | 30fps |
| 编码 | H.264 |
| 码率 | 推荐(约8Mbps) |
| 格式 | MP4 |
导出耗时: 约2分钟(取决于设备)
七、完整流程复盘
7.1 耗时统计
| 阶段 | 耗时 | 占比 |
|---|---|---|
| 策划与文案 | 20分钟 | 19% |
| 画面生成 | 40分钟 | 38% |
| 音频制作 | 15分钟 | 14% |
| 剪辑合成 | 30分钟 | 29% |
| 总计 | 约1小时45分钟 | 100% |
7.2 成本统计
| 工具 | 消耗 | 折算成本 |
|---|---|---|
| ChatGPT | 约5K tokens | 可忽略 |
| Midjourney | 约10张图(Draft+标准) | Standard计划内 |
| 即梦 | 1个5秒视频 | 约1元 |
| 剪映 | 配音+剪辑 | 免费 |
| Suno | 2次生成 | 免费额度内 |
| 合计 | 约1-2元 | — |
7.3 各环节评分
| 环节 | 评分 | 说明 |
|---|---|---|
| 文案质量 | ★★★★☆ | ChatGPT初稿可用,需10分钟人工润色 |
| 画面质量 | ★★★★☆ | Midjourney稳定输出,风格统一 |
| 配音质量 | ★★★★☆ | 声音克隆自然度满意 |
| 配乐质量 | ★★★☆☆ | Suno可用但不够“惊艳” |
| 剪辑流畅度 | ★★★★☆ | 剪映功能完整,上手快 |
7.4 对比:纯人工 vs AI工作流
| 维度 | 纯人工制作 | AI工作流 |
|---|---|---|
| 文案 | 30-45分钟 | 20分钟 |
| 画面 | 需找素材/拍摄,2-4小时 | 40分钟 |
| 配音 | 租录音棚或自己录,1-2小时 | 5分钟 |
| 配乐 | 找版权音乐,30-60分钟 | 3分钟 |
| 剪辑 | 1-2小时 | 30分钟 |
| 总耗时 | 5-10小时 | 约2小时 |
| 成本 | 可能涉及版权费用 | 约1-2元 |
八、经验总结与避坑指南
8.1 做得好的地方
| 经验 | 说明 |
|---|---|
| 脚本先行 | 所有画面都基于脚本生成,避免“先作图后凑文案”的混乱 |
| 统一风格参数 | 所有Midjourney图片使用相同的--sref,视觉一致性高 |
| 声音提前训练 | 提前在剪映训练好声音模型,节省现场调试时间 |
| 素材多备30% | 剪辑时有选择余地,避免“就差一张图”的尴尬 |
8.2 踩过的坑
| 坑 | 正确做法 |
|---|---|
| 画面比例不统一 | 生成时就指定--ar 9:16(竖屏)或16:9(横屏),不要后期裁剪 |
| 配音和画面时长对不上 | 先固定配音时长,再根据配音波形图安排画面节奏 |
| BGM音量太大盖过人声 | 剪映中BGM音量调至15-20%,这是经验值 |
| 字幕有错别字 | 剪映“识别字幕”后必须人工校对一遍 |
| 忘记加淡入淡出 | 导出前检查BGM和视频首尾,否则开头结尾生硬 |
8.3 工作流优化建议
如果每周都要做视频,以下优化值得投资:
| 优化项 | 投入 | 效果 |
|---|---|---|
| 建立Prompt模板库 | 1-2小时 | 每次脚本/Prompt复用,省30%时间 |
| 保存Midjourney风格参数 | 5分钟 | 所有画面视觉统一 |
| 训练好声音克隆 | 一次性 | 后续配音10秒出稿 |
| 剪映预设模板 | 10分钟 | 字幕样式、转场一键套用 |
九、这套工作流适合谁?
适合的场景
| 场景 | 适用性 | 说明 |
|---|---|---|
| 科普/教育类短视频 | ★★★★★ | 脚本驱动,静态图为主,完美匹配 |
| 品牌宣传片 | ★★★★☆ | 需要更多动态,建议搭配即梦/可灵 |
| 产品介绍视频 | ★★★★☆ | 配合产品图生成,效率高 |
| vlog/日常分享 | ★★★☆☆ | 真人出镜效果更好,AI适合辅助 |
| 剧情类短剧 | ★★☆☆☆ | 当前AI视频能力还撑不住复杂剧情 |
不适合的场景
-
需要真人出镜的内容(信任感问题)
-
需要实时拍摄的热点新闻
-
对画面一致性要求极高的品牌内容(当前AI角色一致性仍有问题)
十、总结:AI工作流的真正价值
回到开篇的问题:
如何用AI工具链从头到尾制作一条完整的短视频?
答案是:分四步走,总共约2小时,成本约1-2元。
但更重要的不是时间和成本,而是门槛的降低。
过去,做一条30秒的科普视频,你需要:
-
会写脚本
-
会找素材/拍摄
-
会录音
-
会找版权音乐
-
会剪辑
现在,你只需要:
-
会打字(给ChatGPT提需求)
-
会描述画面(给Midjourney写prompt)
-
会拖拽(剪映的基础操作)
AI不是替代创作者,而是让更多人可以“成为创作者”。
一句话总结这套工作流:
用ChatGPT想清楚说什么,用Midjourney想清楚给用户看什么,用剪映把一切串起来——然后,发布。
下一篇预告
下一期“AI实战笔记”,我将做一个年度复盘:过去六期测试的所有AI工具,哪些值得长期使用?哪些已经被淘汰?一份真实的“AI工具红黑榜”。敬请期待。
附录:快速参考卡
工作流速查表
| 步骤 | 工具 | 核心操作 | 耗时 |
|---|---|---|---|
| 文案 | ChatGPT | CARE框架写Prompt | 20分钟 |
| 画面 | Midjourney | --ar 9:16 + --sref 统一风格 | 40分钟 |
| 动态 | 即梦 | 图生视频 | 10分钟 |
| 配音 | 剪映克隆 | 提前训练声音模型 | 5分钟 |
| 配乐 | Suno | 英文提示词 + 音量15% | 3分钟 |
| 剪辑 | 剪映 | 对齐波形图 + 统一转场 | 30分钟 |
常用Prompt模板
ChatGPT脚本Prompt模板:
“你是一个短视频脚本编剧。请为‘XXX主题’写一个XX秒的脚本。受众:XXX。要求:1.XX秒 2.分X个信息点 3.每句话不超过XX字 4.适合配音 5.结尾有金句。输出格式:分镜表格。”
Midjourney画面Prompt模板:
“[主体描述],[场景/环境],[光线],[构图],[风格],4K,--ar 9:16 --sref [参考图URL] --sw 200 --v 7”
Suno BGM Prompt模板:
“[风格] background music for [场景],[情绪],instrumental,no vocals,[时长] seconds”