AI实战笔记：用AI工具链从零制作一条完整短视频

但一个现实问题是：真实创作中，你不会只用一个工具。一条短视频需要：文案 + 画面 + 配音 + 配乐 + 剪辑。这篇文章要回答的是：如何把这四个工具串成一条完整的工作流？我用一条实际发布的短视频来验证这个流程。以下是完整记录——包括每一步的操作、耗时、成本和踩过的坑。

原创

找找AI

全文约5200字 | 阅读时间约13分钟

本期测试：AI综合创作工作流 | 测试时间：2026年5月

一、写在前面：为什么要做这个测试？

过去四期，我们分别测试了：

第一期：ChatGPT写文案
第二期：Midjourney V7画图
第三期：AI视频生成工具
第四期：AI音频工具

但一个现实问题是：真实创作中，你不会只用一个工具。

一条短视频需要：文案 + 画面 + 配音 + 配乐 + 剪辑。这篇文章要回答的是：如何把这四个工具串成一条完整的工作流？

我用一条实际发布的短视频来验证这个流程。以下是完整记录——包括每一步的操作、耗时、成本和踩过的坑。

测试目标：

项目	内容
视频主题	30秒科普类短视频：“什么是AIGC？”
目标平台	抖音/视频号（竖屏）
视频时长	30-40秒
输出格式	1080×1920 MP4

工具链：

环节	选用工具	理由
文案	ChatGPT	上一期已验证，效率最高
画面	Midjourney V7 + 即梦	静态图为主，部分动态
配音	剪映·声音克隆	免费，用自己的声音
配乐	Suno V4	生成版权无忧的BGM
剪辑	剪映	免费，功能完整

二、整体流程概览

在开始之前，先看完整流程图：

第一步：策划与文案（约20分钟）
    ↓
ChatGPT生成脚本 → 人工润色 → 定稿
    ↓
第二步：画面生成（约40分钟）
    ↓
Midjourney生成5-6张核心画面 → 即梦生成1-2个动态镜头
    ↓
第三步：音频制作（约15分钟）
    ↓
剪映声音克隆生成配音 → Suno生成BGM
    ↓
第四步：剪辑合成（约30分钟）
    ↓
剪映中完成：画面+配音+字幕+BGM+转场
    ↓
最终输出：30秒短视频

总耗时：约1小时45分钟

如果不算工具的学习成本，一条30秒的科普短视频，从零到出片，可以控制在2小时以内。

三、第一步：策划与文案（约20分钟）

3.1 我的需求

我需要一个30秒的科普脚本，主题是“什么是AIGC？”。目标受众是对AI感兴趣但不太了解的普通用户。

3.2 ChatGPT Prompt设计

我使用了CARE框架（回顾第二期）：

字母	含义	我填入的内容
C - Context	背景与角色	“你是一个短视频脚本编剧，擅长30秒以内的科普类短视频，风格轻松易懂”
A - Audience	目标受众	“对AI感兴趣但不了解的普通用户，刷抖音/视频号，注意力只有10秒”
R - Requirements	具体要求	“1.时长30秒 2.分3-4个信息点 3.每句话不超过15字 4.适合配音 5.结尾有金句”
E - Examples	参考示例	我附上了同类短视频的脚本格式

完整Prompt：

“你是一个短视频脚本编剧，擅长30秒以内的科普类短视频。

请为‘什么是AIGC？’这个主题写一个30秒的脚本。

受众：对AI感兴趣但不太了解的普通用户。

要求：

时长30秒（约80-100个字）

分3-4个信息点，每句不超过15字

语言轻松，适合配音

开头3秒要抓人

结尾有金句

输出格式：分镜表格，包含‘时间’‘画面描述’‘配音文案’三列。”

3.3 ChatGPT的输出

时间	画面描述	配音文案
0-3秒	各种AI应用快速切换（写作、绘画、音乐）	“AIGC，2026年最火的关键词”
3-8秒	文字流变成图像的动画	“AI不再是玩具，它能干活了”
8-15秒	展示ChatGPT界面	“写文案、写邮件，它都能干”
15-22秒	展示Midjourney生成的图片	“画图、做视频、配音乐”
22-28秒	人+AI协作的画面	“它不是替代你，是帮你放大能力”
28-30秒	视觉logo定格	“AIGC，你的超级副驾驶”

3.4 人工润色

ChatGPT的输出已经可用，但我做了三处调整：

开头强化：“AIGC，2026年最火的关键词” → 改为 “AIGC，到底是什么？”
结尾金句缩短：“你的超级副驾驶” → 改为 “你的AI副驾”
增加一个停顿点：第15秒处加了一个“好，”作为语气转换

最终配音文案（约95字）：

“AIGC，到底是什么？

它不是科幻电影，是现在就能用的工具。

写文案、做图片、剪视频、配音乐——

好，这些它都会。

但它不是替代你。

是帮你把想法，变成现实。

AIGC，你的AI副驾。”

3.5 耗时统计

步骤	耗时
设计Prompt	3分钟
ChatGPT生成	1分钟
人工润色	10分钟
脚本定稿	5分钟
合计	约19分钟

四、第二步：画面生成（约40分钟）

4.1 画面需求分析

根据脚本的6个分镜，我需要生成6张核心画面：

分镜	画面需求	工具选择
0-3秒	各种AI应用快速切换（多格拼贴效果）	Midjourney出图后拼贴
3-8秒	文字流变成图像的抽象动画	即梦生成动态
8-15秒	展示ChatGPT界面	Midjourney（参考真实界面）
15-22秒	展示Midjourney生成的图片（拼贴）	Midjourney出多张
22-28秒	人+AI协作的画面	Midjourney
28-30秒	视觉logo定格	剪映文字模板

4.2 Midjourney出图

分镜0-3秒的Prompt：

“a split screen showing four different AI applications: ChatGPT writing text, Midjourney generating art, Runway editing video, Suno composing music, modern tech style, vibrant colors, 4K, --ar 3:4 --v 7”

分镜22-28秒（人+AI协作）的Prompt：

“a young creative professional working side by side with an AI hologram interface, modern studio, warm lighting, collaborative atmosphere, realistic style, 4K, --ar 3:4 --v 7”

出图结果：

生成了约12张图（Draft Mode探索 → 标准模式精修）
筛选出5张可用
耗时：约25分钟

4.3 即梦生成动态片段

对于分镜3-8秒的“文字流变成图像”，静态图不够用。我用了即梦的图生视频功能。

操作步骤：

用Midjourney生成一张“漂浮的文字和代码”的图片
上传到即梦，选择“图生视频”模式
输入提示词：“文字慢慢转化为图像，渐变效果，流畅”
生成5秒视频片段

结果： 生成3次后有一条可用。耗时约10分钟。

4.4 画面准备清单

素材	数量	来源	状态
核心静态图	5张	Midjourney	✅
动态过渡片段	1段	即梦	✅
备用素材	3张	Midjourney	✅

4.5 画面生成阶段的经验总结

经验	说明
宁多勿少	生成比实际需要多30%的素材，剪辑时有选择空间
统一风格	所有画面用类似的--sref参数，保证视觉一致性
预留过渡空间	静态图之间至少预留1秒的过渡空间，不然后期没法加转场

五、第三步：音频制作（约15分钟）

5.1 配音生成（剪映·声音克隆）

为什么选剪映？

免费
我提前录制了20秒的声音样本
生成速度快（约10秒出结果）

操作步骤：

打开剪映 → 音频 → 声音克隆
选择已训练的我的声音模型
粘贴95字的配音文案
生成 → 导出为MP3

结果：

生成1次即可用
断句基本正确
只有一个地方需要微调（“好”后面的停顿太短，剪映里手动拉长了）

耗时：约5分钟

5.2 配乐生成（Suno V4）

需求分析：

背景音乐，不能抢人声
风格：科技感、现代、节奏平稳
时长：35秒左右

Prompt（英文效果更佳）：

“modern electronic background music for tech explainer video, calm but energetic, instrumental, no vocals, 40 seconds, suitable for voiceover”

生成结果：

一次生成2首
第一首节奏太强，会盖过配音
第二首刚好：音量平稳，有科技氛围感，不抢戏

耗时：约3分钟（含试听筛选）

5.3 音量平衡处理

在剪映中，我把配音音量设为100%，BGM音量设为15-20%。这是经验值——既能听清BGM，又不干扰人声。

5.4 音频准备清单

素材	状态	备注
配音音频	✅	95字，约30秒
背景音乐	✅	35秒，循环使用
音量调校	✅	BGM 15%

六、第四步：剪辑合成（约30分钟）

6.1 剪映时间线结构

轨道1（视频）: [画面1] → [画面2] → [动态过渡] → [画面3] → [画面4+5拼贴] → [画面6] → [Logo定格]
轨道2（配音）: [30秒配音完整]
轨道3（BGM）: [BGM从头到尾，淡入淡出]
轨道4（字幕）: [字幕逐句对应配音]

6.2 关键操作点

操作	方法	耗时
画面卡点	根据配音波形图，对齐画面切换点	10分钟
转场添加	使用“淡化”转场，0.3秒，所有画面统一	3分钟
字幕生成	剪映“识别字幕”功能，一键生成后微调错别字	3分钟
BGM淡入淡出	音频轨道首尾各加0.5秒淡入淡出	1分钟
封面制作	用Midjourney生成图 + 剪映文字模板	5分钟

6.3 导出设置

参数	设置
分辨率	1080×1920
帧率	30fps
编码	H.264
码率	推荐（约8Mbps）
格式	MP4

导出耗时： 约2分钟（取决于设备）

七、完整流程复盘

7.1 耗时统计

阶段	耗时	占比
策划与文案	20分钟	19%
画面生成	40分钟	38%
音频制作	15分钟	14%
剪辑合成	30分钟	29%
总计	约1小时45分钟	100%

7.2 成本统计

工具	消耗	折算成本
ChatGPT	约5K tokens	可忽略
Midjourney	约10张图（Draft+标准）	Standard计划内
即梦	1个5秒视频	约1元
剪映	配音+剪辑	免费
Suno	2次生成	免费额度内
合计	约1-2元	—

7.3 各环节评分

环节	评分	说明
文案质量	★★★★☆	ChatGPT初稿可用，需10分钟人工润色
画面质量	★★★★☆	Midjourney稳定输出，风格统一
配音质量	★★★★☆	声音克隆自然度满意
配乐质量	★★★☆☆	Suno可用但不够“惊艳”
剪辑流畅度	★★★★☆	剪映功能完整，上手快

7.4 对比：纯人工 vs AI工作流

维度	纯人工制作	AI工作流
文案	30-45分钟	20分钟
画面	需找素材/拍摄，2-4小时	40分钟
配音	租录音棚或自己录，1-2小时	5分钟
配乐	找版权音乐，30-60分钟	3分钟
剪辑	1-2小时	30分钟
总耗时	5-10小时	约2小时
成本	可能涉及版权费用	约1-2元

八、经验总结与避坑指南

8.1 做得好的地方

经验	说明
脚本先行	所有画面都基于脚本生成，避免“先作图后凑文案”的混乱
统一风格参数	所有Midjourney图片使用相同的--sref，视觉一致性高
声音提前训练	提前在剪映训练好声音模型，节省现场调试时间
素材多备30%	剪辑时有选择余地，避免“就差一张图”的尴尬

8.2 踩过的坑

坑	正确做法
画面比例不统一	生成时就指定--ar 9:16（竖屏）或16:9（横屏），不要后期裁剪
配音和画面时长对不上	先固定配音时长，再根据配音波形图安排画面节奏
BGM音量太大盖过人声	剪映中BGM音量调至15-20%，这是经验值
字幕有错别字	剪映“识别字幕”后必须人工校对一遍
忘记加淡入淡出	导出前检查BGM和视频首尾，否则开头结尾生硬

8.3 工作流优化建议

如果每周都要做视频，以下优化值得投资：

优化项	投入	效果
建立Prompt模板库	1-2小时	每次脚本/Prompt复用，省30%时间
保存Midjourney风格参数	5分钟	所有画面视觉统一
训练好声音克隆	一次性	后续配音10秒出稿
剪映预设模板	10分钟	字幕样式、转场一键套用

九、这套工作流适合谁？

适合的场景

场景	适用性	说明
科普/教育类短视频	★★★★★	脚本驱动，静态图为主，完美匹配
品牌宣传片	★★★★☆	需要更多动态，建议搭配即梦/可灵
产品介绍视频	★★★★☆	配合产品图生成，效率高
vlog/日常分享	★★★☆☆	真人出镜效果更好，AI适合辅助
剧情类短剧	★★☆☆☆	当前AI视频能力还撑不住复杂剧情

不适合的场景

需要真人出镜的内容（信任感问题）
需要实时拍摄的热点新闻
对画面一致性要求极高的品牌内容（当前AI角色一致性仍有问题）

十、总结：AI工作流的真正价值

回到开篇的问题：

如何用AI工具链从头到尾制作一条完整的短视频？

答案是：分四步走，总共约2小时，成本约1-2元。

但更重要的不是时间和成本，而是门槛的降低。

过去，做一条30秒的科普视频，你需要：

会写脚本
会找素材/拍摄
会录音
会找版权音乐
会剪辑

现在，你只需要：

会打字（给ChatGPT提需求）
会描述画面（给Midjourney写prompt）
会拖拽（剪映的基础操作）

AI不是替代创作者，而是让更多人可以“成为创作者”。

一句话总结这套工作流：

用ChatGPT想清楚说什么，用Midjourney想清楚给用户看什么，用剪映把一切串起来——然后，发布。

下一篇预告

下一期“AI实战笔记”，我将做一个年度复盘：过去六期测试的所有AI工具，哪些值得长期使用？哪些已经被淘汰？一份真实的“AI工具红黑榜”。敬请期待。

附录：快速参考卡

工作流速查表

步骤	工具	核心操作	耗时
文案	ChatGPT	CARE框架写Prompt	20分钟
画面	Midjourney	--ar 9:16 + --sref 统一风格	40分钟
动态	即梦	图生视频	10分钟
配音	剪映克隆	提前训练声音模型	5分钟
配乐	Suno	英文提示词 + 音量15%	3分钟
剪辑	剪映	对齐波形图 + 统一转场	30分钟

常用Prompt模板

ChatGPT脚本Prompt模板：

“你是一个短视频脚本编剧。请为‘XXX主题’写一个XX秒的脚本。受众：XXX。要求：1.XX秒 2.分X个信息点 3.每句话不超过XX字 4.适合配音 5.结尾有金句。输出格式：分镜表格。”

Midjourney画面Prompt模板：

“[主体描述]，[场景/环境]，[光线]，[构图]，[风格]，4K，--ar 9:16 --sref [参考图URL] --sw 200 --v 7”

Suno BGM Prompt模板：

“[风格] background music for [场景]，[情绪]，instrumental，no vocals，[时长] seconds”

AI视频制作流程ChatGPT+Midjourney+剪映AI短视频内容创作工具链AI实战笔记