我重新写一个简洁版本:
核心理念:从"生成视频"到"导演视频"
传统做法:一句话描述 → “生成一个女孩在海边跑步的视频”
升维做法:三维控制 → 视觉怎么拍 + 声音怎么设计 + 素材怎么组合
第一维:视觉构图的电影化控制
案例1:鱼眼镜头的窥视美学
需求:宠物向上看主人的第一人称视角
素材描述:
- 视频1:鱼眼镜头从上往下拍,圆形孔洞,边缘畸变
- 视频2:马头,红色背景,大眼睛无辜表情
- 视频3:电子音效,"咚叮"交替,120BPM
提示词核心:
固定镜头,180度鱼眼,圆形孔洞占画面60%,
参考@视频1的畸变效果,
让@视频2的马抬头看向镜头中心,眼神从好奇到期待,
耳朵随@视频3的"叮"声抖动(每秒2次),
头部随"咚"声晃动(每秒2次),
光线从孔洞边缘向中心递减,营造窥视感。
时长6秒:0-3秒马头抬起,3-6秒保持仰视并眨眼。
关键要点:
- 镜头语言具体化:不说"特殊视角",说"180度鱼眼+圆形孔洞+向下窥视"
- 动作与音效同步:耳朵抖动对应"叮"声,头部晃动对应"咚"声
- 光线有功能性:边缘亮→中心暗,强化"窥视"叙事
案例2:低角度英雄镜头
需求:旅行Vlog开场
提示词核心:
超广角,低机位仰拍30度,
旅行车占画面下1/3,海面和地平线占上1/3,
夕阳侧逆光从右侧射入,体积光穿过尘粒,
人物背影在左侧黄金分割点,风吹动衣角。
运镜分段:
0-3秒:静止建立空间
3-6秒:缓慢推进靠近车辆
6-10秒:轻微上摇,地平线移至画面中央
10-15秒:保持构图,人物转头看海
关键要点:
- 机位数学化:低机位+30度仰拍,比"低角度"精确10倍
- 构图比例化:下1/3、上1/3、黄金分割点
- 运镜分段化:每个时间段明确运动类型和幅度
案例3:多人场景的视线调度
需求:家族聚会温馨场景
素材描述:7人横向排列,色彩鲜艳的拉美街道背景
提示词核心:
固定中景,7人横向排列,景深全员清晰。
时间轴:
0-3秒:中间女孩唱"I'm so proud of my family!",
视线从镜头转向右侧黑人女孩,身体微右转
3-6秒:两人拥抱,身体呈45度面向镜头,
黑人女孩回应"My sweetie…"
6-9秒:左侧男孩向前半步,"Let's dance!",
右手指天空
9-12秒:右侧女孩"I'll bring the music!",
掏手机做播放手势,拉美音乐渐起
12-15秒:全员律动,背景饱和度提升10%
关键要点:
- 视线接力:中间→右侧→左侧→右侧,形成引导链
- 身体角度精确:45度面向镜头确保拥抱时两人脸都可见
- 动作分层:主动作(拥抱)、次要动作(点头)、环境动作(踏步)
第二维:声音分层的沉浸式设计
案例4:方言喜剧的三层声音
需求:四川方言奶茶店误会桥段
素材描述:
- 图1:穿唐装的卡通猴子
- 图2:穿围裙的卡通比熊
- 场景:现代奶茶店
提示词核心:
【第一层:对白层】
猴子:"幺妹儿,霸王别姬有得没得?"
– 四川话标注:"幺妹儿"读yāo mēir(儿化音)
"有得没得"的"没"读mò(四川话标志)
– 语气:老年男性,略沙哑,语速慢(3字/秒)
– 语调:"幺妹儿"上扬,"霸王别姬"慢而清楚,
"有得没得"快速连读
比熊:"没得,美式要不要得嘛"
– "没得"读mò dé,肯定且无奈
– "美式"标准发音(外来词对比)
– 年轻女性,语速快,带职业耐心但略不耐烦
猴子:"没事……?我有事!孙儿叫我来买个奶茶,
就叫个撒子霸王别姬嘛"
– "没事"先疑惑重复(升调),停顿0.5秒
– "我有事"重读,语速加快,音量提高
– "撒子"读sá zi(表示"什么")
– "嘛"拖得特别长,强调
【第二层:环境音层】
– 奶茶店轻音乐(-20dB底噪)
– 制作工具碰撞声(间隔1-2秒)
– 咖啡机蒸汽声(配合"美式"对白)
– 手拍吧台声+远处窃笑(配合猴子着急)
【第三层:BGM层】
– 0-10秒:轻松Lofi,钢琴+鼓点
– 10-15秒:音乐暂停,突出尴尬
– 15-22秒:紧张弦乐,配合着急
– 22-25秒:欢快木琴,误会解除
关键要点:
- 方言音韵学标注:不只写"四川话",标注具体读音
- 三层音量关系:对白(0dB)> 环境音(-20dB)> BGM(-25dB)
- 情绪用声音表达:停顿、重读、拖长音都是情绪
案例5:戏曲唱腔的AI还原
需求:豫剧《铡美案》片段
提示词核心:
【唱腔层】
包拯唱"刀对鞘,真凭实据你敢不招?"
– 行当:豫剧黑头(净角)
– 音色:宽厚浑厚,胸腔共鸣,音域G2-D4
– 技法:
"刀对鞘"用顿音(每字0.3秒+停顿0.1秒)
"真凭实据"快板(每字0.2秒连读)
"你敢"重音,"敢"字喷口
"不招"拖腔1.5秒,音调C3→E3→G3→E3,
结尾颤音6Hz
旦角念白"且慢!"
– 行当:豫剧青衣
– 音色:清亮甜美,头腔共鸣,音域C4-G5
– 技法:"且"字短促F4,"慢"字拖长F4→C5,
音量渐强,急收
【伴奏层】
– 板胡:跟随唱腔,在停顿处加装饰音,音量-15dB
– 梆子:一板一眼节奏,每拍0.5秒,音量-20dB
– 大锣:旦角念白时单次重击,制造"亮相"
【空间层】
– 大剧场混响,混响时间2.5秒
– 旦角念白混响延长到3秒,"声音从远处传来"
【情绪层】
– 0-2秒:紧张酝酿(伴奏渐起)
– 2-6秒:愤怒爆发(包拯唱腔)
– 6-10秒:尴尬沉默(仅环境音)
– 10-12秒:戏剧转折(旦角+大锣)
– 12-15秒:悬念留白(静音2秒)
关键要点:
- 行当音色数据化:音域、共鸣位置、质感
- 唱腔技法乐理化:顿音、拖腔、颤音用音乐术语描述
- 静音的叙事功能:10秒和12秒两次静音是戏曲节奏核心
案例6:多角色空间声场
需求:特种部队战前动员
提示词核心:
【空间坐标系】
X轴(左右):-1.0(最左)到+1.0(最右)
Y轴(远近):0(最近)到1.0(最远)
Z轴(高低):0(地面)到1.0(头顶)
【声源定位】
队长(0, 0.3, 0.8):"三分钟后突袭!"
– 西班牙语,低沉有力,音量0dB
– 握拳音+挥臂音跟随位置
持刀者(-0.7, 0.5, 0.4):刀入鞘声
– 左侧传来,左声道+5dB,音量-10dB
黑人队员(0.6, 0.5, 0.5):"侧翼包抄?"
– 右侧传来,右声道+5dB,音量-5dB
– 手拍肩膀声先于对白
【距离感】
近景(Y=0-0.3):混响0.5秒,直达声80%
中景(Y=0.3-0.6):混响0.8秒,直达声60%
远景(Y=0.6-1.0):混响1.2秒,直达声40%
【立体声定位】
左侧声源:左声道+3到+8dB,提前0.1-0.3ms
右侧声源:右声道+3到+8dB,提前0.1-0.3ms
关键要点:
- 三维坐标精确定位每个声音
- 立体声用音量差+时间差模拟方向
- 距离感用混响+高频衰减塑造
第三维:素材复用的风格迁移
案例7:跨素材特征嫁接
需求:将鱼眼镜头+马头+音效节奏组合
提示词核心:
【视觉层提取】@视频1
– 镜头:180度鱼眼,畸变系数k1=-0.3
– 孔洞:直径占60%,位于中心
– 光线:边缘100%亮度→中心60%亮度
【角色层提取】@视频2
– 主体:马头,棕色毛发
– 背景:红色RGB(200,30,30)
– 眼神:瞳孔占眼眶80%,上下眼白可见
– 动作:耳朵抖动5度,头部晃动3cm
【节奏层提取】@视频3
– 节奏:120BPM
– 音效:"咚"80Hz(强拍)+"叮"2000Hz(弱拍)
【整合策略】
用@视频1的镜头框架,
放入@视频2的马头(调整视线向上15度),
用@视频3的节奏驱动动作:
– 耳朵抖动对应"叮"(每秒2次)
– 头部晃动对应"咚"(每秒2次)
关键要点:
- 参数化提取:不说"鱼眼效果",提取畸变系数、孔洞尺寸
- 跨模态映射:音效节奏(听觉)→动作节奏(视觉)
- 选择性迁移:保留角色和背景,但调整视线方向
案例8:声音特征的精准复用
需求:让新角色使用参考视频的说话方式
提示词核心:
【音色提取】@视频1
– 基频:120Hz
– 音域:100-200Hz
– 共鸣:胸腔60%+口腔40%
– 质感:温暖度7/10,沙哑度3/10,气息感5/10
【语气提取】@视频1
– 情绪:温柔60%+无奈30%+宠溺10%
– 语调:"宝贝"130Hz→150Hz(上扬0.8秒)
"该起床了"145Hz→115Hz(下降1.2秒)
"开会呢""开会"重读+5dB
– 节奏:语速3字/秒,"宝贝"后停顿0.3秒
【迁移到新场景】
厨房场景,父亲叫家人吃饭:
"饭做好了,快来吃吧"
– 保持@视频1的音色参数(基频120Hz等)
– 复制语气模式(温柔+无奈+宠溺)
– 模仿语调曲线:
"饭做好了"130Hz→150Hz(模仿"宝贝"上扬)
"快来吃吧"145Hz→115Hz(模仿"起床了"下降)
– 复制节奏:语速3字/秒,停顿0.5秒,
结尾叹气0.5秒
关键要点:
- 音色多维量化:基频、共鸣、质感7个维度
- 语气声学翻译:情绪→音高曲线+音量+停顿
- 模式复制而非内容复制:不同对白,相同风格
实战案例:15秒情感短片完整流程
需求:早晨叫醒场景
分镜脚本:
【镜头1】0-3秒 – 闹钟响起
机位:床头柜侧面,1.5米,高0.8米
画面:闹钟特写左下角,女生在被子里蠕动,
手伸出按掉闹钟,缩回
声音:闹钟铃声1秒→按键声→被子摩擦声-25dB
【镜头2】3-8秒 – 男生劝说
机位:快速横摇0.3秒,切到床对面2米,高1.7米
画面:男生近景,揉眼睛→看向女生→无奈表情
对白:"宝贝,该起床了"
– 参考@视频语气:温柔+无奈
– 语调:"宝贝"上扬,"起床了"下降拖长
声音:对白0dB,吸气声-15dB,叹气声-10dB
【镜头3】8-10秒 – 女生撒娇
机位:切回床头柜,推近到0.8米
画面:女生把头埋进被子,拱起小包,
露出一只眼睛眨一下又闭上
声音:被子摩擦-20dB,"唔…"鼻音-5dB
【镜头4】10-15秒 – 男生妥协
机位:房间角落3米,高1.5米,全景
画面:男生叉腰→深呼吸→苦笑→转身走向门口
对白:"真拿你没办法"
– 语气:宠溺投降,"法"字拖长0.8秒
声音:深呼吸-10dB,脚步声-15dB,
BGM钢琴-25dB渐起
关键要点:
- 每个镜头明确:机位+画面+声音
- 情绪递进:平静→无奈→撒娇→妥协
- 运镜有功能:快速横摇模拟"转头看"
- 声音分层:对白+动作音+环境音+BGM
核心方法论总结
三个公式
视觉公式:
画面效果 = 机位(距离+高度+角度)
× 光线(方向+色温+强度)
× 运镜(类型+速度+时长)
× 构图(比例+法则)
声音公式:
声音效果 = 对白层(0dB)
+ 动作音层(-10到-25dB)
+ 环境音层(-25到-35dB)
+ BGM层(-15到-25dB)
素材公式:
新作品 = 解构(拆分特征)
→ 抽象(提取模式)
→ 映射(跨模态转换)
→ 重构(创新组合)
五个关键转变
| “用鱼眼镜头” | “180度鱼眼+畸变k1=-0.3+孔洞60%” |
| “温柔的声音” | “基频120Hz+胸腔共鸣60%+温暖度7/10” |
| “参考视频1” | “提取@视频1的[光线参数],应用于[对象]” |
| “好看的构图” | “三分法+黄金分割点+下1/3占比” |
| “欢快的音乐” | “140BPM+C大调+康加鼓-5dB+小号0dB” |
三个实用技巧
技巧1:模块化模板
机位模板:"[镜头类型],距离[X]米,高度[Y]米,角度[Z]度"
声音模板:"音色[参数],语气[情绪],音量[dB]"
引用模板:"参考@素材[ID]的[特征],应用于[对象]"
技巧2:参数数据库
温馨场景:色温5500-6500K,BGM 60-90BPM
紧张场景:色温4000-4500K,BGM 140-180BPM
近景对白:0dB,环境音-30dB
远景对白:-15dB,环境音-15dB
技巧3:时间轴拆解
不说"生成一个视频"
而说:
0-3秒:[画面]+[声音]
3-8秒:[画面]+[声音]
8-15秒:[画面]+[声音]
终极心法
从"描述结果"到"设计过程"
❌ 传统:告诉AI要什么
“生成一个温馨的早晨场景”
✅ 升维:教AI怎么做
“4个分镜×每镜头3个参数×3层声音设计”
当你能把感性需求翻译成理性参数,你就从工具使用者变成了创作导演。
网硕互联帮助中心




评论前必须登录!
注册