生成图像与视频
您的 Agent 可以按需生成图像和短视频片段——包括 30 秒的竖屏广告,由主持人用其本人声音和对口型说出您的脚本。
为什么用 MorphMind 来做这件事
您不需要学习新工具、在三个服务商之间周旋,也不必记住哪个模型要搭配哪个。Agent 会处理这一切。您拿到的是一套可以反复使用的工作流:
- 配方只配置一次。 您的"30 秒广告"工作流保留品牌调性、主持人形象、构图和节奏。换一个产品简报再跑一次,您就能得到风格一致的新广告。
- 可复用的工作流和 Specialist。 您教给 Agent 的自定义步骤——脚本润色器、分镜表格式化器、品牌色把关者——会持续存在,并随每次运行变得更好。
- 通过改变输入实现量产。 同一套工作流,十款产品,十支广告。同一套工作流,十种语言,十个本地化版本。
- 记住有效的做法。 Agent 会学习哪些提示词和参考模式能给出您想要的结果,并在下次自动使用,无需您再次说明。
本页介绍构建模块:有哪些可用模型、何时使用哪个,以及每次生成大致消耗多少MM豆。
选择模型
当您描述想要什么时,Agent 会自动选择一个模型。您可以手动覆盖。
图像
| 模型 | 适用场景 |
|---|---|
| Seedream 5.0 Lite | 数字虚拟人,尤其是同一角色之后还要出现在视频中时。 |
| Gemini Image | 快速插画、横幅、博客头图。 |
| GPT Image 2 — Draft | 粗略草图;最便宜、最快。 |
| GPT Image 2 — Standard | 通用场景的精修成品。 |
视频
| 模型 | 适用场景 |
|---|---|
| Seedance Cinematic | 顶级画质,原生同步音频。480p / 720p / 1080p,每段最长 15 秒。完成稿的默认选项。 |
| Seedance Quick Draft | 更便宜、更快地迭代。最高 720p。在敲定 Cinematic 之前用来出粗剪。 |
Seedream → Seedance 的搭配规则
如果您的视频里有需要在多个片段中保持视觉一致的真人主持人,请用 Seedream 5.0 Lite 生成虚拟人,并在每一段里复用同一张图作为参考。来自 Gemini Image 或 GPT Image 2 的虚拟人会破坏 Seedance 的角色一致性。
视频的参考模式
- 单图 — 传入一张虚拟人或场景参考图。带固定角色的广告默认用这种,最稳定。
- 双图(首尾关键帧) — Seedance 在两帧之间插值生成动作。适合非人物场景;不要用于真人主持人。
- 视频参考 — 传入一段已有片段的短截取作为运动/语境参考。注意事项与双图模式相同。
大约消耗多少MM豆
实际成本会因提示词和重试次数而异。下表仅作粗略参考。
每张图
| 模型 | MM豆 |
|---|---|
| Seedream 5.0 Lite | ~10 |
| Gemini Image | ~10 |
| GPT Image 2 — Draft | ~5 |
| GPT Image 2 — Standard | ~15 |
每段 Seedance 片段(竖屏 9:16)
| 规格 | MM豆 |
|---|---|
| Cinematic 720p / 5s | ~150 |
| Cinematic 720p / 10s | ~300 |
| Cinematic 1080p / 5s | ~400 |
| Cinematic 1080p / 10s | ~750 |
| Cinematic 1080p / 15s | ~1,100 |
| Cinematic 1080p / 10s 带视频参考 | ~550 |
| Quick Draft 720p / 5s | ~150 |
| Quick Draft 720p / 10s | ~250 |
常见交付物
- 30 秒竖屏广告(3 × 10s Cinematic 1080p + Seedream 虚拟人)→ ~2,200 MM豆
- 60 秒竖屏广告(5 × 12s Cinematic 1080p + 虚拟人)→ ~4,300 MM豆
被重试的片段——比如内容审核拦截、音频静默——会按那一段的成本重新计费。
小贴士与常见坑
- 要让人物对口型说话,请把台词放进引号里:"……主持人看向镜头说'30 秒搞定一杯咖啡。'"。如果不加引号台词,Seedance 只会生成环境音——嘴在动,但没有清晰的话语。
- 品牌 Logo 留到后期合成,不要写进提示词里。让模型渲染文字标识会得到糊掉的字,还经常触发安全过滤。把 Logo 作为叠加层合成到成片上即可。
- 虚拟人必须是 Seedream 系列才能用于视频。用其他图像模型生成虚拟人,再拿去当 Seedance 参考,一致性会崩。
- 连续性靠提示词,不靠链式生成。让主持人在一段结尾的姿态和视线,与下一段开头对得上;剪辑时用 0.5 秒的轻微叠化处理切点,其余的就到位了。
另请参阅
- 定价 — MM豆如何计算
- AI Agent 能做什么? — 其他能力
- Specialist Skills — 用自定义工具扩展 Agent