全栈 AI 能力矩阵

多财多亿AI 将能力分为「云端」与「本地」两大类:云端功能通过联网调用高质量 API,适合对画质与效果要求高的场景;本地功能在您电脑上运行,数据不出本机、可离线使用。以下按模块逐一说明功能说明、使用场景与注意事项。

☁️ 云端功能(需联网)

以下功能依赖云端 API,首次使用需保证网络畅通;部分服务可能产生算力或 API 消耗,具体以客户端内说明为准。任务提交后在「云端任务」中可查看进度与下载结果。

AI 聊天

适合做什么:在软件内与主流大模型对话,完成写文案、拆脚本、改话术、翻译摘要、排查报错思路、产品卖点头脑风暴等;适合作为直播/短视频创作前的「打字机」助手。

怎么用:在设置中配置兼容协议的 API 与模型后,打开「AI 聊天」新建会话即可多轮追问;上下文会随会话保留,可复制结果到「话术生成」「视频生成」等模块继续加工。

注意:计费与速率限制以您填写的服务商为准;不要提交他人隐私、未授权作品全文或违法内容。

视频生成(多模板 · 与客户端同名)

在客户端「视频生成」中先选模板再填提示词与素材;切换火山方舟 Seedance性价比线路(含 Vidu 等)时,可选模型列表会整体更换,请勿混用两线路的模型名。时长、比例多在 5/10/15 秒与 9:16、16:9、1:1 等组合。其中 7 种无需参考视频的模板支持在 云端工作台 · 视频生成 网页提交;涉及参考视频/多路音视频上传、TOS 或高级参数的玩法请使用客户端。

文生视频(仅需文字)

文生视频-基础(结构化)

适合:宠物/人物小剧场、空镜氛围、概念广告等你希望「从零描述」的短片。

怎么写:按界面习惯拆成「主体、场景、运动、镜头、光影、风格」六段,可选加「声音」描述环境声或不要配乐;信息越具体,运动与镜头越可控。

注意:避免一次塞入互相矛盾的动作;人物若不要某类形象请在风格或约束里写明。

文生视频·侧移跟拍(浅景深)

适合:咖啡、美食、美妆、小物件等桌面级特写,需要「横移 + 虚化背景」的商业质感。

怎么写:在提示里固定「缓慢横移、浅景深、焦点落在主体」;补充台面材质、窗光/暖光与蒸汽、液体等细节。

注意:与通用结构化模板相比,本模板默认更偏「静物 + 微动」,大场面叙事可改用基础结构化。

文生视频-联网搜索

适合:需要引用近期公开信息的竖屏简报、资讯摘要类画面(如科技/财经要闻),减少凭空编造。

怎么用:提示词里写清检索主题、时间范围与条数;程序在支持联网的线路下会附加检索工具。生成内容仍应人工核对事实。

注意:必须当前线路与账号支持联网;不适合强隐私或内训材料。

文生视频·电商产品展示

适合:单品主图视频、详情页头图、投放素材,需要干净展台与稳定布光。

怎么写:写清品类与卖点(材质、Logo 区、转盘或慢推),强调「三点布光、色彩还原、少畸变」;需要无字画面可在提示中说明。

注意:复杂多 SKU 同框建议拆多条任务或改用多图模板。

图生视频与多图(以参考图为主)

图生视频-基础(1张图)

适合:已有定妆照、产品图或插画,希望「让图动起来」但保持光影一致。

素材:恰好 1 张参考图;文中「图片1」对应该图。

怎么写:说明希望的动作幅度(微动/行走/推近)、是否手持感、电影感或二次元风格;避免与参考图构图严重冲突的描述。

首尾帧-两图过渡(2张图)

适合:明确知道「第一帧长什么样、最后一帧长什么样」,中间过程交给模型补全。

素材:按列表顺序:图1 = 首帧,图2 = 尾帧;主体轮廓与色调宜接近,过渡更稳。

怎么写:可指定横移、推拉或渐变,强调「光影连续、比例一致」。

多图组合场景

适合:人物与场景分别设计好,希望合成到同一镜头(如角色走进你画的街景)。

素材:2 张图:通常图1 人物外观、图2 环境。

怎么写:描述人物在场景中的位置、走向与透视关系,必要时写明光照方向以便融合自然。

多图角色场景

适合:多角色同框、群像、短剧分镜,需要多张定妆或场景参考同时约束画面。

素材:1~9 张参考图,顺序要在正文用「图片1」「图片2」… 逐一点名职责(谁的脸、谁的服装、哪张是景)。

注意:AI 短剧在多角色镜次会走类似组包;张数越多越要写好每张分工,否则容易「粘脸」或主次不清。

智能多帧(关键帧链路)

适合:故事线已拆成多格关键画面,希望按时间顺序顺滑衔接(如分镜师已出 3~10 张关键帧)。

素材:3~10 张图;多为性价比线路(如 Vidu 多帧接口),方舟侧若占位请以客户端提示为准。

怎么写:图1 作首帧,其后每张为沿时间推进的关键节点;补充每段衔接动作与情绪。

基于参考视频的编辑与延展

主体替换

适合:保留原视频的机位与动作,只把画面里某个物体换成新外观(如换包装、换道具模型)。

素材:1 张新外观参考图 + 1 段原始视频;提示词里写清被替换物体名称

注意:运镜会以参考视频为准,勿期望改变大角度镜头运动。

对象添加

适合:在不变更原有表演的前提下,向画面里增加小元素(如蝴蝶、粒子、前景物体)。

素材:1~3 段参考视频(与界面列表一致);提示词具体写「增加什么、大致位置、不要挡脸」等。

对象删除

适合:去掉路牌、路人、电线等干扰物,保留主体动作与背景透视。

素材:1~3 段参考视频;写明删除对象及是否修补背景。

局部重绘/编辑

适合:改服装颜色、换招牌文字区域、微调局部材质而保持姿态与脸型。

素材:1~3 段参考视频;提示词限定「只改哪里、其余不变」。

视频延长(续拍)

适合:当前片段结束得突然,希望在时间轴向后自然接一段。

素材:1~3 段参考视频;描述延续动作、情绪与镜头语法,避免跳剪感。

前序生成(向前延长)

适合:补「进画之前发生了什么」,使现有视频首帧不再显得突兀。

素材:1~3 段参考视频;强调与首帧的光效、位置无缝衔接。

组合参考-风格迁移

适合:已有实拍动作,希望整体看起来像某张概念图的色调、笔触或电影 LUT。

素材:1 张画风/色调参考图 + 1 段视频;动作与时间线以视频为准,图只提供风格。

轨道补全

适合:画面有遮挡、缺角、穿帮区域,希望在不动时间轴的情况下修补完整。

素材:1~3 段参考视频;说明缺损区域大致位置与期望补全内容。

多模态单任务

多模态-参考运镜+配音节奏(图+视频+音频)

适合:已定首帧画面,想「镜头照着样片走」,且剪辑点卡在音乐/配音节拍上。

素材:1 图 + 1 参考视频 + 1 参考音频;一般为 Seedance 线路组单任务。

怎么写:说明图负责氛围与首帧,视频负责运镜,音频负责节奏;避免三者叙事互相矛盾。

性价比线路扩展(Vidu 等 · 以客户端为准)

下列模板需在客户端切换到性价比线路后使用;首行格式、模板 ID、音色 ID 等多为平台约定,请以软件内说明与官方文档为准。

场景特效模板

适合:在人物或场景上叠加平台提供的特效模板(如互动特效类)。

怎么写:第一行写 template: 加官方模板 ID;正文描述动作与画面;可配 1~6 张参考图。

模板成片

适合:快速叙事短片,由平台按「多图顺序」帮你组镜。

素材:1~7 张图;可选首行 story: 故事模板名,不写则用默认故事线。

文生音频

适合:按文字描述直接生成一段环境声、氛围铺底或简单音乐性音频。

怎么写:用自然语言写场景与情绪,长度适中;用于给视频或直播垫底时可多试几条选最贴合的。

可控文生音效

适合:需要按秒控制「前 3 秒鸟叫、后 4 秒海浪」这类分段音效。

怎么写:可用 JSON 数组描述各时间段的 prompt,或直接一句中文作为整段音效说明。

语音合成

适合:把大段文稿读成音频,再给对口型或数字人模板用。

怎么写:第一行 voice_id: 加官方音色 ID;换行后全文朗读内容,注意字数上限。

声音复刻

适合:用你的参考音频训练临时音色,再 TTS 任意文案。

素材:须上传 1 段参考音频;第一行定义 voice_id:(英文字母开头、长度符合要求),换行写试听句。

动作同步

适合:让静态人像跟随参考视频里的身体动作(单人、正脸类效果较稳)。

素材:1 张正面人像 + 1 段约 2~30 秒动作视频。

对口型

适合:已有说话人镜头,要把嘴型对齐新配音或新台词。

素材:1 段含人脸的视频;可再传 1 段音频,或不传音频而用文本生成语音后对齐。

注意:纯文本驱动时对白长度、音色 ID 等规则见客户端提示。

数字人(视频生成 Tab 内模板)

与「数字人视频」菜单区别:此处是性价比线路下一套模板流程,强调 1 张人物图 + 音频或口播稿。

素材:恰好 1 张清晰人脸图;可选 1 段音频,无音频则用提示词中的口播全文走 TTS。

推荐提示词

适合:有图但不知道怎么写视频提示词,想先要一批创意方向。

结果:返回推荐文案/标签类内容,不直接输出可下载成片视频;可选首行 types: 指定请求类型。

智能超清尊享

适合:已有成片,需要云端超分到更高档位。

素材:1 段视频;第一行可写 upscale: 档位,或用 creation_id: 引用平台侧成片(二选一规则以客户端为准)。

一键通用成片

适合:1~7 张任意主题图,自动生成带叙事节奏的短片,时长可在界面选较大范围。

怎么写:正文可选主题、节奏、字幕口吻;图顺序会影响镜头组接。

一键电商成片

适合:多图商品展示 + 口播卖点,偏带货与促销信息。

怎么写:可首行 language: 指定中英文口播倾向;正文写卖点、优惠与品牌调性。

一键AI-MV

适合:有歌或伴奏 + 若干视觉参考图,快速做 MV 感短片。

素材:1~7 图 + 1 段约 10~180 秒音频;正文可说明是否对口型、色调与剪辑偏好。

视频复刻

适合:喜欢参考视频的运镜与节奏,但要换掉画面里的商品/人物外观。

素材:1 段 5~180 秒参考视频 + 1~7 张新外观图;正文说明替换谁、保留谁。

视频模仿

适合做什么:你有一段「想要同款节奏/运镜/气质」的参考片,希望在自己的人物或场景素材上复现类似表达方式,用于追热点形式、统一账号调性。

怎么用:在「视频模仿」中按向导上传参考视频与驱动素材(以客户端字段为准),填写希望保留或弱化的元素;提交后在云端任务取成片。

注意:参考片需你有权使用;模仿不等于复制他人原创内容用于侵权,生成结果仍建议人工审片。

数字人视频

适合做什么:口播带货、课程口播、APP 更新说明、多语言播报等你需要「脸 + 声」但不必真人反复录制的场景。

怎么用:上传正面清晰的肖像图,再上传配音音频或使用文字转语音;选择对口型/数字人相关云端任务,完成后下载成片。与「视频生成」里性价比线路的「数字人」模板属于不同入口,参数与线路可能不同,以界面为准。

注意:肖像须有权使用;声纹若用第三方 TTS 需遵守其授权范围。

音乐创作

适合做什么:为短视频、广告片头、直播间垫乐生成可循环的 BGM 或短曲,减少版权检索成本。

怎么用:用风格、情绪、速度与时长等关键词描述需求;生成结果为音频文件,可导入「智能混剪」或与视频轨道合成。

注意:商用发布前请确认当前服务对生成音乐的授权说明。

高清处理

适合做什么:手机随拍、监控、老片、压缩严重的下载片,需要在二次发布前抬清晰度、降块效应与噪点。

怎么用:上传成片或片段,选择增强/超分档位(以客户端为准);大文件与长时长任务排队时间可能较久。

注意:超分无法真正恢复丢失的细节,极端模糊源可能只能「变清晰一点」。

视频反推

适合做什么:素材库管理、给成片打标签、或把优质画面「翻成提示词」再喂给文生视频做变体。

怎么用:上传视频,等待云端返回描述或结构化字段;可复制到备忘录或直接进入下一轮生成流程。

注意:反推文本是近似概括,不保证与原作者意图一致;涉密内容勿上传。

图片生成(十套模板 · 客户端)

在「图片生成」中选模板会同时切换默认模型、是否组图、是否联网、尺寸策略等。标准模型多为 Seedream 5.x,兼容模板可走 4.x 并带「提示词优化」。参考图占位符为 @1、@2(按列表顺序),与视频页的 @Image1 不是同一套规则。

推荐 · 文生图结构化

适合:日常单张出图,希望提示词可复用、可团队协作。

怎么写:按「主体、场景、风格、光影与构图、画质与约束」分段;可强调不要小字、不要水印等。

设置:默认标准模型、单张、不组图、不联网。

① 文生图·特写肖像

适合:时尚、杂志感、强光影的人物特写,无需参考图。

怎么用:在默认示例上改发型、服饰、灯光与情绪即可;单张输出。

② 图生图·材质替换

适合:商品静物摄影里「换一个材质」但保持构图与角度。

素材:必须 1 张参考图;提示词写清要换的对象与目标材质(如陶瓷改玻璃)。

③ 多图生图·换装

适合:虚拟试衣、穿搭展示,把一件服装穿回指定模特。

素材:2 张图:@1 人物全身/半身,@2 服装平铺或穿搭参考。

怎么写:说明保留脸与体态、褶皱自然;勿与 @ 顺序矛盾。

④ 组图·科幻四分镜

适合:一次生成 4 张叙事连贯的分镜,角色与画风需一致。

怎么用:在提示里写清四格各自场景与情绪递进;程序会开组图序列(如 max 4 张)。

⑤ 参考图+组图·品牌视觉 GREEN

适合:拿一张 LOGO/主视觉,延展成套物料(包装、周边等)。

素材:1 张参考图;提示词里可改品牌名与品类,保持主色与图形语言一致。

⑥ 多图+组图·过山车三时段

适合:同一角色与道具在早/中/晚光线下的三连拍叙事。

素材:2 张参考图约束角色与玩偶形象;组图 3 张。

⑦ 联网搜索·五日天气预报图

适合:信息图、天气穿搭卡、需带检索数据的扁平插画。

设置:开启联网搜索与固定方形像素尺寸;提示里写明城市、天数与排版(如横向五卡)。

注意:检索结果需人工核对后再对外发布。

⑧ 参考图·四姿态组图

适合:同一人物四种动作/道具状态,用于表情包、电商展示位。

素材:1 张人物参考;输出 4 张一组,画风与身份需可识别为同一人。

⑨ 兼容模式·四季庭院+提示词优化

适合:想试兼容模型上的组图能力,并接受「先优化提示词再出图」的流程。

设置:兼容模型 + 快速优化 + 4 张组图;适合插画类连续场景(如四季同一庭院)。

⑩ 文生图·主视觉海报(标题区留白)

适合:横版活动主 KV,后续要在 PS/Figma 里叠大标题。

怎么写:强调上方 15%~20% 留白、主体居中偏下、少细碎小字。

AI 短剧(客户端重点能力)

AI 短剧是多财多亿AI 面向短剧团队、小说改编、解说漫剧、剧情广告与矩阵号批量内容的完整生产线。它不是单个「生成视频」按钮,而是把文稿、角色、场景、道具、分镜、逐镜视频和最终拼接放进同一个工程中管理。

核心卖点:让故事进入可生产状态

适合:网文/小说章节改短剧、短篇脚本扩成分镜、品牌剧情广告、静态/动态解说漫剧、竖屏连续剧账号批量试片。

优势:从「一段故事」自动走到「可生成的视频镜头清单」,并保留工程关系:哪个角色出现在第几镜、哪张定妆图约束身份、哪个场景图约束空间、哪个镜头失败需要重试,都能回到工程里继续改。

输出:分镜表、角色/场景/道具参考图、单镜视频、拼接后的 9:16 竖屏成片;适合再接混剪、字幕、发布等模块。

阶段一:文稿与分镜稿

你提供:小说章节、脚本或一大段旁白;可指定风格、时代、人称。

软件做:调用大模型生成带镜号的分镜表(场景、出场角色、动作、台词、画面提示、视频提示等)。默认可先拆镜再补全全字段,复杂文本失败时可回退为一次性出表。

可编辑:你可以在表格里手工改台词顺序、拆镜、合并、指定静音过场,或把镜头时长控制在常用的 10/15 秒节奏。

阶段二:定妆照与场景图

软件做:按角色列表调用 Seedream 等生成定妆三视图,按场次生成场景参考,也可生成道具参考;目标是在后续多镜中脸、服装、空间与关键道具不漂移

你可介入:对某张定妆或场景不满意可单独重绘、上传替换图、从资产库关联人像/参考素材,再锁定角色继续生产。

阶段三:逐镜视频

软件做:每镜把当前分镜的角色、场景、道具图与提示提交 Seedance 或 Vidu:单角色常见走图生视频,多角色同框可走多图角色场景组包。

连续性:视频 prompt 会利用相邻镜、节拍与小节信息,强化「同小节连续」「新台阶可见」「镜头衔接自然」等短剧连续观感。

注意:镜数多、时长长时云端排队与算力消耗会累加;失败镜可单镜重试,不必整集重来。

阶段四:拼接与导出

软件做:用 FFmpeg 按时间轴拼接为竖屏成片(如 9:16),可统一叠加单轨 BGM,减少多镜拼接后的断裂感。

后续:成片可继续做字幕、混剪、高清处理或交给「多平台发布」。

延伸阅读:工作台 · AI 短剧

AI 去水印

适合做什么:已获授权的素材上清理角标、旧字幕条、误拍的日期水印等。

怎么用:上传图或视频,框选或自动识别水印区域后擦除;复杂纹理背景可能需要多次微调。

注意:对他人作品去水印并商用可能侵权;仅建议在权利清晰时使用。

话术生成

适合做什么:直播整场逐段话术、短视频口播稿、投放文案的多版本 A/B 草稿。

怎么用:填商品名、价格带、受众、平台(抖/快等)、时长与语气;生成后可粘贴到「AI 直播」脚本或「数字人视频」驱动文本。

注意:涉及医疗、金融等强监管行业需人工合规审核;数字与承诺语不要盲信模型。

💻 本地功能(本机运行)

以下功能在您电脑本地执行,数据不上传至我方服务器;部分功能依赖 NVIDIA 显卡与显存,建议显存 6GB 及以上(如 RTX 3060)。

AI 直播

能力:数字人形象 + 话术驱动 + 多路推流;可 24 小时循环播预设脚本,也可接弹幕做简单互动。

配置要点:先准备形象素材与话术(可用「话术生成」),在软件里填各平台 RTMP 地址与码率;弹幕自动回复需配置大模型 API。

实时换脸:真人摄像头采集后经本地换脸再编码推流,延迟相对可控,适合统一「出镜脸」而不暴露真人相貌。

更多:详见 AI 直播 专题页。

换脸

图片换脸:指定源脸图与目标图,本地检测五官与轮廓后融合,可调边缘羽化、肤色匹配。

视频换脸:逐帧或跟踪式替换,尽量跟原片口型;耗时与分辨率、帧率、显卡性能正相关。

合规:仅使用有权使用的肖像;禁止用于诈骗、诽谤或绕过身份认证。

抠图

适合:电商白底图、证件照换底、海报合成前的分层素材。

怎么用:支持批量文件夹输入;半透明婚纱、细碎发丝可能需要放大检查边缘。

换背景

适合:没有绿幕时的「伪绿幕」:人物抠出后铺静态或动态背景。

注意:头发丝与快速运动肢体边缘可能出现闪烁,可配合光线均匀拍摄减轻问题。

智能混剪

流程:导入多段视频/图 + 可选 BGM,选风格模板与目标时长,本地自动编排转场与节奏。

风格:如通用带货、教程演示、情绪种草、强节奏冲击等,适合矩阵号批量试片。

建议:素材分辨率尽量接近,避免横竖混剪导致大量黑边裁切。

多平台发布

适合:同一成片要发抖音、快手、视频号等多个账号,减少重复点击上传。

注意:各平台登录态与审核规则独立,标题与话题需按平台习惯分别微调。

去水印

与云端去水印区别:数据不离开本机,适合内训片、合同演示等敏感素材大批量处理。

怎么用:可手动框水印区域或让模型自动找字幕条/角标;擦除后复杂背景可能需二次修补。

语音克隆

素材质量:5~30 秒、少混响、少背景乐的干声最佳;口音与语速会继承到克隆结果。

用途:长文配音、角色统一声线、与本地数字人/直播搭配;模型与缓存默认留在本机。

合规:仅克隆本人或已书面授权的声音。

音频切片

适合:从长录音里按静音间隙或固定秒数切出多条短视频配音、或从播客里抽金句。

参数:可按阈值调静音判定,避免切太碎或切不断。

转文字

适合:自动生成字幕 SRT、会议纪要、视频文案再利用。

注意:方言与强 BGM 会降低准确率,可先做人声分离再识别。

音频编辑

能力:裁剪拼接、简单降噪、响度归一;可批量处理文件夹。

衔接:常放在「转文字」前清底噪,或放在「混剪」前统一 BGM 响度。

🎭 换脸与数字人相关说明

图片/视频换脸:在「换脸」模块中,您需准备「源脸」图片(要保留身份的脸)和「目标」图片或视频(要被替换的画面)。软件会进行人脸检测与融合,输出时尽量保持光照与表情一致。建议使用正面、光线均匀的清晰人脸,效果更稳定。

实时换脸:在 AI 直播中可开启「换脸功能」,对摄像头或素材画面进行实时人脸替换后再推流,延迟低,适合需要统一出镜形象或保护隐私的直播场景。

数字人视频 vs 数字人直播:数字人视频为「离线生成」——上传照片+音频,云端/本地生成一段视频文件;数字人直播为「实时推流」——数字人按脚本或弹幕实时播报,面向直播间观众。两者可搭配使用:先用话术生成脚本,再用于直播或批量生成数字人视频。

📌 使用建议

  • 云端任务:提交云端功能后,在「云端任务」标签中可查看排队、处理中、完成与失败状态,支持重新提交与下载结果。部分任务有超时时间,请留意提示。
  • 显存与性能:本地视频/换脸/数字人相关功能较吃显存,若遇显存不足可先关闭其他占用 GPU 的程序,或降低分辨率、批量大小。软件内提供「释放显存」等系统工具。
  • 模型与依赖:首次使用某本地功能时会自动下载对应模型,请保持网络畅通;若下载失败可查看 常见问题使用教程 中的手动下载说明。
  • 合规使用:换脸、数字人、语音克隆等能力请仅用于合法、获得授权的场景,禁止侵犯他人肖像权、名誉权与隐私。详见 关于我们 免责声明。

更多能力持续迭代中。若您需要某一功能的详细步骤,可查看 使用教程 与配套文档;遇到问题可先看 常见问题帮助与反馈说明。立即 下载体验 多财多亿AI。