全栈 AI 能力矩阵

多财多亿AI 将能力分为「云端」与「本地」两大类：云端功能通过联网调用高质量 API，适合对画质与效果要求高的场景；本地功能在您电脑上运行，数据不出本机、可离线使用。以下按模块逐一说明功能说明、使用场景与注意事项。

☁️ 云端功能（需联网）

以下功能依赖云端 API，首次使用需保证网络畅通；部分服务可能产生算力或 API 消耗，具体以客户端内说明为准。任务提交后在「云端任务」中可查看进度与下载结果。

AI 聊天

适合做什么：在软件内与主流大模型对话，完成写文案、拆脚本、改话术、翻译摘要、排查报错思路、产品卖点头脑风暴等；适合作为直播/短视频创作前的「打字机」助手。

怎么用：在设置中配置兼容协议的 API 与模型后，打开「AI 聊天」新建会话即可多轮追问；上下文会随会话保留，可复制结果到「话术生成」「视频生成」等模块继续加工。

注意：计费与速率限制以您填写的服务商为准；不要提交他人隐私、未授权作品全文或违法内容。

视频生成（多模板 · 与客户端同名）

在客户端「视频生成」中先选模板再填提示词与素材；切换火山方舟 Seedance与性价比线路（含 Vidu 等）时，可选模型列表会整体更换，请勿混用两线路的模型名。时长、比例多在 5/10/15 秒与 9:16、16:9、1:1 等组合。；涉及参考视频/多路音视频上传、TOS 或高级参数的玩法请使用客户端。

文生视频（仅需文字）

文生视频-基础（结构化）

适合：宠物/人物小剧场、空镜氛围、概念广告等你希望「从零描述」的短片。

怎么写：按界面习惯拆成「主体、场景、运动、镜头、光影、风格」六段，可选加「声音」描述环境声或不要配乐；信息越具体，运动与镜头越可控。

注意：避免一次塞入互相矛盾的动作；人物若不要某类形象请在风格或约束里写明。

文生视频·侧移跟拍（浅景深）

适合：咖啡、美食、美妆、小物件等桌面级特写，需要「横移 + 虚化背景」的商业质感。

怎么写：在提示里固定「缓慢横移、浅景深、焦点落在主体」；补充台面材质、窗光/暖光与蒸汽、液体等细节。

注意：与通用结构化模板相比，本模板默认更偏「静物 + 微动」，大场面叙事可改用基础结构化。

文生视频-联网搜索

适合：需要引用近期公开信息的竖屏简报、资讯摘要类画面（如科技/财经要闻），减少凭空编造。

怎么用：提示词里写清检索主题、时间范围与条数；程序在支持联网的线路下会附加检索工具。生成内容仍应人工核对事实。

注意：必须当前线路与账号支持联网；不适合强隐私或内训材料。

文生视频·电商产品展示

适合：单品主图视频、详情页头图、投放素材，需要干净展台与稳定布光。

怎么写：写清品类与卖点（材质、Logo 区、转盘或慢推），强调「三点布光、色彩还原、少畸变」；需要无字画面可在提示中说明。

注意：复杂多 SKU 同框建议拆多条任务或改用多图模板。

图生视频与多图（以参考图为主）

图生视频-基础（1张图）

适合：已有定妆照、产品图或插画，希望「让图动起来」但保持光影一致。

素材：恰好 1 张参考图；文中「图片1」对应该图。

怎么写：说明希望的动作幅度（微动/行走/推近）、是否手持感、电影感或二次元风格；避免与参考图构图严重冲突的描述。

首尾帧-两图过渡（2张图）

适合：明确知道「第一帧长什么样、最后一帧长什么样」，中间过程交给模型补全。

素材：按列表顺序：图1 = 首帧，图2 = 尾帧；主体轮廓与色调宜接近，过渡更稳。

怎么写：可指定横移、推拉或渐变，强调「光影连续、比例一致」。

多图组合场景

适合：人物与场景分别设计好，希望合成到同一镜头（如角色走进你画的街景）。

素材：2 张图：通常图1 人物外观、图2 环境。

怎么写：描述人物在场景中的位置、走向与透视关系，必要时写明光照方向以便融合自然。

多图角色场景

适合：多角色同框、群像、短剧分镜，需要多张定妆或场景参考同时约束画面。

素材：1～9 张参考图，顺序要在正文用「图片1」「图片2」… 逐一点名职责（谁的脸、谁的服装、哪张是景）。

注意：AI 短剧在多角色镜次会走类似组包；张数越多越要写好每张分工，否则容易「粘脸」或主次不清。

智能多帧（关键帧链路）

适合：故事线已拆成多格关键画面，希望按时间顺序顺滑衔接（如分镜师已出 3～10 张关键帧）。

素材：3～10 张图；多为性价比线路（如 Vidu 多帧接口），方舟侧若占位请以客户端提示为准。

怎么写：图1 作首帧，其后每张为沿时间推进的关键节点；补充每段衔接动作与情绪。

基于参考视频的编辑与延展

主体替换

适合：保留原视频的机位与动作，只把画面里某个物体换成新外观（如换包装、换道具模型）。

素材：1 张新外观参考图 + 1 段原始视频；提示词里写清被替换物体名称。

注意：运镜会以参考视频为准，勿期望改变大角度镜头运动。

对象添加

适合：在不变更原有表演的前提下，向画面里增加小元素（如蝴蝶、粒子、前景物体）。

素材：1～3 段参考视频（与界面列表一致）；提示词具体写「增加什么、大致位置、不要挡脸」等。

对象删除

适合：去掉路牌、路人、电线等干扰物，保留主体动作与背景透视。

素材：1～3 段参考视频；写明删除对象及是否修补背景。

局部重绘/编辑

适合：改服装颜色、换招牌文字区域、微调局部材质而保持姿态与脸型。

素材：1～3 段参考视频；提示词限定「只改哪里、其余不变」。

视频延长（续拍）

适合：当前片段结束得突然，希望在时间轴向后自然接一段。

素材：1～3 段参考视频；描述延续动作、情绪与镜头语法，避免跳剪感。

前序生成（向前延长）

适合：补「进画之前发生了什么」，使现有视频首帧不再显得突兀。

素材：1～3 段参考视频；强调与首帧的光效、位置无缝衔接。

组合参考-风格迁移

适合：已有实拍动作，希望整体看起来像某张概念图的色调、笔触或电影 LUT。

素材：1 张画风/色调参考图 + 1 段视频；动作与时间线以视频为准，图只提供风格。

轨道补全

适合：画面有遮挡、缺角、穿帮区域，希望在不动时间轴的情况下修补完整。

素材：1～3 段参考视频；说明缺损区域大致位置与期望补全内容。

多模态单任务

多模态-参考运镜+配音节奏（图+视频+音频）

适合：已定首帧画面，想「镜头照着样片走」，且剪辑点卡在音乐/配音节拍上。

素材：1 图 + 1 参考视频 + 1 参考音频；一般为 Seedance 线路组单任务。

怎么写：说明图负责氛围与首帧，视频负责运镜，音频负责节奏；避免三者叙事互相矛盾。

性价比线路扩展（Vidu 等 · 以客户端为准）

下列模板需在客户端切换到性价比线路后使用；首行格式、模板 ID、音色 ID 等多为平台约定，请以软件内说明与官方文档为准。

场景特效模板

适合：在人物或场景上叠加平台提供的特效模板（如互动特效类）。

怎么写：第一行写 template: 加官方模板 ID；正文描述动作与画面；可配 1～6 张参考图。

模板成片

适合：快速叙事短片，由平台按「多图顺序」帮你组镜。

素材：1～7 张图；可选首行 story: 故事模板名，不写则用默认故事线。

文生音频

适合：按文字描述直接生成一段环境声、氛围铺底或简单音乐性音频。

怎么写：用自然语言写场景与情绪，长度适中；用于给视频或直播垫底时可多试几条选最贴合的。

可控文生音效

适合：需要按秒控制「前 3 秒鸟叫、后 4 秒海浪」这类分段音效。

怎么写：可用 JSON 数组描述各时间段的 prompt，或直接一句中文作为整段音效说明。

语音合成

适合：把大段文稿读成音频，再给对口型或数字人模板用。

怎么写：第一行 voice_id: 加官方音色 ID；换行后全文朗读内容，注意字数上限。

声音复刻

适合：用你的参考音频训练临时音色，再 TTS 任意文案。

素材：须上传 1 段参考音频；第一行定义 voice_id:（英文字母开头、长度符合要求），换行写试听句。

动作同步

适合：让静态人像跟随参考视频里的身体动作（单人、正脸类效果较稳）。

素材：1 张正面人像 + 1 段约 2～30 秒动作视频。

对口型

适合：已有说话人镜头，要把嘴型对齐新配音或新台词。

素材：1 段含人脸的视频；可再传 1 段音频，或不传音频而用文本生成语音后对齐。

注意：纯文本驱动时对白长度、音色 ID 等规则见客户端提示。

数字人（视频生成 Tab 内模板）

与「数字人视频」菜单区别：此处是性价比线路下一套模板流程，强调 1 张人物图 + 音频或口播稿。

素材：恰好 1 张清晰人脸图；可选 1 段音频，无音频则用提示词中的口播全文走 TTS。

智能超清尊享

适合：已有成片，需要云端超分到更高档位。

素材：1 段视频；第一行可写 upscale: 档位，或用 creation_id: 引用平台侧成片（二选一规则以客户端为准）。

一键通用成片

适合：1～7 张任意主题图，自动生成带叙事节奏的短片，时长可在界面选较大范围。

怎么写：正文可选主题、节奏、字幕口吻；图顺序会影响镜头组接。

一键电商成片

适合：多图商品展示 + 口播卖点，偏带货与促销信息。

怎么写：可首行 language: 指定中英文口播倾向；正文写卖点、优惠与品牌调性。

一键AI-MV

适合：有歌或伴奏 + 若干视觉参考图，快速做 MV 感短片。

素材：1～7 图 + 1 段约 10～180 秒音频；正文可说明是否对口型、色调与剪辑偏好。

视频复刻

适合：喜欢参考视频的运镜与节奏，但要换掉画面里的商品/人物外观。

素材：1 段 5～180 秒参考视频 + 1～7 张新外观图；正文说明替换谁、保留谁。

视频模仿

适合做什么：你有一段「想要同款节奏/运镜/气质」的参考片，希望在自己的人物或场景素材上复现类似表达方式，用于追热点形式、统一账号调性。

怎么用：在「视频模仿」中按向导上传参考视频与驱动素材（以客户端字段为准），填写希望保留或弱化的元素；提交后在云端任务取成片。

注意：参考片需你有权使用；模仿不等于复制他人原创内容用于侵权，生成结果仍建议人工审片。

数字人视频

适合做什么：口播带货、课程口播、APP 更新说明、多语言播报等你需要「脸 + 声」但不必真人反复录制的场景。

怎么用：上传正面清晰的肖像图，再上传配音音频或使用文字转语音；选择对口型/数字人相关云端任务，完成后下载成片。与「视频生成」里性价比线路的「数字人」模板属于不同入口，参数与线路可能不同，以界面为准。

注意：肖像须有权使用；声纹若用第三方 TTS 需遵守其授权范围。

音乐创作

适合做什么：为短视频、广告片头、直播间垫乐生成可循环的 BGM 或短曲，减少版权检索成本。

怎么用：用风格、情绪、速度与时长等关键词描述需求；生成结果为音频文件，可导入「智能混剪」或与视频轨道合成。

注意：商用发布前请确认当前服务对生成音乐的授权说明。

高清处理

适合做什么：手机随拍、监控、老片、压缩严重的下载片，需要在二次发布前抬清晰度、降块效应与噪点。

怎么用：上传成片或片段，选择增强/超分档位（以客户端为准）；大文件与长时长任务排队时间可能较久。

注意：超分无法真正恢复丢失的细节，极端模糊源可能只能「变清晰一点」。

视频反推

适合做什么：素材库管理、给成片打标签、或把优质画面「翻成提示词」再喂给文生视频做变体。

怎么用：上传视频，等待云端返回描述或结构化字段；可复制到备忘录或直接进入下一轮生成流程。

注意：反推文本是近似概括，不保证与原作者意图一致；涉密内容勿上传。

图片生成（十套模板 · 客户端）

在「图片生成」中选模板会同时切换默认模型、是否组图、是否联网、尺寸策略等。标准模型由云端模型目录提供，兼容模板可走 4.x 并带「提示词优化」。参考图占位符为 @1、@2（按列表顺序），与视频页的 @Image1 不是同一套规则。

① 文生图·特写肖像

适合：时尚、杂志感、强光影的人物特写，无需参考图。

怎么用：在默认示例上改发型、服饰、灯光与情绪即可；单张输出。

② 图生图·材质替换

适合：商品静物摄影里「换一个材质」但保持构图与角度。

素材：必须 1 张参考图；提示词写清要换的对象与目标材质（如陶瓷改玻璃）。

③ 多图生图·换装

适合：虚拟试衣、穿搭展示，把一件服装穿回指定模特。

素材：2 张图：@1 人物全身/半身，@2 服装平铺或穿搭参考。

怎么写：说明保留脸与体态、褶皱自然；勿与 @ 顺序矛盾。

④ 组图·科幻四分镜

适合：一次生成 4 张叙事连贯的分镜，角色与画风需一致。

怎么用：在提示里写清四格各自场景与情绪递进；程序会开组图序列（如 max 4 张）。

⑤ 参考图+组图·品牌视觉 GREEN

适合：拿一张 LOGO/主视觉，延展成套物料（包装、周边等）。

素材：1 张参考图；提示词里可改品牌名与品类，保持主色与图形语言一致。

⑥ 多图+组图·过山车三时段

适合：同一角色与道具在早/中/晚光线下的三连拍叙事。

素材：2 张参考图约束角色与玩偶形象；组图 3 张。

⑦ 联网搜索·五日天气预报图

适合：信息图、天气穿搭卡、需带检索数据的扁平插画。

设置：开启联网搜索与固定方形像素尺寸；提示里写明城市、天数与排版（如横向五卡）。

注意：检索结果需人工核对后再对外发布。

⑧ 参考图·四姿态组图

适合：同一人物四种动作/道具状态，用于表情包、电商展示位。

素材：1 张人物参考；输出 4 张一组，画风与身份需可识别为同一人。

⑨ 兼容模式·四季庭院+提示词优化

适合：想试兼容模型上的组图能力，并接受「先优化提示词再出图」的流程。

设置：兼容模型 + 快速优化 + 4 张组图；适合插画类连续场景（如四季同一庭院）。

⑩ 文生图·主视觉海报（标题区留白）

适合：横版活动主 KV，后续要在 PS/Figma 里叠大标题。

怎么写：强调上方 15%～20% 留白、主体居中偏下、少细碎小字。

AI 短剧（客户端重点能力）

AI 短剧是多财多亿AI 面向短剧团队、小说改编、解说漫剧、剧情广告与矩阵号批量内容的完整生产线。它不是单个「生成视频」按钮，而是把文稿、角色、场景、道具、分镜、逐镜视频和最终拼接放进同一个工程中管理。

核心卖点：让故事进入可生产状态

适合：网文/小说章节改短剧、短篇脚本扩成分镜、品牌剧情广告、静态/动态解说漫剧、竖屏连续剧账号批量试片。

优势：从「一段故事」自动走到「可生成的视频镜头清单」，并保留工程关系：哪个角色出现在第几镜、哪张定妆图约束身份、哪个场景图约束空间、哪个镜头失败需要重试，都能回到工程里继续改。

输出：分镜表、角色/场景/道具参考图、单镜视频、拼接后的 9:16 竖屏成片；适合再接混剪、字幕、发布等模块。

阶段一：文稿与分镜稿

你提供：小说章节、脚本或一大段旁白；可指定风格、时代、人称。

软件做：调用大模型生成带镜号的分镜表（场景、出场角色、动作、台词、画面提示、视频提示等）。默认可先拆镜再补全全字段，复杂文本失败时可回退为一次性出表。

可编辑：你可以在表格里手工改台词顺序、拆镜、合并、指定静音过场，或把镜头时长控制在常用的 10/15 秒节奏。

阶段二：定妆照与场景图

软件做：按角色列表调用图像模型生成定妆三视图，按场次生成场景参考，也可生成道具参考；目标是在后续多镜中脸、服装、空间与关键道具不漂移。

你可介入：对某张定妆或场景不满意可单独重绘、上传替换图、从资产库关联人像/参考素材，再锁定角色继续生产。

阶段三：逐镜视频

软件做：每镜把当前分镜的角色、场景、道具图与提示提交 Seedance 或 Vidu：单角色常见走图生视频，多角色同框可走多图角色场景组包。

连续性：视频 prompt 会利用相邻镜、节拍与小节信息，强化「同小节连续」「新台阶可见」「镜头衔接自然」等短剧连续观感。

注意：镜数多、时长长时云端排队与算力消耗会累加；失败镜可单镜重试，不必整集重来。

阶段四：拼接与导出

软件做：用 FFmpeg 按时间轴拼接为竖屏成片（如 9:16），可统一叠加单轨 BGM，减少多镜拼接后的断裂感。

后续：成片可继续做字幕、混剪、高清处理或交给「多平台发布」。

AI 去水印

适合做什么：已获授权的素材上清理角标、旧字幕条、误拍的日期水印等。

怎么用：上传图或视频，框选或自动识别水印区域后擦除；复杂纹理背景可能需要多次微调。

注意：对他人作品去水印并商用可能侵权；仅建议在权利清晰时使用。

话术生成

适合做什么：直播整场逐段话术、短视频口播稿、投放文案的多版本 A/B 草稿。

怎么用：填商品名、价格带、受众、平台（抖/快等）、时长与语气；生成后可粘贴到「AI 直播」脚本或「数字人视频」驱动文本。

注意：涉及医疗、金融等强监管行业需人工合规审核；数字与承诺语不要盲信模型。

💻 本地功能（本机运行）

以下功能在您电脑本地执行，数据不上传至我方服务器；部分功能依赖 NVIDIA 显卡与显存，建议显存 6GB 及以上（如 RTX 3060）。

AI 直播

能力：数字人形象 + 话术驱动 + 多路推流；可 24 小时循环播预设脚本，也可接弹幕做简单互动。

配置要点：先准备形象素材与话术（可用「话术生成」），在软件里填各平台 RTMP 地址与码率；弹幕自动回复需配置大模型 API。

实时换脸：真人摄像头采集后经本地换脸再编码推流，延迟相对可控，适合统一「出镜脸」而不暴露真人相貌。

更多：详见 AI 直播专题页。

换脸

图片换脸：指定源脸图与目标图，本地检测五官与轮廓后融合，可调边缘羽化、肤色匹配。

视频换脸：逐帧或跟踪式替换，尽量跟原片口型；耗时与分辨率、帧率、显卡性能正相关。

合规：仅使用有权使用的肖像；禁止用于诈骗、诽谤或绕过身份认证。

抠图

适合：电商白底图、证件照换底、海报合成前的分层素材。

怎么用：支持批量文件夹输入；半透明婚纱、细碎发丝可能需要放大检查边缘。

换背景

适合：没有绿幕时的「伪绿幕」：人物抠出后铺静态或动态背景。

注意：头发丝与快速运动肢体边缘可能出现闪烁，可配合光线均匀拍摄减轻问题。

智能混剪

流程：导入多段视频/图 + 可选 BGM，选风格模板与目标时长，本地自动编排转场与节奏。

风格：如通用带货、教程演示、情绪种草、强节奏冲击等，适合矩阵号批量试片。

建议：素材分辨率尽量接近，避免横竖混剪导致大量黑边裁切。

多平台发布

适合：同一成片要发抖音、快手、视频号等多个账号，减少重复点击上传。

注意：各平台登录态与审核规则独立，标题与话题需按平台习惯分别微调。

去水印

与云端去水印区别：数据不离开本机，适合内训片、合同演示等敏感素材大批量处理。

怎么用：可手动框水印区域或让模型自动找字幕条/角标；擦除后复杂背景可能需二次修补。

语音克隆

素材质量：5～30 秒、少混响、少背景乐的干声最佳；口音与语速会继承到克隆结果。

用途：长文配音、角色统一声线、与本地数字人/直播搭配；模型与缓存默认留在本机。

合规：仅克隆本人或已书面授权的声音。

音频切片

适合：从长录音里按静音间隙或固定秒数切出多条短视频配音、或从播客里抽金句。

参数：可按阈值调静音判定，避免切太碎或切不断。

转文字

适合：自动生成字幕 SRT、会议纪要、视频文案再利用。

注意：方言与强 BGM 会降低准确率，可先做人声分离再识别。

音频编辑

能力：裁剪拼接、简单降噪、响度归一；可批量处理文件夹。

衔接：常放在「转文字」前清底噪，或放在「混剪」前统一 BGM 响度。

🎭 换脸与数字人相关说明

图片/视频换脸：在「换脸」模块中，您需准备「源脸」图片（要保留身份的脸）和「目标」图片或视频（要被替换的画面）。软件会进行人脸检测与融合，输出时尽量保持光照与表情一致。建议使用正面、光线均匀的清晰人脸，效果更稳定。

实时换脸：在 AI 直播中可开启「换脸功能」，对摄像头或素材画面进行实时人脸替换后再推流，延迟低，适合需要统一出镜形象或保护隐私的直播场景。

数字人视频 vs 数字人直播：数字人视频为「离线生成」——上传照片+音频，云端/本地生成一段视频文件；数字人直播为「实时推流」——数字人按脚本或弹幕实时播报，面向直播间观众。两者可搭配使用：先用话术生成脚本，再用于直播或批量生成数字人视频。

📌 使用建议

云端任务：提交云端功能后，在「云端任务」标签中可查看排队、处理中、完成与失败状态，支持重新提交与下载结果。部分任务有超时时间，请留意提示。
显存与性能：本地视频/换脸/数字人相关功能较吃显存，若遇显存不足可先关闭其他占用 GPU 的程序，或降低分辨率、批量大小。软件内提供「释放显存」等系统工具。
模型与依赖：首次使用某本地功能时会自动下载对应模型，请保持网络畅通；若下载失败可查看常见问题或使用教程中的手动下载说明。
合规使用：换脸、数字人、语音克隆等能力请仅用于合法、获得授权的场景，禁止侵犯他人肖像权、名誉权与隐私。详见关于我们免责声明。

更多能力持续迭代中。若您需要某一功能的详细步骤，可查看使用教程与配套文档；遇到问题可先看常见问题与帮助与反馈说明。立即下载体验多财多亿AI。