旗博士爆款口播视频自动生成智能体
一个 本地运行、模块化、可扩展 的 数字人口播视频生成与多平台发布自动化工程
本项目是一个 完整的 AI 数字人口播视频自动化生成流程工程,将文案处理、语音合成、数字人驱动、视频后期及多平台发布整合为统一流水线。
项目重点在于 工程整合与流程自动化,而非单一模型能力,适用于学习、研究及 AI 视频系统原型验证。
- 1.自动提取对标文案
- 2.自动进行文案仿写
- 3.自动根据文案声音克隆
- 4.自动生成数字人口播
- 5.自动添加字幕
- 6.自动添加背景音乐
- 7.自动添加视频标题
- 8.自动生成视频封面
- 9.自动将视频发布到各平台(某抖,某蝴蝶号、某手,某红书)
- 自动提取并处理对标视频口播文案
- 文案语义级仿写与结构重组
- 高保真语音克隆与合成
- 数字人口播视频自动生成
- 自动生成字幕、背景音乐、标题与封面
- 多平台视频自动发布
- 全流程本地运行,无云端依赖
对标文案提取
↓
文案仿写与优化
↓
语音合成 / 声音克隆
↓
数字人口播生成
↓
字幕 / BGM / 封面合成
↓
多平台发布
项目采用 模块化设计,各功能模块解耦,便于替换与扩展:
project-root/
├── script/ # 文案处理模块
│ ├── extractor/ # 对标文案提取
│ └── rewriter/ # 文案仿写
├── audio/ # 音频处理模块
│ ├── asr/ # 语音识别(Whisper)
│ └── tts/ # 语音合成(CosyVoice)
├── avatar/ # 数字人模块
│ └── heygem/ # 数字人驱动
├── video/ # 视频后期模块
│ ├── subtitle/ # 字幕生成
│ ├── bgm/ # 背景音乐
│ └── ffmpeg/ # 视频合成流水线
├── uploader/ # 发布模块
│ └── multi_platform/ # 多平台发布
└── client/ # 本地客户端
| 模块 | 技术方案 |
|---|---|
| 语音识别 | Whisper |
| 语音合成 | CosyVoice |
| 数字人驱动 | HeyGem |
| 视频处理 | FFmpeg |
| 自动发布 | 平台 API / social-auto-upload |
由于模型文件及依赖体积较大,项目资源拆分提供。
-
下载项目源码 详见:
代码地址.txt -
启动本地客户端
当前版本通过 本地客户端 控制完整流水线,基本使用流程如下:
- 配置对标内容或原始文案
- 执行文案仿写模块
- 选择语音与数字人
- 生成口播视频
- 自动完成字幕、BGM、封面
- 选择平台进行发布
- 本地优先:不依赖云端服务
- 模块解耦:各模块可独立替换
- 流程可控:每一步可单独调试
- 工程导向:强调稳定性与可维护性
- 对硬件资源(尤其 GPU)有一定要求
- 不同平台上传接口可能存在变动
- 数字人口播效果依赖上游模型质量
本项目基于以下优秀开源项目与工具构建,在此表示感谢:
- Whisper
- CosyVoice
- HeyGem
- social-auto-upload
- FFmpeg
- 本项目 仅用于个人学习、研究和技术交流
- 🚫 禁止任何形式的商业用途
- 🚫 禁止基于本项目提供付费服务或二次分发
- 使用本项目产生的内容与风险由使用者自行承担
本仓库展示了一个 完整、可运行的 AI 数字人口播视频自动化工程实现,侧重 系统集成与工程实践。
适用于:
- AI 视频方向技术学习
- 数字人系统原型验证
- 自动化内容生成流程研究

