输入一个主题,AI 全自动生成短视频!这个开源工具让视频创作真正零门槛

张开发
2026/4/13 19:14:13 15 分钟阅读

分享文章

输入一个主题,AI 全自动生成短视频!这个开源工具让视频创作真正零门槛
输入一个主题AI 全自动生成短视频这个开源工具让视频创作真正零门槛一句话介绍Pixelle-Video 是一款 AI 全自动短视频引擎只需输入一个主题就能自动完成文案撰写、AI 配图、语音合成、BGM 叠加、视频合成全套流程。支持 Windows 一键整合包、零门槛上手完全免费可本地运行。目录1. 先看效果输入主题一键出片2. 它能做什么核心能力全览3. 技术架构ComfyUI 模块化设计4. 快速上手Windows 一键整合包5. 进阶配置从源码到自定义6. 费用方案对比7. 扩展玩法数字人口播 / 图生视频 / 动作迁移8. 总结1. 先看效果输入主题一键出片你有没有过这种经历想做一个短视频但—— 不会写脚本 找不到配图素材 不会配音 不会剪辑 买了一堆会员还是做不出满意的效果Pixelle-Video 的解法是把这五件事全部交给 AI你只负责想一个主题。你只需要在输入框里写「为什么要养成阅读习惯」然后等待几分钟AI 自动完成✍️ 撰写视频文案 生成 AI 配图每句话一张图️ 合成语音解说支持克隆音色 添加背景音乐 一键合成视频 GitHubhttps://github.com/AIDC-AI/Pixelle-Video2. 核心能力全览完整流水线环节支持方案说明 文案生成通义千问 / GPT-4o / DeepSeek / Ollama输入主题AI 创作完整解说词 配图生成ComfyUIFLUX/Qwen 等/ RunningHub 云端每句话自动生成一张匹配插图️ 语音合成Edge-TTS / Index-TTS 等多种 TTS 工作流支持声音克隆多语言音色 背景音乐内置 BGM / 自定义上传 MP3/WAV让视频更有氛围感 视频合成竖屏 / 横屏 / 方形多模板自动拼接分镜生成完整视频最新功能2026年1月更新功能说明数字人口播上传照片AI 生成数字人说话视频支持多语言️图生视频AI 生成静态图片 → 转换为动态视频动作迁移上传参考视频和图片将视频动作迁移到图片人物上模板体系按文件名分类清晰明了static_*.html → 静态模板纯文字样式无需 AI 生成媒体 image_*.html → 图片模板AI 生成图片作为背景最常用 video_*.html → 视频模板AI 生成视频作为背景最炫酷支持竖屏9:16、横屏16:9、**方形1:1**三种尺寸适配抖音、小红书、B站等各大平台。3. 技术架构ComfyUI 模块化设计Pixelle-Video 的核心设计理念是原子能力可组合——整个系统基于 ComfyUI 的工作流架构每个环节都可以独立替换和定制。视频生成流程输入主题 │ ▼ ┌──────────────────────────┐ │ LLM通义千问/GPT等 │ → 自动撰写视频文案 └──────────┬───────────────┘ │ 文案 ▼ ┌──────────────────────────┐ │ 分镜规划 │ → 将文案拆分为多个分镜 └──────────┬───────────────┘ │ 分镜列表每句话一个分镜 ▼ ┌──────────────────────────┐ │ 并行处理分镜级 │ │ ┌─────────┐ ┌─────────┐ │ │ │ 分镜 1 │ │ 分镜 2 │ │ ... ← 同时进行 │ │ AI配图 │ │ AI配图 │ │ │ │ TTS语音 │ │ TTS语音 │ │ │ └─────────┘ └─────────┘ │ └──────────┬───────────────┘ │ 配图 语音 ▼ ┌──────────────────────────┐ │ 视频模板合成 │ → 将分镜拼接成完整视频 │ 竖屏/横屏/方形 │ └──────────┬───────────────┘ │ ▼ 输出完整短视频为什么选择 ComfyUI 架构优势说明组件可替换换生图模型换 TTS 引擎直接替换工作流文件即可风格可定制替换生图模型为 FLUX换 TTS 为 ChatTTS完全自由流程可视化工作流文件即配置所见即所得生态丰富ComfyUI 社区有大量现成工作流可复用4. 快速上手Windows 一键整合包这是整个项目最友好的地方——Windows 用户不需要装任何环境解压即用。第一步下载整合包 点击下载最新 Windows 一键整合包下载后解压双击运行start.bat浏览器自动打开 http://localhost:8501第二步配置 API在 Web 界面展开「⚙️ 系统配置」LLM 配置生成文案用推荐方案说明通义千问成本极低性价比最高推荐GPT-4o效果好但有 API 费用DeepSeek国产平替便宜好用Ollama完全免费但需要本地部署图像配置生成配图用方案说明本地 ComfyUI推荐本地部署完全免费需有 NVIDIA 显卡RunningHub 云端无需本地环境按调用量付费第三步生成视频左侧输入主题「为什么要养成阅读习惯」中间选择语音和配图风格点击「 生成视频」等待完成进度实时显示生成文案 → 分镜规划 → 生成配图 → 合成语音 → 合成视频5. 进阶配置从源码到自定义macOS / Linux 从源码安装# 1. 安装依赖brewinstallffmpeg# macOS# Ubuntu: sudo apt install ffmpeg# 2. 安装 uvPython 包管理器# https://docs.astral.sh/uv/getting-started/installation/# 3. 下载并启动gitclone https://github.com/AIDC-AI/Pixelle-Video.gitcdPixelle-Video uv run streamlit run web/app.py自定义 TTS 工作流系统会自动扫描workflows/文件夹中的 TTS 工作流。懂 ComfyUI 的朋友可以在 ComfyUI 中设计自己的 TTS 工作流保存为 JSON 文件放入workflows/文件夹刷新 Web 界面新工作流出现在下拉菜单中自定义视频模板在templates/文件夹创建 HTML 文件即可static_*.html → 静态模板纯文字 image_*.html → 图片模板AI 配图 video_*.html → 视频模板AI 视频 查看所有模板效果图自定义 Prompt 风格在「视觉设置」中填写 Prompt Prefix需要英文控制配图整体风格# 示例极简线条插画风格 Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style # 示例电影感摄影风格 Cinematic photography, dramatic lighting, film grain, 35mm lens6. 费用方案对比方案LLM 费用图像费用总成本适合人群完全免费Ollama本地ComfyUI本地0元有 NVIDIA 显卡的用户推荐方案通义千问极低ComfyUI本地≈几角钱/视频普通用户日常使用云端方案OpenAIRunningHub几元/视频无显卡、不想配置环境的用户有显卡建议用完全免费方案——Ollama 本地运行大模型 ComfyUI 本地部署 完全不花钱。7. 扩展玩法数字人口播 / 图生视频 / 动作迁移数字人口播上传一张人物照片 一段语音/文案 → 生成数字人说话视频。支持多语言适合做多语种内容本地化。图生视频先用 AI 生成一张精美的静态图片支持 FLUX 等模型再将静态图转换为动态视频。适合风景、插画等内容的视频化创作。动作迁移上传一段参考视频 一张目标人物图片 → 将参考视频中的动作「迁移」到目标人物身上。 例如上传一段舞蹈视频 一张自己的照片 → 照片里的人跳起了同样的舞这是 2026 年 1 月新上线的功能详见 GitHub 仓库最新更新。8. 总结Pixelle-Video 的核心竞争力在于两个字**全」和「简」。全从文案到配图、配音、BGM、视频合成一条龙全覆盖。简Windows 一键整合包零门槛ComfyUI 模块化架构技术用户也能深度定制。推荐指数⭐⭐⭐⭐⭐无论是想快速做短视频的自媒体人、想要自动化批量生产内容的运营团队还是想研究 AI 视频生成的技术爱好者这个项目都值得关注。 GitHubhttps://github.com/AIDC-AI/Pixelle-Video Windows 整合包点击下载 文档https://aidc-ai.github.io/Pixelle-Video/zh 视频教程B站 BV1WzyGBnEVp标签#AI视频生成 #短视频创作 #PixelleVideo #ComfyUI #数字人 #AIDC-AI #开源项目 #TTS #自动化视频

更多文章