admin管理员组文章数量:1567256
你是否畅想过如下场景?
- 让游戏角色用自己独特的声音与你对话?
- 让 AI 用你最喜欢的声音为你朗读小说?
- 如何克隆一个人的声音?
- 如何克隆自己的声音?
- 如何自动生成小说短视频配音?
- 如何自动朗读新闻文章等等?
随着人工智能技术的不断发展,这些曾经的幻想正在逐渐变为现实。今天,我要向大家介绍一款强大的开源文本转语音模型——Fish Speech,它将为你打开 AI 语音合成的新世界大门。
Fish Speech是什么?
Fish Speech是由Fish Audio开发的一个开源文本转语音模型。它基于VQ-GAN、Llama和VITS等前沿的AI技术,能够将文本转换成逼真的语音。
开源地址: ( https://github/fishaudio/fish-speech )
最让人惊喜的是,它不仅支持中文、日语、英语三种主流语言,合成的音质也非常高,堪比专业配音!🎙️ 尤其对于一些知名游戏角色的声音,如《原神》、《崩坏:星穹铁道》等,简直以假乱真。
Fish Speech有什么特点?
与其他文本转语音模型相比,Fish Speech有以下几个优势:
- 完全开源,任何人都可以免费使用和改进代码。
- 支持多种主流语言,并且合成效果都很棒。
- 基于最新的AI模型,合成音质接近真人发音。
- 专门针对游戏配音场景进行了优化。
如何使用在线平台Fish Speech?
Fish Speech 提供了一个简单易用的在线平台,让你无需任何技术基础,也能轻松体验 AI 语音合成的乐趣。
访问 Fish Speech 在线平台: 打开浏览器,访问 https://fs.firefly.matce/。
发现有趣声音
点击“发现”查找你感兴趣的声音,然后选择你喜欢的声音可以直接使用该声音来进行声音合成。
语言合成
- 点击最上方“语音合成”按钮
- 输入你的文本
- 选择要合成的声音源
- 点击“创建”按钮等待合成完成
- 合成完成后,可以进行声音试听、下载和分享
构建声音训练新声音
- 点击最上面“构建声音”按钮
- 选择声音类型
- 设置封面图片
- 填写声音名称和描述
- 输入声音标签
- 上传训练音频或者录制训练音频(推荐30s左右)
- 开始创建新声音
- 创建完成可以在“我的声音”菜单下面找到新建的声音模型
Fish Speech如何本地电脑部署?
要求
- GPU 内存: 4GB (用于推理), 8GB (用于微调)
- 系统: Linux, Windows
Windows 配置
Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。
Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torchpile
):
- 解压项目压缩包。
- 点击install_env.bat安装环境。
- 可以通过编辑
install_env.bat
的USE_MIRROR
项来决定是否使用镜像站下载。 USE_MIRROR=false
使用原始站下载最新稳定版torch
环境。USE_MIRROR=true
为从镜像站下载最新torch
环境。默认为true
。- 可以通过编辑
install_env.bat
的INSTALL_TYPE
项来决定是否启用可编译环境下载。 INSTALL_TYPE=preview
下载开发版编译环境。INSTALL_TYPE=stable
下载稳定版不带编译环境。
- 若第2步INSTALL_TYPE=preview
则执行这一步(可跳过,此步为激活编译模型环境)
- 使用如下链接下载 LLVM 编译器。
- LLVM-17.0.6(原站站点下载)
- LLVM-17.0.6(镜像站点下载)
- 下载完
LLVM-17.0.6-win64.exe
后,双击进行安装,选择合适的安装位置,最重要的是勾选Add Path to Current User
添加环境变量。 - 确认安装完成。
- 下载安装 Microsoft Visual C++ 可再发行程序包,解决潜在 .dll 丢失问题。
- MSVC++ 14.40.33810.0 下载
- 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。
- Visual Studio 下载
- 安装好Visual Studio Installer之后,下载Visual Studio Community 2022
- 如下图点击
修改
按钮,找到使用C++的桌面开发
项,勾选下载
- 双击start.bat,进入 Fish-Speech 训练推理配置 WebUI 页面。
- (可选) 想直接进入推理页面?编辑项目根目录下的
- 进入网页后:
- 简单说一下各部分区域构成,如下图所示,方便按图索骥:
- 1 banner(横幅):进入网页后从左到右逐渐显示"Welcome to Fish-Speech"字样。以后可能变动。
- 2 功能区: 在这里,你将决定数据集文件的来源,文本标签的修改,训练参数的调整、推理页面的设置。
- 3 文件信息展示区:一般不可更改。指引你如何找到自己的预处理后的数据文件、训练后的模型文件所在路径。
- 4 版本/作者信息。可以多多支持一下作者。
- 5 欢迎更好的动效~
(可选)想启动 API 服务器?编辑项目根目录下的 API_FLAGS.txt
, 前三行修改成如下格式:
# --infer
--api
--listen ...
...
- 1.
- 2.
- 3.
- 4.
(可选)双击 run_cmd.bat
进入本项目的 conda/python 命令行环境
Linux 配置
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech pythnotallow=3.10
conda activate fish-speech
# 安装 pytorch
pip3 install torch torchvision torchaudio
# 安装 fish-speech
pip3 install -e .
# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
Fish Speech有哪些有趣的应用?
除了给游戏配音,Fish Speech还有很多有趣的应用场景,比如:
- 为视频创作配旁白
- 制作有声读物
- 开发智能语音助手
- 给动画片配音
- ……
相信你已经想到了更多有创意的玩法。只要发挥想象力,Fish Speech就能为你打造出独一无二的语音作品。
总结
Fish Speech作为一个优秀的开源语音合成项目,为我们打开了一扇探索AI语音的大门。无论你是程序员、游戏爱好者、自媒体创作者,还是普通用户,都能从中获得乐趣和启发。
如果你也对语音合成技术感兴趣,不妨赶快去体验一下Fish Speech吧!说不定能创造出更多惊喜。
希望这篇文章能给你带来一些思路和灵感。你觉得Fish Speech还有哪些有趣的应用场景呢?欢迎在评论区分享你的想法。
原创作者: u_16911829 转载于: https://blog.51cto/u_16911829/11483128版权声明:本文标题:【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1727546773a1120252.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论