admin管理员组

文章数量:1567256

你是否畅想过如下场景?

  1. 让游戏角色用自己独特的声音与你对话?
  2. 让 AI 用你最喜欢的声音为你朗读小说?
  3. 如何克隆一个人的声音?
  4. 如何克隆自己的声音?
  5. 如何自动生成小说短视频配音?
  6. 如何自动朗读新闻文章等等?

随着人工智能技术的不断发展,这些曾经的幻想正在逐渐变为现实。今天,我要向大家介绍一款强大的开源文本转语音模型——Fish Speech,它将为你打开 AI 语音合成的新世界大门。

Fish Speech是什么?

Fish Speech是由Fish Audio开发的一个开源文本转语音模型。它基于VQ-GAN、Llama和VITS等前沿的AI技术,能够将文本转换成逼真的语音。

开源地址: ( https://github/fishaudio/fish-speech )

最让人惊喜的是,它不仅支持中文、日语、英语三种主流语言,合成的音质也非常高,堪比专业配音!🎙️ 尤其对于一些知名游戏角色的声音,如《原神》、《崩坏:星穹铁道》等,简直以假乱真。

Fish Speech有什么特点?

与其他文本转语音模型相比,Fish Speech有以下几个优势:

  1. 完全开源,任何人都可以免费使用和改进代码。
  2. 支持多种主流语言,并且合成效果都很棒。
  3. 基于最新的AI模型,合成音质接近真人发音。
  4. 专门针对游戏配音场景进行了优化。

如何使用在线平台Fish Speech?

Fish Speech 提供了一个简单易用的在线平台,让你无需任何技术基础,也能轻松体验 AI 语音合成的乐趣。

访问 Fish Speech 在线平台: 打开浏览器,访问  https://fs.firefly.matce/。

发现有趣声音

点击“发现”查找你感兴趣的声音,然后选择你喜欢的声音可以直接使用该声音来进行声音合成。

语言合成

  1. 点击最上方“语音合成”按钮
  2. 输入你的文本
  3. 选择要合成的声音源
  4. 点击“创建”按钮等待合成完成
  5. 合成完成后,可以进行声音试听、下载和分享

构建声音训练新声音

  1. 点击最上面“构建声音”按钮
  2. 选择声音类型
  3. 设置封面图片
  4. 填写声音名称和描述
  5. 输入声音标签
  6. 上传训练音频或者录制训练音频(推荐30s左右)
  7. 开始创建新声音
  8. 创建完成可以在“我的声音”菜单下面找到新建的声音模型

Fish Speech如何本地电脑部署?

要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)
  • 系统: Linux, Windows

Windows 配置

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torchpile):

  1. 解压项目压缩包。
  2. 点击install_env.bat安装环境。
  • 可以通过编辑 install_env.batUSE_MIRROR 项来决定是否使用镜像站下载。
  • USE_MIRROR=false 使用原始站下载最新稳定版 torch 环境。USE_MIRROR=true 为从镜像站下载最新 torch 环境。默认为 true
  • 可以通过编辑 install_env.batINSTALL_TYPE 项来决定是否启用可编译环境下载。
  • INSTALL_TYPE=preview 下载开发版编译环境。INSTALL_TYPE=stable 下载稳定版不带编译环境。
  1. 若第2步INSTALL_TYPE=preview
    则执行这一步(可跳过,此步为激活编译模型环境)
  1. 使用如下链接下载 LLVM 编译器。
  •  LLVM-17.0.6(原站站点下载)
  •  LLVM-17.0.6(镜像站点下载)
  • 下载完 LLVM-17.0.6-win64.exe 后,双击进行安装,选择合适的安装位置,最重要的是勾选 Add Path to Current User 添加环境变量。
  • 确认安装完成。
  1. 下载安装 Microsoft Visual C++ 可再发行程序包,解决潜在 .dll 丢失问题。
  •  MSVC++ 14.40.33810.0 下载
  1. 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。
  •  Visual Studio 下载
  • 安装好Visual Studio Installer之后,下载Visual Studio Community 2022
  • 如下图点击修改按钮,找到使用C++的桌面开发项,勾选下载

  1. 双击start.bat,进入 Fish-Speech 训练推理配置 WebUI 页面。
  • (可选) 想直接进入推理页面?编辑项目根目录下的
  • 进入网页后:

  • 简单说一下各部分区域构成,如下图所示,方便按图索骥:

  • 1 banner(横幅):进入网页后从左到右逐渐显示"Welcome to Fish-Speech"字样。以后可能变动。
  • 2 功能区: 在这里,你将决定数据集文件的来源,文本标签的修改,训练参数的调整、推理页面的设置。
  • 3 文件信息展示区:一般不可更改。指引你如何找到自己的预处理后的数据文件、训练后的模型文件所在路径。
  • 4 版本/作者信息。可以多多支持一下作者。
  • 5 欢迎更好的动效~

(可选)想启动 API 服务器?编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:

# --infer
    --api
    --listen ...
    ...
  • 1.
  • 2.
  • 3.
  • 4.

(可选)双击 run_cmd.bat 进入本项目的 conda/python 命令行环境

Linux 配置

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech pythnotallow=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch torchvision torchaudio

# 安装 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.

Fish Speech有哪些有趣的应用?

除了给游戏配音,Fish Speech还有很多有趣的应用场景,比如:

  • 为视频创作配旁白
  • 制作有声读物
  • 开发智能语音助手
  • 给动画片配音
  • ……

相信你已经想到了更多有创意的玩法。只要发挥想象力,Fish Speech就能为你打造出独一无二的语音作品。

总结

Fish Speech作为一个优秀的开源语音合成项目,为我们打开了一扇探索AI语音的大门。无论你是程序员、游戏爱好者、自媒体创作者,还是普通用户,都能从中获得乐趣和启发。

如果你也对语音合成技术感兴趣,不妨赶快去体验一下Fish Speech吧!说不定能创造出更多惊喜。

希望这篇文章能给你带来一些思路和灵感。你觉得Fish Speech还有哪些有趣的应用场景呢?欢迎在评论区分享你的想法。

原创作者: u_16911829 转载于: https://blog.51cto/u_16911829/11483128

本文标签: 以假乱真更有强烈推荐灵魂声音