VQ-VAE|电子爱好者

admin管理员组
文章数量:1530018

特点

用于压缩编码，编码出离散隐向量（有用的表征）
先验分布不再固定，可学习，离散的均匀分布。不像VAE中，先验分布是一个标准的高斯分布。
避免后验坍塌，即输入任意隐变量解码器输出都一样。

结构

稀疏的高维数据->压缩到很小的空间->解码器还原为高维对象。
后验分布 q ( z ∣ x ) q(z|x) q(z∣x)，先验分布 p ( z ) p(z) p(z)，解码器 p ( x ∣ z ) p(x|z) p(x∣z)。

VQ-VAE的三部分：

图像x输入编码器，得到 z e ( x ) z_e(x) ze(x)
latent embedding space: KxD，K个类别的向量，每个向量维度D。
编码器的输出 z e ( x ) z_e(x) ze(x)通过最近邻查找，找到距离最近的离散向量 e j e_j ej的索引 k k k。
q ( z = k ∣ x ) = { 1 f o r k = a r g m i n j ∣ ∣ z e ( x ) − e j ∣ ∣ 2 0 o t h e r w i s e q(z=k|x)=\left\{\begin{matrix} 1 &for \ k=argmin_j||z_e(x)-e_j||_2\\ 0&otherwise \end{matrix}\right. q(z=k∣x)={10for k=argminj∣∣ze(x)−ej∣∣2otherwise
后验分布概率 q ( z ∣ x ) q(z|x) q(z∣x)是独热编码，隐变量z就是一个索引。解码器输入是索引k对应的向量 e k e_k ek。
解码器对 e k e_k ek解码，得到重构的x。

损失

编码器，解码器，embedding space都需要训练。

重构loss
KL散度loss，后验分布和先验分布的距离，但这里先验分布是均匀分布，后验分布也是类别分布，两个类别分布之间的KL散度是常数，所以VQ-VAE忽略KL散度loss。
codebook loss：为了让embedding space训练学习，让embedding vector e e e去接近编码器输出 z e ( x ) z_e(x) ze(x)
commitment loss->embedding space没有约束，如果 e e e学得不够快，可能会无限膨胀，所以commitment loss让 z e ( x ) z_e(x) ze(x) 接近 e e e，让 z e ( x ) z_e(x) ze(x)走的慢一点。commitment loss前面一般会有一个系数 β \beta β，比如0.25.

注意

编码器到解码器中间的梯度传导断掉了，因为argmin不可导。解码器输入的梯度复制给编码器输出。
我们用 z e ( x ) z_e(x) ze(x)找到 e k e_k ek，所以二者维度需要一致，即编码器输出和解码器输入维度要一致，都是D维。
stop gradient相当于看作常量

其他

如何评估VQ-VAE的性能？拿一张图片编码-离散化-解码，对比重构后的图片和原图差距，看重建效果。
训练过程，如何判断模型是否在有效训练？把编码器的类别分布信息熵打印出来。-plogp，均匀分布熵最大，熵很小说明类别变化很小，可能输出只有一个类别->后验坍塌。
训练好VQ-VAE后，如何生成新的图片？原本的VQ-VAE其实只是一个压缩器。无监督随机生成：大规模图片预训练VQ-VAE模型，某张图片输入VQ-VAE，那就有这张图片的离散化向量，用另一个模型对其自回归建模，用自回归生成的压缩图片，解码生成新的图片。（让自回归模型学习一个离散化分布，这样可以通过该模型采样离散向量，解码就可以产生不同的图片）
条件生成：大规模图片训练VQ-VAE模型，得到一个有效的后验编码器；用RNN以提示prompt作为RNN的条件输入，对离散向量自回归建模。训练好的RNN模型，给定prompt自回归生成离散向量，解码即可条件生成图片。

本文标签： VQ VAE

版权声明：本文标题：VQ-VAE 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726703919a1081438.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

声音生成项目（4）——从VariantAutoencoder（VAE）到VQ-VAE矢量量化变分编码器

23小时前

文章目录论文介绍步骤具体讲解自定义矢量量化层获取最近距离的码字的索引计算推导损失函数相关参考矢量量化层的代码实现完整代码实现论文介绍不同于变分编码器和自动编码器，vq-vae中的latent space是离散

生成模型之VAE与VQ-VAE

23小时前

有关图像处理的课程作业需要学习一篇论文，此论文中作者使用了VQ-VAE模型对舞蹈动作进行编码。因此，对相关知识略作整理以供之后查找。 AE、VAE和VQ-VAE可以统一为latent code的概

VQ-VAE

23小时前

特点用于压缩编码，编码出离散隐向量（有用的表征）先验分布不再固定，可学习，离散的均匀分布。不像VAE中，

AE（自动编码器）、VAE（变分自动编码器）、VQ-VAE（向量量化变分自编码器）的区别和联系？

23小时前

他们各自的概念看以下链接就可以了：https:blog.csdnweixin_43135178category_11543123.html 这里主要谈一下他们的区别？ 先说结论&#

电子爱好者 - 最新技术资讯及电子产品介绍！

VQ-VAE

特点

结构

损失

注意

其他

更多相关文章

声音生成项目（4）——从VariantAutoencoder（VAE）到VQ-VAE矢量量化变分编码器

生成模型之VAE与VQ-VAE

VQ-VAE

AE（自动编码器）、VAE（变分自动编码器）、VQ-VAE（向量量化变分自编码器） 的区别和联系？

发表评论

推荐文章

苹果手机怎么查看已连接的wifi密码_WIFI密码忘了？教你查看手机已连接WIFI的密码...

Chrome浏览器本地调试：阻止不安全、本地网络请求

js获取今天剩余时间_骚姿势获取无线路由器后台权限

电商项目中遇到的经典问题

算法 64式 8、动态规划算法整理

热门文章

Contact API的结构和使用方法

微信企业号no privilege to accessmodify contactpartyagent

如何用计算机给手机杀毒,怎么用手机给u盘杀毒

gre 填空13-30

SAP内部订单（IO）及SAP WBS财务功能主要差异对比分析及实施建议 IO&amp;WBS Comparison on Financial Functionalities

U盘提示文件过大但是磁盘空间充足，不需格式化u盘

win10、11共享打印机报错无法连接到打印机

AMD显卡Ubuntu20.4系统下部署stable diffusion

解决Ubuntu中you are in emergency mode(紧急模式)问题

羊驼2:开放的基础和微调聊天模型--Llama 2论文阅读

最新文章

IDEA 下载、安装、配置和案例

2024年会声会影哪个版本最新版

【杂谈】当当最新购书优惠来了，满300-60，AI好书推荐

2024最新版IntelliJ IDEA安装教程（非常详细）从零基础入门到精通，看完这一篇就够了

Windows下自制程序捕获6GHzWiFi7无线报文（mt7921au网卡WiFi6E）

会声会影哪个版本最新

IDEA2021.2安装与配置（持续更新）

dbeaver-ultimate23.3安装注册免费试用

会声会影2023旗舰版V26.0.0.136完整版2024免费下载最新中文旗舰版新功能讲解

视频编辑软件会声会影2025旗舰版即将来临

eset nod32 v11无限试用补丁

会声会影哪个版本最好用?

Ubuntu安装 IDEA

【IntelliJ IDEA 2024 激活及安装教程，亲测可以使用】

会声会影Corel VideoStudio2025旗舰版最新中文旗舰版新功能讲解及使用会声会影使用教程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

AE（自动编码器）、VAE（变分自动编码器）、VQ-VAE（向量量化变分自编码器）的区别和联系？

SAP内部订单（IO）及SAP WBS财务功能主要差异对比分析及实施建议 IO&WBS Comparison on Financial Functionalities

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载