论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022|电子爱好者

admin管理员组
文章数量:1529448

原文链接：

[2205.05076] Reduce Information Loss in Transformers for Pluralistic Image Inpainting (arxiv)

代码链接：

liuqk3/PUT: Paper 'Reduce Information Loss in Transformers for Pluralistic Image Inpainting' in CVPR2022 (github)

本文创新点：

提出了patch-based auto-encoder(P-VQVAE)，在VQVAE的基础上将patch作为输入；
提出了Un-Quantized Transformer(UQ-Transformer)，直接将P-VQVAE编码器的特征作为输入，不进行量化，减少信息的损失。

网络结构

P-VQVAE

patch-based encoder

Dual-Codebook

Multi-Scale Guided Decoder

训练P-VQVAE

UQ-Transformer

训练UQ-Transformer

网络结构

网络整体由P-VQVAE和UQ-Transformer两个部分构成。

P-VQVAE

作用：避免输入下采样的信息丢失，同时保证transformer的计算效率。

P-VQVAE主要由三个部分组成：patch-based encoder、dual-codebook 和multi-scale guided decoder。

patch-based encoder

编码器由几个线性层构成，首先将图像划分成个patch（r为patch的大小，默认为8），然后将每个patch展平，并投影到一个特征向量中。特征向量可以用下式表示：

其中，C为特征向量的维度（默认为256），ε(•)为编码操作。

对于每个patch，如果包含缺失像素，则成为masked patch，否则为unmasked patch。

Dual-Codebook

双码本由两个部分构成，负责unmasked patch特征向量的映射，负责masked patch特征向量的映射（K和K'为潜在向量的个数）。在测试阶段，只用码本e去修复缺失区域，码本e'是不用的。

其中，m↓为1代表unmasked patch，0代表masked patch，㊀代表元素相减，

，为特征向量的量化向量和tokens。

Multi-Scale Guided Decoder

设为transformer修复的token，是基于码本中检索到的量化向量，

为修复图像，为输入的掩码图像。

解码器有两个分支：一个是从量化向量开始的主分支，使用几个反卷积层来生成修复图像，另一个是参考分支，从掩码图像中提取多尺度特征图。参考分支的主要作用就是保证掩码图像中已有的像素值保持不变。

对于一次掩码和二次掩码以外的特征，使用原始特征；对于二次掩码部分的区域，使用量化后的特征，用来训练码本e。

参考分支的特征通过Mask Guided Addition (MGA)与主分支进行特征融合：

其中，是主分支的特征，是参考分支的特征，大小为。

训练P-VQVAE

在训练P-VQVAE的时候，会用随机掩码m'去除中的一些像素当做参考分支的输入。

训练损失

为commitment loss，主要是约束encoder的输出和embedding空间保持一致，以避免encoder的输出变动较大（从一个embedding向量转向另外一个）。

为codebook loss，sg指的是stop gradient操作，这意味着这个L2损失只会更新embedding空间，而不会传导到encoder。在实际操作中使用指数移动平均（exponential moving averages，EMA）来更新embedding空间，采用EMA这种更新方式往往比直接采用L2损失收敛速度更快。在每次迭代 t 时，潜在向量更新为

其中，为中分配给的特征向量，为为特征向量的个数，γ为衰减参数，实验中设为0.99。

UQ-Transformer

Transformer的输入是encoder输出的特征，而不是离散的token，输出是masked token属于码本中向量的概率，目的是避免量化引入信息损失。

训练UQ-Transformer

在训练transformer时，需要将30%的特征向量随机量化为码本中的潜在向量，然后输入到transformer中。因为在测试阶段只有第一次输入的特征是编码器输出的特征，随着迭代进行，越来越多的掩码区域被码本中的特征替代。

其中，，为ground-truth tokens。

消融实验

第二张图为：用卷积编码器代替线性编码器；

第三张图为：只使用一个码本进行训练、测试；

第四张图为：解码阶段不使用参考分支；

第五张图为：输入transformer中的特征为tokenize的，而不是编码器输出的特征；

第六张图为：训练transformer时，没有将特征向量随机量化为码本中的潜在向量。

VQVAE参考生成模型之VQ-VAE - 知乎 (zhihu)

本文标签：论文 information loss Transformers Reduce

版权声明：本文标题：论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726703912a1081437.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022

网络结构

P-VQVAE

patch-based encoder

Dual-Codebook

Multi-Scale Guided Decoder

训练P-VQVAE

UQ-Transformer

训练UQ-Transformer

消融实验

更多相关文章

北斗导航 | 基于CRDSS（Comprehensive RDSS, 全面RDSS）的北斗抗干扰技术研究：RDSS+RNSS（论文翻译）

Meta KDD Cup 2024 CRAG: Comphrehensive RAG Benchmark参赛指南（写了一半跑去改大论文了所以没正式参赛）

多旅行商问题（MTSP）的相关论文总结

基于Java EE平台项目管理系统的设计与实现（论文+PPT+源码）

【一千个论文合集】计算机科学的26个细分领域近年必读论文集合

微服务架构——马丁弗勒（中文版论文完整版）

【论文笔记】To Learn or Not to Learn: Visual Localization from Essential Matrices（ICRA 2020）

红外线相关的论文（可见光和红外图像融合、红外图像增强、红外图像目标检测、红外图像分割...）

​​​​QMessageBox information、Question、Critical、Warning用法

论文笔记：Self-critical Sequence Training for Image Captioning

常用计算机工具软件论文,计算机常用软件论文 陈杰.doc

论文研读系列——“CTAB-GAN Effective Table Data Synthesizing”

论文阅读：Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

Consensus-AI论文搜索引擎 直接从论文中找答案

win10获取管理员权限_论文排版工具—LaTeX 安装+获取

[论文笔记]彻底讲透FCN语义分割开山之作Fully Convolutional Networks

【论文翻译】Taking A Closer Look at Domain Shift:Category-level Adversaries for Semantics Consistent Domai

不用再找了，吐血整理 ChatGPT 论文润色、降重指令手册~ 【2024年 更新】

【ChatGPT修改论文】【中英双语】GPT论文指令合集（润色、语法修改、降重）

不用再找了，吐血整理ChatGPT 论文新手使用手册~ (含论文润色指令~)

发表评论

推荐文章

QQ邮箱授权码和二代密保

linux qq 中文输入法下载,【QQ拼音输入法纯净版和搜狗输入法 For Linux哪个好用】QQ拼音输入法纯净版和搜狗输入法 For Linux对比－ZOL下载...

兼容ie8及其以上IE浏览器，360浏览器，QQ浏览器等双核浏览器。

lnk等于74 k等于 用计算机,win7桌面图标变成lnk怎么办？win7桌面图标变成lnk的解决方法...

AMD Radeon Software 卸载界面卡住解决办法 | Display Driver Uninstaller (DDU) | 驱动卸载

热门文章

支付宝沙箱版app登入失败账户不存在问题

短信或者邮件链接打开 APP（URL Scheme）

Android7.0编译出现问题（Failed to contact Jack server）

win10打开谷歌浏览器chrome，并进入kiosk模式

第三方邮箱客户端-是高效办公，也是一种生活态度

Linux下访问小米路由器文件

桥接路由器总是掉线_桥接后副路由器网速特别慢，而且经常掉线

华为荣耀笔记本原厂系统无U盘安装创建F10智能还原恢复功能

AMD新旧驱动大起底，今年的AMD有点忙

linux yum 五笔输入法,CentOS 7 安装五笔输入法

最新文章

02、【电脑维修】windows系统登录时候出现两个账户（Administrator账户隐藏）

怎样查看计算机历史的开机时间,win10系统怎么查看电脑的历史开关机时间｜win10系统如何查询电脑开机后运行多长时间...

电脑开机是哪个键 电脑常用快捷键盘点

windows 简单快速的查看电脑的启动和关闭时间【通过命令的形式】

CentOS 7通过yum安装fcitx五笔输入法

电脑开机启动项在哪里设置？3个方法教你轻松找到！

电脑开机太慢？这5个方法瞬间提升你的电脑速度

电脑开机安装流氓软件、弹广告处理办法

[ubuntu] 安装五笔输入法

Ubuntu14.04中文版调出五笔输入法关键步骤

[Windows系统]查看电脑开关机时间

电脑开机运行内存占用过高的解决办法

电脑开机自动推送微信通知

在线五笔输入法 86版是一款基于五笔字型编码方案的在线输入法。该输入法具有界面简洁、操作简单、学习成本低等优点。用户只需在网站上注册账号，即可开始使用。

ubuntu五笔输入法安装_打造最强Windows 10微软拼音输入法 + 600万词库下载

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

QMessageBox information、Question、Critical、Warning用法

常用计算机工具软件论文,计算机常用软件论文陈杰.doc

Consensus-AI论文搜索引擎直接从论文中找答案

不用再找了，吐血整理 ChatGPT 论文润色、降重指令手册~ 【2024年更新】

lnk等于74 k等于用计算机,win7桌面图标变成lnk怎么办？win7桌面图标变成lnk的解决方法...

电脑开机是哪个键电脑常用快捷键盘点

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载