不再内卷！视觉字幕化新任务合集|电子爱好者

admin管理员组
文章数量:1622625

©PaperWeekly 原创 · 作者 | 上杉翔二

单位 | 悠闲会

研究方向 | 信息检索

目前跨模态图像或视频摘要/字幕生成（Image/Video Caption）任务已经得到了很长足的发展，并逐渐内卷化，比如今天出了一篇 Vision Transformer 变体，明天升级到需要百卡训练的大框架。因此，最近的一些文章尝试向外扩展，即不再满足于只在常规的 caption 任务上刷分，而是转于探索各种稀奇古怪，但又有一定实践价值的新任务，比如程序化 caption、多样化 caption、独特化 caption、多视角 caption、常识性 caption、问题控制型 caption。于是本篇文章将整理一下围绕图像/视频字幕化任务的新任务们。

Hybrid Reasoning Network for Video-based Commonsense Captioning 常识性字幕化任务。 从普通的语义理解到高级语义推理上的升级，常识字幕任务旨在在给定一个输入的视频，同时生成字幕和完成常识推理（如上图 a 中的三种颜色，去推理出意图 intention、效果 effect、属性 attribute）。同时很显然这三种常识推理都是有作用的，如图 b 是指人类不仅可以受益于视频和事件的标题，而且还可以准确地预测属性和效果，这证明这种语义层面的推理与不同的常识线索是相互作用的。

因此作者提出一种 Hybrid Reasoning Network，即混合语义层面的推理和词级别的推理（预测下一个词）来提升表现。这样的好处是：

提高各种常识性语义的高级推理能力。
从不同的单词中挖掘低级别的推理。

然后具体的模型结构如下图：

图 a 是整体结果，具体的做法是以视频为输入，然后采用多模态融合将运动特征（红色的时空 CNN 来提取）、音频特征（灰色的 sound CNN 来提取）和外观特征（Image CNN 来提取）合并为多模态特征（MF）。然后将 MF 输入到解码器阶段进行字幕处理，其中包括字幕解码器和三个常识解码器：Intention Decoder，Attribute Decoder，Effect Decoder，做法都类似，

loss 也是直接用交叉熵来算。然后右边的图 b 是记忆路由多头注意力与记忆模块协同进行词级推理，即这个模块将从以前的单词信息中学习，并计算以前的信息和生成过程之间的交互。

本文标签：合集字幕新任务视觉内卷

版权声明：本文标题：不再内卷！视觉字幕化新任务合集内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728873118a1177492.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

不再内卷！视觉字幕化新任务合集

更多相关文章

10款好用的文件加密软件排行榜｜文件加密管理软件推荐（合集篇）

计算机视觉论文-2021-12-01

Youtube视频加字幕需要的软件电脑版+手机版 2020语音视频自动生成字幕软件

VBS 代码合集（慎用，好玩）

小学生们在B站讲算法，这么内卷么？

【今日CV 计算机视觉论文速览 92期】 2 Apr 2019

【三维视觉】【深度学习】windows10下PointNet官方代码Pytorch实现

杜比视界免费播放器、srt、ass字幕时间轴修改-python、简繁转化

【专题】2024年6月数字化行业报告合集汇总PDF分享（附原数据表）

linux必备软件合集

【转】计算机视觉基础5——本质矩阵与基本矩阵(Essential and Fundamental Matrices)

视觉SLAM 第7讲 本质矩阵 基础矩阵 单应矩阵 知识点证明理解秩自由度

视觉SLAM笔记--第5篇: 基础矩阵F和单应矩阵H的推导过程，区别分析

android 语音库,安卓系统也能用苹果语音库：Vocalizer TTS语音引擎及语音包合集

运维企业实战Shell脚本合集+万能工具箱

Android最全UI库合集

计算机视觉论文-2021-08-03

计算机视觉与深度学习 | SLAM国内外研究现状

综述 | 基于特征的视觉同步定位和建图

计算机视觉领域经典论文源码大全

发表评论

推荐文章

kali Linux暴力破解WiFi密码

ubuntu20.04使用终端命令安装谷歌Chrome浏览器稳定版

一些常见的项目行为状态

利用hook api屏幕取词

英语每日一句（73-）

热门文章

Springboot启动时数据库连接错误Communications link failure

CUDA error: unspecified launch failure问题的解决

基于NodeJS英雄联盟游戏游戏综合网站

Mac下如何连接树莓派实现联网共享？教你ping通树莓派

追踪研读法破解EZ-USB的“远程唤醒”

Unreal Engine 4 初学者教程：开始

【WIN11】微软拼音输入法单字频率固定方法

win11右键菜单改成win10且如何还原成win11

几分钟计算机不操作就注销,win10系统长时间不操作就自动注销的方案

win10IIS开启FTP服务器不能匿名登录

最新文章

联想微型计算机怎么光盘启动,联想笔记本电脑win10怎么设置光盘启动

联想笔记本计算机在哪里找不到,联想笔记本电脑找不到WLAN怎么解决

如何查看笔记本电脑的型号？

笔记本重置网络环境

神州笔记本电脑开机出现CMOS message【已解决】

解决联想拯救者系列笔记本电脑无线网高频断联问题~

如何让iPhone投屏到联想小新笔记本电脑（WindowsLinux系统）？

计算机的正确配置文件,显示器颜色配置文件在win10电脑中设置正确配置的方法...

不带网口的笔记本电脑使用海康GigE工业相机

倍福--本地电脑配置EtherCAT网卡

联想笔记本键盘排线,联想笔记本原装键盘价格表 联想笔记本键盘如何更换

联想笔记本怎么找计算机放桌面,联想笔记本电脑便签在哪，笔记本电脑便签在哪里？...

计算机配置的网关,电脑的默认网关怎么设置？

查看华硕笔记本硬件信息及电脑型号的方法

计算机上的硬件开关来打开无线网络,如何打开HP笔记本电脑上的无线网络开关...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

视觉SLAM 第7讲本质矩阵基础矩阵单应矩阵知识点证明理解秩自由度

联想笔记本键盘排线,联想笔记本原装键盘价格表联想笔记本键盘如何更换

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载