admin管理员组

文章数量:1665213

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

🧿 元宇宙登上最新一期『时代』杂志封面:即将改变世界

https://time/6197849/metaverse-future-matthew-ball/

从大型机、PC互联网到移动互联网、云计算,技术和平台的演变深刻地影响了世界。元宇宙会是下一个时代么?自 Facebook 更名 Meta 正式进军元宇宙后,其他科技巨头——亚马逊、苹果、谷歌、微软、英伟达、腾讯——正通过重组并购等为元宇宙产品的发布做着准备。投资界也动作频频,今年前5个月相关的投资已高达1200亿美元。虽然还没有成熟的产品问世,但是教育、医学、游戏等领域已经在悄然发生改变,而我们期待这个世界会变得更好。

原文选自作者 Matthew Ball 新书《The Metaverse: And How it Will Revolutionize Everything》,感兴趣的同学可以找来一读。

工具&框架

🚧 『DeepFit』健身时的人体姿态跟踪

https://github/namanarora42/DeepFit

DeepFit 可以在锻炼过程中跟踪身体的运动,有助于查看和纠正姿势,充当随叫随到的数字『健身教练』!项目使用 MediaPipe 框架的姿势检测 API,实现了一个 wrapper(包装器),完成『关键点检测』『姿势分类』『姿势矫正』三项任务。下图显示了 MediaPipe 的 Pose Landmark 模型提供的关键识别点。

🚧 『MTMT』用 Transformer 模型合成多轨音乐

https://github/salu133445/mtmt

用 Transformer 生成多轨音乐(Multitrack Music Transformer,MTMT),已有的方法只限于小部分乐器或者较短的音乐片段,因为现有的多轨音乐表示方法需要冗长的输入序列,而这对内存有很高的要求。作者在 论文 中提出了一个紧凑的表示方法,可以使更多类型的乐器参与训练,并同时保持较短的序列长度。Repo 为论文的实现代码,提供的 Demo 网址有很多不错的合成示例!可以去听听看~

🚧 『Open Text to Speech Server』开源的多语言文本语音合成服务器

https://github/synesthesiam/opentts

opentts(Open Text to Speech Server)把多个开源文本转语音系统和多种语言声音源集成到一个平台上,方便设置与因应用,形成功能强大的文本转语音统一平台系统。

🚧 『Decompiler Explorer』反编译 / 静态分析的资源管理器

https://github/decompiler-explorer/decompiler-explorer

Decompiler Explorer(反编译器资源管理器)是众多 decompiler(反编译器)的一个 web 前端,可以比较不同反编译器在.exe文件上的输出。更通俗一点说,它与大名鼎鼎的 Compiler Explorer 作用正相反。

🚧 『Holmes』基于谓词逻辑的英德文本信息提取

https://github/explosion/holmes-extractor

Holmes 一个用于信息提取的 Python 3 库,运行在 spaCy 之上。Holmes 可以分析英语和德语句子组成部分所表达的语义关系,支持『聊天机器人』、『结构提取』、『主题匹配』、『监督文档分类』等场景。Holmes 可以对前三者做到开箱即用,对最后一种场景通常仍需要相对较少的训练数据。项目页面内容非常丰富,并在底部提供了 Demo 页面。

博文&分享

👍 『ProbAI 2022』2022 北欧 · 概率人工智能夏令营学习资料

https://github/probabilisticai/probai-2022

ProbAI(Nordic Probabilistic AI School)是在北欧举办的机器学习和人工智能夏令营,面向具备知识储备的公众、学生、学术界和工业界报名者,由一个强大的讲师团提供最先进的专业知识服务。夏令营内容覆盖:概率模型、变分近似、深度生成模型、隐变量模型、标准化流、神经网络常微分方程、概率编程等等。官方公布了5天夏令营的学习资料(Slides、Material、Notebook等),感兴趣的小伙伴可以前往公众号(ShowMeAI研究中心)回复『日报』获取~

👍 『深度学习』应用与实战书籍推荐

https://shepherd/best-books/applied-deep-learning

本文作者 Jakub Langr 具备丰富的机器学习领域实践和授课经验,推荐了5本适合进行深层次进阶学习的学习,并附上了推荐理由。

  • Deep Learning with Python』,由深度学习框架 Keras 的创作者所著,将内容讲解得非常易于理解,适合新手入门。
  • Deep Learning for Coders with Fastai and Pytorch: AI Applications Without a PhD』作者 Jeremy Howard 的 fast.ai 实战课可谓全球知名。本书以 fast.ai 课程为基础,侧重实战,学完就能掌握自己的项目!
  • How to Measure Anything: Finding the Value of Intangibles in Business』并非技术书籍,但阐述了机器学习的应用场景,也加入了作者的很多深刻思考。
  • Deep Learning』真正的学术王者!作者 Ian Goodfellow 等将基本原理讲得严谨且清晰,也因此备受好评。因为封面被昵称为『花书』。
  • Grokking Deep Learning』可以帮你在坚实、实用的基础上提出新的调整或模型类型,理清被卡住的环节。这是一本真正带你直观了解深度学习的好书。

👍 『Kaggle Happywhale』比赛第1名解决方案

比赛地址:https://www.kaggle/competitions/happy-whale-and-dolphin/overview

解决方案:http://github/tyamaguchi17/kaggle-happywhale-1st-place-solution-charmq

研究人员通过尾巴、背鳍、头部和其他身体部位的形状和标记等,手动追踪海洋生物。但是人眼手动匹配的工作过于耗时且准确率不稳定。本次比赛的任务是开发一个模型,通过独特且微妙的自然特征来匹配个体鲸鱼和海豚。比赛第一名将方案进行了公开。

数据&资源

🔥 『Awesome Long Tailed Learning』长尾学习相关文献列表

https://github/Vanint/Awesome-LongTailed-Learning

研究&论文

可以点击 这里 回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.14 『计算机视觉』 Towards Grand Unification of Object Tracking
  • 2022.07.13 『机器学习』 Masked Autoencoders that Listen
  • 2022.07.13 『计算机视觉』 Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras
  • 2022.04.13 『计算机视觉』 Towards Metrical Reconstruction of Human Faces

⚡ 论文:Towards Grand Unification of Object Tracking

论文时间:14 Jul 2022

所属领域计算机视觉

对应任务:Multi-Object Tracking,Multi-Object Tracking and Segmentation,Multiple Object Tracking,Object Tracking,Visual Object Tracking,多对象追踪,多对象追踪和分割,多对象追踪,对象追踪,视觉对象追踪

论文地址:https://arxiv/abs/2207.07078

代码实现:https://github/masterbin-iiau/unicorn

论文作者:Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, Huchuan Lu

论文简介:We present a unified method, termed Unicorn, that can simultaneously solve four tracking problems (SOT, MOT, VOS, MOTS) with a single network using the same model parameters./我们提出了一种统一的方法,称为 “Unicorn”,它可以用一个网络使用相同的模型参数同时解决四个跟踪问题(SOT、MOT、VOS、MOTS)。

论文摘要:我们提出了一种统一的方法,称为 “Unicorn”,它可以用一个网络使用相同的模型参数同时解决四个跟踪问题(SOT、MOT、VOS、MOTS)。由于物体跟踪问题本身的定义比较零散,现有的大多数跟踪器都是为解决单一或部分任务而开发的,并且过度专注于特定任务的特征。相比之下,Unicorn提供了一个统一的解决方案,在所有跟踪任务中采用相同的输入、骨干、嵌入和头部。我们第一次完成了跟踪网络架构和学习范式的大统一。Unicorn在8个跟踪数据集中的表现与其特定任务的对应方相当或更好,包括LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20和BDD100K MOTS。我们相信,Unicorn将作为迈向通用视觉模型的坚实一步。代码可在https://github/MasterBin-IIAU/Unicorn获取。

⚡ 论文:Masked Autoencoders that Listen

论文时间:13 Jul 2022

所属领域机器学习

对应任务:Representation Learning,表征学习

论文地址:https://arxiv/abs/2207.06405

代码实现:https://github/facebookresearch/audiomae

论文作者:Po-Yao, Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer

论文简介:Following the Transformer encoder-decoder design in MAE, our Audio-MAE first encodes audio spectrogram patches with a high masking ratio, feeding only the non-masked tokens through encoder layers./遵循MAE中的Transformer编码器-解码器设计,我们的Audio-MAE首先对具有高掩蔽率的音频频谱patche进行编码,只将非掩蔽的标记送入编码器层。

论文摘要:本文论文摘要:研究了基于图像的屏蔽自动编码器(MAE)的一个简单扩展,即从音频谱图中进行自监督的表示学习。遵循MAE中的Transformer编码器-解码器设计,我们的Audio-MAE首先对具有高遮蔽率的音频频谱图patches进行编码,只将非遮蔽的标记通过编码器层输入。然后,解码器对填充了掩码标记的编码上下文进行重新排序和解码,以重建输入的频谱图。我们发现在解码器中加入局部窗口注意是有益的,因为音频频谱在局部时间和频段上是高度相关的。然后,我们在目标数据集上用较低的掩蔽率对编码器进行微调。根据经验,Audio-MAE在六个音频和语音分类任务上创造了新的最先进的性能,超过了最近其他使用外部监督预训练的模型。代码和模型将在 https://github/facebookresearch/AudioMAE 发布。

⚡ 论文:Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras

论文时间:13 Jul 2022

所属领域计算机视觉

对应任务:Camera Localization,相机定位

论文地址:https://arxiv/abs/2207.06058

代码实现:https://github/peterfws/structure-plp-slam

论文作者:Fangwen Shu, Jiaxuan Wang, Alain Pagani, Didier Stricker

论文简介:This paper demonstrates a visual SLAM system that utilizes point and line cloud for robust camera localization, simultaneously, with an embedded piece-wise planar reconstruction (PPR) module which in all provides a structural map./本文展示了一个视觉SLAM系统,该系统利用点和线云进行稳健的相机定位,同时还嵌入了一个片断式平面重建(PPR)模块,该模块总体上提供了一个结构图。

论文摘要:本文展示了一个视觉SLAM系统,该系统利用点和线云进行稳健的相机定位,同时嵌入了一个片状平面重建(PPR)模块,该模块可提供一个结构图。在跟踪的同时建立一个尺度一致的地图,例如采用单相机,带来了重建具有尺度模糊性的几何基元的挑战,并进一步引入了捆绑调整(BA)的图形优化困难。我们通过对重建的线和平面提出一些运行时的优化来解决这些问题。然后,该系统在单眼框架设计的基础上扩展了深度和立体传感器。结果表明,我们提出的SLAM紧密结合了语义特征,以促进前端跟踪和后端优化。我们在各种数据集上详尽地评估了我们的系统,并开放了我们的代码 https://github/PeterFWS/Structure-PLP-SLAM 。

⚡ 论文:Towards Metrical Reconstruction of Human Faces

论文时间:13 Apr 2022

所属领域机器人

对应任务:3D Face Reconstruction,Face Recognition,Face Reconstruction,三维面部重建,面部识别,面部重建

论文地址:https://arxiv/abs/2204.06607

代码实现:https://github/Zielon/MICA

论文作者:Wojciech Zielonka, Timo Bolkart, Justus Thies

论文简介:To this end, we take advantage of a face recognition network pretrained on a large-scale 2D image dataset, which provides distinct features for different faces and is robust to expression, illumination, and camera changes./为此,我们利用了在大规模二维图像数据集上预训练的人脸识别网络,它为不同的人脸提供了不同的特征,并且对表情、光照和相机的变化具有鲁棒性。

论文摘要:人脸重建和跟踪是AR/VR、人机交互以及医疗应用中众多应用的一个组成部分。这些应用中的大多数都依赖于对形状的正确预测,特别是当重建的主体被放到一个计量环境中时(即,当有一个已知尺寸的参考物体时)。任何测量主体的距离和尺寸的应用(例如,几乎适合眼镜框)也需要计量性的重建。目前最先进的从单一图像重建人脸的方法是以自监督的方式对大型二维图像数据集进行训练。然而,由于透视投影的性质,它们无法重建实际的脸部尺寸,甚至预测人类的平均脸部也比其中一些方法在度量上要好。为了学习人脸的实际形状,我们主张采用有监督的训练方案。由于没有大规模的三维数据集来完成这项任务,我们对中小型数据库进行了注释和统一。统一后的数据集仍然是一个中等规模的数据集,有2千多个身份,直接训练会导致过度拟合。为此,我们利用了一个在大规模二维图像数据集上预训练的人脸识别网络,它为不同的人脸提供了不同的特征,并且对表情、光照和相机的变化具有鲁棒性。利用这些特征,我们以监督的方式训练我们的人脸形状估计器,继承人脸识别网络的鲁棒性和通用性。我们的方法,我们称之为MICA(MetrIC fAce),在目前的非度量基准和我们的度量基准上,都比最先进的重建方法有很大的优势(在NoW上,平均误差分别降低15%和24%)。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

  • 作者:韩信子@ShowMeAI
  • 历史文章列表
  • 专题合辑&电子月刊
  • 声明:版权所有,转载请联系平台与作者并注明出处
  • 欢迎回复,拜托点赞,留言推荐中有价值的文章、工具或建议,我们都会尽快回复哒~

本文标签: 北欧让我人工智能夏令营大公开