admin管理员组

文章数量:1593971

名词解释

        多模态学习:每一种信息的来源或者形式,都可以称为一种模态;多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力;比较热门的研究方向是图像、视频、音频、语义之间的多模态学习

        图像标记:用词语对图像中不同内容进行多维度表述

        图像描述:把一幅图片翻译为一段描述文字获取图像的标记词语理解图像标记之间的关系
生成人类可读的句子

        词向量模型:Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型
通过词的上下文得到词的向量化表示,使得语义上相似的单词在向量空间内距离也很近
来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》
有两种方法:CBOW(通过附近词预测中心词)和SKIp-gram(通过中心词预测附近的词)

        结构loss

图像建模的结构化损失图像到图像的转换问题通常被表述为逐像素分类或回归。这些公式将输出空间视为“非结构化”,因为在给定输入图像的情况下,每个输出像素都被认为有条件地独立于所有其他像素。有条件的gan相反地学习一个结构损失,结构损失惩罚输出的联合配置。

Structured losses for image modeling Image-to-image translation problems are often formulated as per-pixel classification or regression. These formulations treat the output space as "unstructured" in the sense that each output pixel is considered conditionally independent from all others given the input image. Conditional GANs instead learn a structured loss, Stryctured losses penalize the joint configuration of the output. 

        unet

         基于经典的Encoder-decoder结构在很多图像翻译任务中,输出和输出图像外观看起来不同,但结构信息是相同的在Encode过程中,feature map的尺寸不断减小,低级特征将会丢失
在第1层与第n-i层间加入skip-connection,把i层的特征直接传到第n-i层

        patchgan

PatchGAN像素级的1 loss能很好的捕捉到图像中的低频信息,GAN的判别器只需要关注高频信息把图像切成N"N的patch,其中N显著小于图像尺寸假设在大于N时,像素之间是相互独立的,从而可以把图像建模成马尔科夫随机场把判别器在所有patch上的推断结果,求平均来作为最终输出可以把PatchGAN理解为对图像纹理/style损失的计算PatchGAN具有较少的参数,运行得更快,并且可以应用于任意大的图像

前置知识

1.数字图像:

        有什么用:最早海底电缆传输图像,数字图像可以加快传输

                          

        是什么:用矩阵表示图像

        怎么形成数字图像:   物体发送电磁波被设备接收形成数字图像

        例子:x射线成像

                        人体密度高的地方(骨头)对x射线吸收多 吸收的能量多,就发白

                        人体密度低的地方,x射线直接穿透,就发黑

                紫外线波段 成像

                         展示细胞

                可见光波段成像:物体反射可见光进入人眼

        数字图像的任务

输入/输出 图像 知识
图像 数字图像处理 计算机视觉
知识 计算图形学 人工智能

2.图像处理,机器视觉,人工智能关系

        图像处理的输出还是图像

        机器视觉包括图像处理,目标是理解图像

        人工智能  实现机器视觉理解图像的目标

 3.opencv c实现提供python接口的计算机视觉工具包       

4.图像属性

             图像格式

                        bmp,tiff原图

                        gif可静可动

           图像尺寸:表征图像的长宽

           像素:像素=细胞 每个像素有个强度值(对应能量的强度值)

  5.图像直方图

          统计不同像素亮度的直方图,左侧为黑的点,右侧为亮的点

 6.颜色空间

        

 

 7.opencv画图

 

 

 

 8.图像的缩放

        下采样:缩小图像

        上采样:放大图像

计算机视觉背景知识

模型结构设计:

        1.堆积使用小卷积核(3*3卷积)

        2.分辨率减半,通道数加倍

        3.卷积分解:7*7卷积用3*3卷积代替

                            非对称卷积 n*n 卷积 = 1*n卷积+n*1卷积 这个在网络后半段效果比较好

        4.辅助分类层:

                是什么?中间的特征图用于分类的结构

                有什么用?可以起正则作用,并不能提升底层的特征提取能力

                

        5.特征图下降策略

                因为池化后存在信息瓶颈,所以需要特征图下降策略

                inception采用一半卷积一半池化的方式,拼接特征图

                怎么做:选择步长为2的卷积核,可以将特征图缩小为原来一半

                

        6.标签平滑

        7.低分辨率图像分类

vgg的训练技巧:

        1.尺度扰动

        2.预训练模型初始化

vgg的测试技巧:

        多尺度测试

                dense测试

                muti-crop测试

        多模型融合

背景知识

        1.图像描述:将图像描述为一段文字,理解标记间的关系从而生成人类可读的句子

        2.多模态学习 用机器学习方法理解多模态信息

        3.表征学习    得到好的特征

                表征学习的方式 

                        有监督的表示学习

                        无监督的表示学习

  

         4.纳什均衡

         又称为非合作博弈均衡,对于一个策略组合,当其他所有人都不改变策略日没有人会改变自己的策略,则该策略组合就是一个纳什均衡又称为非合作博弈均衡,对于一个策略组合,当其他所有人都不改变策略日没有人会改变自己的策略,则该策略组合就是一个纳什均衡

        5.半监督学习

        在特征空间中位置相近的无标签样本默认和有标签样本一个标签

        6.图像翻译

        图像与图像之间以不同形式的转换。根据source domain的图像生成target domain中的对应图像,约束生成的图像和source图像的分布在某个维度上尽量一致

        7.图像质量评价(image Quality Assessme

本文标签: 小时GAN