用PyTorch实现图像聚类|电子爱好者

admin管理员组
文章数量:1630203

作者|Anders Ohrn 编译|VK 来源|Towards Data Science

利用深度卷积神经网络(DCNN)进行监督图像分类是一个成熟的过程。通过预训练模板模型加上微调优化，可以在许多有意义的应用中获得非常高的准确率——比如最近在医学图像上的这项研究，在日常物体图像上预训练的模板Inception v3模型对前列腺癌诊断的准确率达到了99.7%。

对于无监督的图像机器学习，目前的研究现状远没有定论。

聚类是无监督机器学习的一种形式，其中数据（本例中的图像）根据数据收集本身的某种结构进行分簇。在同一个簇中结束的图像应该比不同簇中的图像更相似。

图像数据可能是复杂的-变化的背景，视图中的多个对象-因此一对图像比另一对图像更相似意味着什么并不明显。如果没有基本的真实性标签，通常不清楚是什么使一种聚类方法优于另一种聚类方法。

一方面，无监督的问题因此比有监督的问题更加模糊。没有现成的正确答案可供优化。另一方面，从模糊的问题、假设的产生、问题的发现和修补中，最有趣的东西出现了。

我将描述一种最新的图像聚类方法的实现（https://arxiv/abs/1903.12355）。这是近年来发表的许多先进的DCNN聚类技术之一。

我使用PyTorch库来演示如何实现这个方法，并在整个文本中提供了几个详细的代码片段。仓库中提供完整的代码：https://github/anderzzz/monkey_caput

在标准库中没有无监督版本的聚类方法，这点不像有监督版本，它可以很容易获得图像聚类方法，但PyTorch仍然能够平稳地实现实际上非常复杂的方法。因此，我能够探索、测试和轻微地探究DCNNs应用于聚类任务时可以做什么。

我的目标是展示如何从一些概念和方程开始，你可以使用PyTorch来得到一些可以在计算机上运行的非常具体的东西，并指导进一步的创新和修改你所拥有的任何任务

我将把这个应用到真菌的图像上。为什么是真菌？你待会儿再看。

但首先…实现VGG自编码器

在讨论聚类方法之前，我将实现一个自动编码器（AE）。AEs有各种各样的应用，包括降维，并且本身很有趣。它们在图像聚类中的作用将在以后变得更加清楚。

用PyTorch库实现基本的ae并不是那么困难（请看这两个例子）。我将实现特定的AE架构，它是SegNet方法的一部分，它建立在VGG模板卷积网络上。VGG定义了一种体系结构，最初是为监督图像分类而开发的。

AE的架构如下图所示。

图像自编码的步骤如下：

准备输入图像（左上角）
将图像输入编码器，由具有标准CNN和ReLU激活的卷积层（绿色）和最大池层（紫色）组成
得到一个低维的编码
将编码输入译码器，它由转置的卷积层（带归一化和ReLU激活）（浅绿色）和解池化层（浅紫色）加上一个没有归一化或激活的最终卷积层（黄色）
获得与输入尺寸相同的输出图像。

是时候把这个设计变成代码了。

我从创建一个编码器模块开始。第一行，包括初始化方法，如下所示：

import torch
from torch import nn
from torchvision import models

class EncoderVGG(nn.Module):
    '''
    基于vgg16体系结构的图像编码器，具有batch normalization。
    Args:
        预训练的params (bool，可选):是否应该用预训练的vGG参数填充网络,默认值为True
    '''
    channels_in = 3
    channels_code = 512

    def __init__(self, pretrained_params=True):
        super(EncoderVGG, self).__init__()

        vgg = models.vgg16_bn(pretrained=pretrained_params)
        del vgg.classifier
        del vgg.avgpool

        self.encoder = self._encodify_(vgg)

编码器的结构与VGG-16卷积网络的特征提取层结构相同。因此，PyTorch库中很容易找到该部分—PyTorch models.vgg16_bn，请参阅代码片段中的第19行。

与VGG的规范应用程序不同，编码不会被输入到分类层中。最后两层vgg.classifier以及vgg.avgpool被丢弃。

编码器的层需要一次调整。在解码器的解池层中，编码器的最大池层中的池索引必须可用，在前面的图像中虚线箭头表示。VGG -16的模板版本不生成这些索引。然而，池化层可以重新初始化。这就是EncoderVGG模块的_encodify方法完成的工作。

    def _encodify_(self, encoder):
        '''
        基于VGG模板的架构创建编码器模块列表。在编码器-解码器体系结构中，解码器中的解池操作需要来自编码器中相应池操作的池索引。在VGG模板中，这些索引不返回。因此需要使用此方法扩展池操作。
        参数:
            编码器:模板VGG模型
        返回:
            模块:定义与VGG模型对应的编码器的模块列表
        '''
        modules = nn.ModuleList()
        for module in encoder.features:
            if isinstance(module, nn.MaxPool2d):
                module_add = nn.MaxPool2d(kernel_size=module.kernel_size,
                                          stride=module.stride,
                                          padding=module.padding,
                                          return_indices=True)
                modules.append(module_add)
            else:
                modules.append(module)

        return modules

因为这是一个PyTorch模块（nn.Module)，通过EncoderVGG实例实现小批量图像数据的前向传播需要一个forward方法：

    def forward(self, x):
        '''将图像输入encoder
        Args:
            x (Tensor): 图片tensor
        Returns:
            x_code (Tensor): 编码 tensor
            pool_indices (list): 池索引张量
        '''
        pool_indices = []
        x_current = x
        for module_encode in self.encoder:
            output = module_encode(x_current)

            # 如果模块是池，有两个输出，第二个是池索引
            if isinstance(output, tuple) and len(output) == 2:
                x_current = output[0]
                pool_indices.append(output[1])
            else:
                x_current = output

        return x_current, pool_indices

该方法按顺序执行编码器中的每个层，并在创建池索引时收集它们。在执行编码器模块之后，代码与池索引的有序集合一起返回。

接下来是解码器。

它是VGG-16网络的“转置”版本。我使用引号是因为解码器层看起来很像反向的编码器，但严格地说，它不是反转或转置。

译码器模块的初始化：

class DecoderVGG(nn.Module):
    '''译码器的代码基于vgg16体系结构与batch normalization。
    Args:
        encoder: ' EncoderVGG '的编码器实例，它将被转换成一个解码器
    '''
    channels_in = EncoderVGG.channels_code
    channels_out = 3

    def __init__(self, encoder):
        super(DecoderVGG, self).__init__()

        self.decoder = self._invert_(encoder)

    def _invert_(self, encoder):
        '''将编码器反转，以将译码器创建为编码器的镜像
        译码器由两种主要类型组成:二维转置卷积和二维解池，2D卷积之后是批处理归一化和激活。
        译码器是反向的，编码器中的卷积变成了转置卷积加上归一化和激活，编码器中的maxpooling变成了unpooling。
        Args:

本文标签：图像 Pytorch

版权声明：本文标题：用PyTorch实现图像聚类内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729070275a1184961.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

用PyTorch实现图像聚类

更多相关文章

超强OCR文字识别软件 图像文字识别软件工具-独有直接屏幕截图识别功能

20款顶级的HDR图像生成工具

MyDLNote-Event : CVPR 2020 Event Enhanced High-Quality Image Recovery基于事件相机的高质量图像修复

pytorch安装和tensorflow环境搭建和cuda加速和cudann安装教程记录日期2022.10.20日，最后记录日期2023.01.12

十个最常用深度学习图像视频数据标注工具

GPU版PyTorch安装

Pytorch 中文语言模型（BertRoberta）进一步预训练（further pretrain）

【转】DICOM图像像素值（灰度值）转换为CT值

为什么某些CRDR图像打开后是反色的？

试题汇编2011年修订版计算机,图形图像处理(Photoshop平台)Photoshop CS3试题汇编: 2011版. 图像制作员级...

计算机操作员高级图形图像处理photoshopcs2试题解答,图形图像处理(Photoshop平台)Photoshop CS2试题汇编(图像制作员...

基于sift算法的图像配准、Homograph Matrix、RANSAC

图像分类的发展史

图像匹配 | 论文与方法整理

图像标注技巧_图像技巧使用户感觉比想像的要好

PyTorch 的 Autograd

格式工厂从视频中导出图像帧

图像生成发展起源：从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer

【Pytorch】Cycle GAN实战（一）：风格转换--真实风景图像转换为VanGogh风格

Ubuntu20.04安装NVIDIA驱动+cuda+cudnn+anaconda+pytorch+pycharm经验

发表评论

推荐文章

Windows环境下，添加Flutter国内镜像

深度学习的1000+篇文章总结

三个月来美国又有一万家餐馆因疫情倒闭或关闭；爱彼迎帮助在危机中的人寻找临时住宿 | 美通企业日报...

探索安全领域的新篇章：CTF Literature

批量PDF怎样转换成PPT格式

热门文章

苹果手机IAP2协议Lightning转串口uart使用说明

PyCharm Community 2021.2 安装与汉化

华为android截屏快捷键,华为手机怎么截屏快捷键是什么

ie退出全屏快捷键_讲解win7电脑全屏快捷键介绍

Terraform-Infrastructure as Code

VMware12启动虚拟机电脑蓝屏

硬盘数据恢复操作全攻略

ubuntu20.04截图快捷键

Kimi.ai与ChatGPT：长文本理解与科研辅助的比较研究

5月已更新PS2021m1直装版！Photoshop2021 Mac真正完美适配M1芯片！完美解决2019黑屏闪退卡启动界面等所有问题！

最新文章

电脑——如何配置一台电脑

dos命令查看电脑配置

如何查计算机配件的配置,如何查看电脑配置信息？教你四种方法

影视处理计算机配置,影视后期制作电脑配置需要什么

在线查看计算机配置,怎样查看电脑配置信息？

Python--获取电脑配置信息--完整代码及过程

怎样配置炒股用的计算机,炒股专用电脑配置

如何查看ArcGIS Pro对电脑配置要求

查询计算机的配置命令是什么,查看电脑配置指令大全

如何用控制面板打开计算机配置,如何查看电脑的配置？学会下面几种方法，你就可以自己看电脑配置...

CMD查看电脑配置

电脑管家如何查看计算机配置,腾讯电脑管家怎么查看电脑硬件配置？

win7查看计算机的配置,win7系统查看电脑配置的方法

ubuntu查看电脑配置信息

查看计算机软件配置,最齐全的查看电脑配置指令集锦 查看电脑配置软件推荐【图文】...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

超强OCR文字识别软件图像文字识别软件工具-独有直接屏幕截图识别功能

查看计算机软件配置,最齐全的查看电脑配置指令集锦查看电脑配置软件推荐【图文】...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载