admin管理员组

文章数量:1660122

使用基于Linux的文件系统进行重复数据删除

 Anantha Krishnan PTA二月152019

  

重复数据删除是一种专用技术,用于压缩数据和删除重复数据的副本。它在当今快速生成大量数据的世界中起着重要作用,因为它有助于节省资源,能源和成本。本文介绍了基于Linux的文件系统Lessfs如何用于重复数据删除。

在不同位置存在相同文件的副本会造成各种管理问题。涉及简单存储系统的主要问题之一是数据复制。大多数系统中的存储空间可用性被相同文件的副本耗尽。例如,当从不同的聊天室接收或转发给不同的人时,WhatsApp Messenger应用程序会保存同一图像的不同副本。这样可以减少设备上的可用空间。这就是重复数据删除的地方。

重复数据删除是一种数据压缩技术,用于消除冗余数据并减少已启用的存储卷上的已用空间。卷可以指磁盘设备,分区或一组磁盘设备集-都表示为单个设备。在此过程中,将删除冗余数据,并将数据的单个副本存储在存储卷上。

重复数据删除的必要性和优点

重复数据删除的主要重点是指出相同的大数据部分(可以包括整个文件或大文件部分),并且仅存储该数据的一个副本。其他好处包括:

  • 降低存储设备成本
  • 降低能源成本
  • 冷却需求减少

数据重复数据删除有两种类型:后处理重复数据删除和内联重复数据删除。

处理后重复数据删除:在此方法中,重复数据删除过程在存储数据之后开始。存储文件后,程序将检查整个文件系统中是否存在重复数据,并确保仅存在一个副本。当可用空间已经很小时并且在执行重复数据删除过程之前不允许保存文件的多个副本时,此方法会出现问题。另一方面,此方法不会影响存储过程的速度或性能。

内联重复数据删除:在这种方法中,重复数据删除是实时运行的。因此,需要较少的存储空间。但是,由于重复数据删除过程随数据进入而运行,因此会影响存储速度,因为会检查传入的数据以识别冗余副本。

Linux中的重复数据删除

Linux中的重复数据删除负担得起,并且所需的硬件更少。在某些情况下,该解决方案在块级别可用,并且只能与数据块的冗余数据流(而不是单个文件)一起使用,因为逻辑无法通过许多协议(例如SCSISAS光纤通道和甚至SATA

我们在这里讨论的文件系统是Lessfs-块级重复数据删除和启用FUSELinux文件系统。FUSE是在类似UNIX的操作系统上看到的内核模块,它使用户无需触摸内核代码即可创建自己的文件系统。为了使用这些文件系统,必须在系统上安装FUSE。大多数操作系统(如UbuntuFedora)都已预先安装了支持ntfs-3g文件系统的模块。

关于LessfsPermabit(最近被Red Hat收购)

Lessfs是为Linux编写的高性能内联重复数据删除文件系统。它还支持LZOQuickLZBZip压缩。

虽然Lessfs是开源的,但Permabit提供的解决方案直到最近被Red Hat收购才可用。Albeiro是开源块级重复数据删除软件,由Permabit2010年推出,可作为SDK使用。

Lessfs详细

Lessfs旨在通过仅存储一个块并使用指向原始块的指针进行复制来减少文件系统块相同的磁盘使用。这种存储方法在企业解决方案中变得越来越流行,特别是用于减少磁盘备份和最大程度地减少虚拟机存储。

它首先使用LZOQUICKLZ压缩来压缩块,并结合使用这些方法,从而获得更高的压缩率。

设置和安装

首先,确保所有要求都已安装。这些是:

  • mhash
  • tokyocabinet
  • 保险丝

转到http://sourceforge/projects/mhash/files/mhash下载最新版本的mhash。然后,下载,构建和安装该软件包。

/*

 

$ tar xvzf mhash-0.X.X.X.tar.gz

 

$ cd mhash-0.9.9.9/

 

$ ./configure

 

$ make

 

$ sudo make install

 

*/

东京内阁是Lessfs依赖的主要数据库。要构建Tokyo Cabinet,您需要已经安装了zlib1g-devlibbz2-dev

http://sourceforge/projects/fuse下载并安装FUSE 。现在,从http://sourceforge/projects/lessfs/files/lessfs下载最新版本的Lessfs 

在开始使用Lessfs之前,我们需要做一些事情。转到Lessfs源目录中的/ etc子目录。将在那里找到的Lessfs 配置文件复制到系统的/ etc子目录中。

sudo cp etc/lessfs.cfg /etc/

有关文档,请参阅SourceForge Lessfs页面,该页面写得很好,任何用户都可以理解。

记过

即使在大文件和小空间的情况下,Lessfs提供了快速的压缩和重复数据删除功能,但在其他情况下,事实证明它的速度很慢。而且,尽管从理论上令人印象深刻,但它提供的数据安全性已被证明不如IBMProtecTierSepatonDeltaStor提供的解决方案有效。

 

本文标签: 文件系统数据Linux