Linux大文件传输(转)

摘要:
我们经常需要在机器之间传输文件。压缩数据被发送到另一台机器以验证数据解压缩的正确性。这将非常有效。在数据压缩之后,可以更有效地使用带宽。使用ZIP+SCP,我们可以通过ZIP+SCP的组合来实现此功能。它通过ssh传输到yankay01的机器。平均吞吐量为24.7MB/s。我们将发现Scp也具有压缩功能。使用此算法可以比默认情况快得多。
我们经常需要在机器之间传输文件。比如备份,复制数据等等。这个是很常见,也是很简单的。用scp或者rsync就能很好的完成任务。但是如果文件很大,需要占用一些传输时间的时候,怎样又快又好地完成任务就很重要了。在我的测试用例中,一个最佳的方案比最差的方案,性能提高了10倍。

复制文件

如果我们是复制一个未压缩的文件。这里走如下步骤:
  1. 压缩数据
  2. 发送到另外一台机器上
  3. 数据解压缩
  4. 校验正确性
这样做会很有效率,数据压缩后可以更有效的利用带宽

使用ZIP+SCP

我们可以通过ZIP+SCP的组合实现这个功能。
gzip -c /home/yankay/data | ssh yankay01 "gunzip -c - > /home/yankay/data"

这条命令是将/home/yankay/data经过GZIP压缩,通过ssh传输到yankay01的机器上。

data文件的大小是1.1GB,经过Zip压缩后是183MB,执行上面的命令需要45.6s。平均吞吐量为24.7MB/s
我们会发现Scp也有压缩功能,所以上面的语句可以写成
scp -C -c blowfish /home/yankay/data yankay01:/home/yankay/data

这样运行效果是相同的,不通之处在于我使用了blowfish算法作为Scp的密匙算法,使用这个算法可以比默认的情况快很多。单单对与scp,使用了blowfish 吞吐量是62MB/s,不使用只有46MB/s。

可是我执行上面一条命令的时候,发现还是需要45s。平均吞吐量还为24MB/s。没有丝毫的提升,可见瓶颈不在网络上。
那瓶颈在哪里呢?

性能分析

我们先定义几个变量

  • 压缩工具的压缩比是 CompressRadio
  • 压缩工具的压缩吞吐是CompressSpeed MB/s
  • 网络传输的吞吐是 NetSpeed MB/s

由于使用了管道,管道的性能取决于管道中最慢的部分的性能,所以整体的性能是:

speed=min(NetSpeed/CompressRadio,CompressSpeed)

当压缩吞吐较网络传输慢的时候,压缩是瓶颈;但网络较慢的时候,网络传输/吞吐 是瓶颈。

根据现有的测试数据(纯文本),可以得到表格:

 压缩比吞吐量千兆网卡(100MB/s)吞吐量千兆网卡吞吐量,基于ssh(62MB/s)百兆网卡(10MB/s)吞吐量
ZLIB35.80%9.69.69.69.6
LZO54.40%101.7101.7101.718.38235294
LIBLZF54.60%134.3134.3113.553113618.31501832
QUICKLZ54.90%183.4182.1493625112.932604718.21493625
FASTLZ56.20%134.4134.4110.320284717.79359431
SNAPPY59.80%189167.2240803103.678929816.72240803
NONE100%3001006210

可以看出来。在千兆网卡下,使用QuickLZ作为压缩算法,可以达到最高的性能。如果使用SSH作为数据传输通道,则远远没有达到网卡可以达到的最佳性能。在百兆网卡的情况下,各个算法相近。对比下来QuickLZ是有优势的。

对于不同的数据和不同的机器,可以得出不同的最佳压缩算法。但有一点是肯定的,尽量把瓶颈压在网络上。对于较慢的网络环境,高压缩比的算法会比较有优势;相反对于较快的网络环境,低压缩比的算法会更好。

结论

根据上面的分析结果,我们不能是用SSH作为网络传输通道,可以使用NC这个基本网络工具,提高性能。同时使用qpress作为压缩算法。

scp /usr/bin/qpress yankay01:/usr/bin/qpress
ssh yankay01 "nc -l 12345 |  qpress -dio > /home/yankay/data" &
qpress -o /home/yankay/data |nc yankay01 12345

第一行是将gpress安装到远程机器上,第二行在远程机器上使用nc监听一个端口,第三行压缩并传送数据。

执行上面的命令需要2.8s。平均吞吐量为402MB/s,比使用Gzip+Scp快了16倍!!

根据上文的公式,和自己的数据,可以绘出上面的表格,就可以选择出最适合的压缩算法和传输方式。达到满意的效果。如果是一个长期运行的脚本的话,这么做是值得的。

免责声明:文章转载自《Linux大文件传输(转)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇从零开始写操作系统(基于XV6):echo重写与并发进程控制功能构思SpringBoot后台接收File文件下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

sqlite报SQLITE_LOCKED "Database table is locked"

今天调了一天程序,最后远程的ORACLE都好,做下压力测试.惊奇的发现SQLITE报错.. 说什么数据表锁了..... 结果调到了现在...很是郁闷. 情况如下: 每个线程打开自己的SQLITE连接.线程间不混用. 1 if (sqlite3_open_v2(strdb, \ 2 db, \ 3...

bat 批处理之提取带有关键字的整行数据

用于在log中检索出insert sql语句,主要用于数据恢复 前言: a.txt 里面存放的是 需要查找的关键字 b.bat limian 存放的是执行程序 生成的文件存放在 c.txt(自动创建)中 a.txt 与 b.bat 同级,同时与查找文件同级 b.bat具体内容如下:( 16.log 与17.log 是需要检索的文件,空格隔开) @echo...

使用虚拟机运行Ubuntu时,主机与宿主机共享文件的方法。

简介: 首先设置虚拟机: 虚拟机 -> 设置-> Hardware -> Network Adapter,在网络连接处设置为 “桥接:直接连接到物理网络”,“NAT:使用已共享的主机IP地址”处打勾。 再设置好ubuntu网络IP地址 Ping测试,看能否Ping通,在“系统->系统管理”下点击"网络工具" 如果能ping通...

React-Native性能优化点

shouldComponentUpdate 确保组件在渲染之后不需要再更新的,即静态组件,尽量在其中增加shouldComponentUpdate方法,防止二次消耗所产生的性能消耗 shouldComponentUpdate() { //完全静态的组件,无需更新 return false; } key key是react的一个特殊的属性...

某数据库管理软件离线注册分析

序列号  libcc.dll sub_1818810F0 4x4=16字节 通过10个字节的数据来生成的。 1. data[0] 和 data[1]必须分别为 `0x68` 和 `0x2A`。这两个字节为Navicat的标志数。 2. data[2]、data[3]和 data[4]可以是任意字节,你想设成什么都行。 3. data[5]和 data[6]...

FTP协议的粗浅学习--利用wireshark抓包分析相关tcp连接

FTP相关文章: Linux上的ftp服务器 vsftpd 之配置满天飞--设置匿名用户访问(不弹出用户名密码框)以及其他用户可正常上传 ftp服务器Serv-U 设置允许自动创建不存在的目录     一、为什么写这个 昨天遇到个ftp相关的问题,关于ftp匿名访问的。花费了大量的脑细胞后,终于搞定了服务端的配置,现在客户端可以像下图一样,直接在浏览器输...