从服务器下载大文件的最好方法是？_技术解析_文章

新闻资讯

热门标签

从服务器下载大文件的最好方法是？

0次

2021-07-09 17:40:51

idczone

之前在 aliyun 租了个 vps 做爬虫，现在爬虫完成后大概获得了 15G 的数据（已压缩）

这边网络最多 1MBps ，估计要下载很长时间，网上有人提到了 scp ，但是好像不能断点续传。现在服务器上什么也没有(ftp/http 服务器)。请问有什么比较好的方法把数据拖下来呢？
rsync --partial

迅雷。。。

迅雷+1

Yun or apt install nginx

yum

bypy 上传，百度的数据还不是都交给国家，没什么不放心的
另外用 filezilla 可以 sftp ，但是触发流量识别从此 vps 被消失的可能性很大

bypy 上传到百度云

装个 bypy ，上传到百度云，然后再下载。

迅雷

跟风了，连 ftp 和 http 都没有那就没有肯定不能用迅雷了。

lrzsz
....其实还是 scp

起 web 服务， aria2 下

然而学校很奇怪的是百度云大概只有 200K 左右速度

可以冲个会员试一下

一键开启 http ：
python -m SimpleHTTPServer
php -S localhost:8080
一键开启 ftp:
python -m pyftpdlib pyftpdlib
另外， rsync 比 scp 快得多，适合传输大量文件，而且支持增量传输。
三种方法楼主选择。。。

多谢，我用 ruby 也能很方便地建服务器，之前忘了这一点了。已经压缩后的单个文件其实各种方法都速度差不了多少。

弄个 nginx 然后 ip + 地址访问下载了。好像是多个线程下载的。

找到了这个：
https://ruby-china.org/topics/10379

大文件还是用 7z 分一下卷吧，一个文件 512M ，不管用啥方法下载，保险系数都大得多。。。。

bypy 配合 bcloud 客户端

我试过迅雷可以超过 1M 宽带。不知道为什么

。。我以为你阿里云 1m 宽带。。。当我没说。

bypy 这东西必须需要申请 PCS API ，请问现在在哪里申请？百度那东西老改版根本找不到地方了

初次使用 bypy 程序会提示的吧...会给个链接然后浏览器进去就能拿到 token 我记得一个月前还试了一次

………………架个 Nginx ，直接 aria2c -c -x15 -s 15 拖下来

压缩了就不好用 rsync 了... rsync 适合大量小文件...

vps 不差空间的话，那就分成很多小卷，再用 rsync 拖。
btsync 也可以试试。。假若可能通讯的话。

可以用 SFTP ，支持断点续传，用 WinSCP ， SSH 登录就行，默认应该是 100kb 以上文件启用断点续传，不过建议还是设置为所有文件

我都是用 Nginx+IDM 开 32 个线程下载的。。。。就算是美国 VPS 也能跑满百兆带宽。。。

往阿里云上传数据不限速，但是从阿里云下载速度就会限速了（阿里云服务器的带宽限制）
最快的方法是通过内网传到阿里云 oss 上（内网不限速），然后你在从 oss 上下载（受你带宽限制）

bypy 自带一个，可以用的

xftp

都闪开，用 UDP 才是王道
tsunami-udp
tsunami-udp 是一款专为网络加速诞生的小工具。思路很简单，使用 TCP 进行传输控制、用 UDP 进行数据传输。
这样可以无状态的进行数据传输，然后中间加一些文件校验和重传机制，达到加速传输的目的。
传统的 tcp 传统，基于长连接，很容易受网络波动的影响。特别是网络拥塞的情况下，只能通过多进程 /线程来进行有序传输。
https://github.com/cheetahmobile/tsunami-udp/wiki

udt
UDT is a reliable UDP based application level data transport protocol for distributed data intensive applications over wide area high-speed networks. UDT uses UDP to transfer bulk data with its own reliability control and congestion control mechanisms. The new protocol can transfer data at a much higher speed than TCP does. UDT is also a highly configurable framework that can accommodate various congestion control algorithms. (Presentation: PPT 450KB / Poster: PDF 435KB )
http://udt.sourceforge.net/

晚上快 12 点的时候提升临时带宽到 100M ，瞬间下完

叫阿里云的人打包刻录光盘或者 U 盘，然后快递

https://github.com/oott123/bpcs_uploader
对大文件比 bypy 要稍好…（因为直接调用 curl 命令行
还内置一个 key …

去网吧下载比较快

所以我就不能理解 1m 的带宽这主机怎么用啊...
同等价格的 bandwagon 服务比阿里云好多了啊。

终于有人说 UDT 了喵('・ω・')

bypy 可以直接用啊，为啥大家都觉得它要 key ？

曾经下过 10 多个 G 的数据库, 由于服务器在国外非常的悲催各种断, winscp 不靠谱, 因为文件大了之后, 断线之后他会找不到北,
最后的解决办法是搭建一个 http 服务器, 然后挂迅雷

搭个 http 服务器，然后用 aria2c axel 这些支持多线程，支持断点续传的工具下载，我从 linode 下载大文件，都可以跑满我本地带宽。

嗯这个靠谱！ aria2 才是神器！

bpcs_uploader 也可以直接用啊，还不用一个月更新一次

开 http ，随便一款可断点续传的下载工具拖吧，私有数据，反正迅雷也加不了多少速度。

有没有比较给力的 bypy

pip install bypy ，一直都是直接用的

恩恩

速度的话还行吧我 10M 企业带宽、上传一个 110M 的文件花了 50s

rsync 或者 scp

这个会不会有影响

搭个 http/ftp server, wget -c

我怎么想到了[丧心病狂]这个词... 32 个线程, 郭佳也不管管么

wget -c

syncy 支持多线程

和学校似乎没关系，百度云开始限速了

就像楼上说的，搭建简单 HTTP ，用百度云去下载，然后你再从百度云下载回来，既可以断点续传，也永久保留了，何乐而不为。

axel -n 100 "url"!!!100 个妥妥的

恩恩我试试

什么叫用百度云去下载

配置个 Nginx 然后用迅雷下载.

apt-get install nginx
cp xxx.tar.gz /var/www/html

百度云盘离线下载 http://pan.baidu.com/

为什么你们不直接开个 http 端口给百度云下载呢?怕被别人下载了？

我比较好奇爬什么数据，啊哈哈。

windows 下面

限制出口带宽，什么工具都没用。

开迅雷 VIP ，秒下，速度很快， VIP 也不贵， TB 也可以买到，只要几块而已。

压缩成多个文件不靠谱，中间一个文件错误了全部都解不开。还是搭建一个ｗｅｂ服务，然后再爬回来本地。顺便把地址告诉大家分享一下。

aria2 +1

上传到 oss 在下载吧

然后变 SYN Flood 了

1m 是阿里云的外网速度吧？
如果是这样，你临时开一个阿里云的按流量计费的 100m 带宽的 vps ，从内网把数据先传过去（这个应该是千兆的），然后用任何下载工具都可以在半小时内搞定

因为要爬京东的书籍，所以国外的 vps 延时太大只能用国内的

反正没人看我博客，占满带宽也没啥。。。

免费电话： 023-63086558

免费电话：
023-63086558