Archive.org:互联网档案馆

摘要:
然而,Archive网站的创始人和工作团队值得我们尊敬。我认为,即使是网易本身或我们这些网易工作人员,也从未见过或备份过无数页面。档案旨在更好地包含网页和历史资料。此外,它还包括开头的网页。该网站拥有26 PB(约2700万GB)的各种数字资料。“Archive.org的网页存储界面将每小时捕获所包含网站的网页。
Archive.org:互联网档案馆
 

2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

Archive.org:互联网档案馆第1张

网站名称:Internet Archive(http://www.archive.org/index.php)

上线时间:1996年

网站地点:美国加州(San Francisco, CA)

Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如GoogleYahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

Archive.org:互联网档案馆第2张

以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。

Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

 

虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

最后,在2010年即将开始的时候,祝福所有网易科技和每日一站的网友们节日快乐!在2010年每日一站计划进行改版升级,也期待收到各位好的意见和建议(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)

 
 
Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面

而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。

同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。
 
Archive.org:互联网档案馆

2009.12.30 20:51:21    来源: 网易科技    作者:网易科技 ( 条评论 )
 
  2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。



  网站名称:Internet Archive(http://www.archive.org/index.php)

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。



  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
 
 
 

免责声明:文章转载自《Archive.org:互联网档案馆》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇oracle数据库date类型和mysql数据库datetime类型匹配记save函数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

微信小程序onLoad、onShow、onHide、onUnload区别

onLoad:页面第一次加载时触发,从跳转页面返回时不能触发,可以传递参数 onShow:页面显示或从后台跳回小程序时显示此页面时触发,从跳转页面返回时触发,不能传递参数 onHide:页面隐藏,例如使用 wx.navigateTo  只是打开新页面  并不关闭原页面 onUnload:页面被卸载,例如使用 wx.redirectTo  重定向一个页面 原...

vue 跨域请求,后端cookie session取不到

虽然后端设置了可以跨域请求,但是后台设置到cookie中的session取不到!这时候mac电脑自己设置nginx代理! mac电脑系统重装了,记录一下安装nginx的过程: 1、打开终端(cmd) 2、安装Command Line tools xcode-select --install 3、安装brew命令 1 ruby -e "$(curl ...

Spring Security中实现微信网页授权

微信公众号提供了微信支付、微信优惠券、微信H5红包、微信红包封面等等促销工具来帮助我们的应用拉新保活。但是这些福利要想正确地发放到用户的手里就必须拿到用户特定的(微信应用)微信标识openid甚至是用户的微信用户信息。如果用户在微信客户端中访问我们第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑。今天就结合Spring Se...

网络干货,无论是运维还是开发都要知道的网络知识系列之(七)

DNS介绍 DNS是什么?DNS(Domain Name System) 称为域名系统,在网站运行中器到了至关重要的作用,主要作用是负责把网站域名解析为对应的IP地址。 例如将www.etiantian.org解析为对应的IP地址记录如1.1.1.1,这个从域名到IP的解析过程,被称为A记录 设置CNAME别名记录,这个别名解析功能常被CDN加速服务...

Linux终端快速检测网站是否宕机的6个方法

方法 1:使用 fping 命令检测一个网站是否宕机 fping 命令 是一个类似 ping 的程序,使用互联网控制消息协议(ICMP)的 回应请求报文echo request 来判断目标主机是否能回应。 fping 与 ping 的不同之处在于它可以并行地 ping 任意数量的主机,也可以从一个文本文件读入主机名称。 fping 发送一个 ICMP 回应...

解决Firefox显示“已阻止载入混合活动内容”的方法

解决方法如下: 方法1:让Firefox暂时不阻止 打开新标签页,在地址栏输入 about:config,进入配置页面。 搜索 security.mixed_content.block_active_content,将true改为false。 方法2:避免在HTTPS页面中包含HTTP的内容。 第1种方法很不现实,因为我们不能要求所有用户去改这项配置。...