在线内容难逃“短命”结局:研究发现 2013 年的网页有 38% 当前已无法访问
转自:IT之家
互联网是现代生活中难以想象的巨大宝库,但即使全世界的用户每天都依赖网络来获取书籍、图片、新闻报道和其他资源,这些内容最终也有可能从人们的视线中消失。皮尤研究中心当地时间 17 日发表的研究发现,当前的在线内容仍然是“稍纵即逝”。
研究人员从 Common Crawl(IT之家注:一项互联网档案服务,定期收集网站在不同时间点的快照)的档案中随机抽样收集了大约 100 万个网页,从 2013 年到 2023 年,每年从 Common Crawl 收录的网页中抽取样本,并检查这些样本在当下是否仍然存在。
数据显示,在 2013 年存在的网页中,约有 38% 如今已不可用,而在 2023 年存在的网页中,这一比例仅为 8%。
在我们从 2013 年到 2023 年收集的所有网页中,有 25% 到 2023 年 10 月已无法访问。这些网页无法访问的结果包含两种不同情况:16% 的页面是网页不在域名还在;另外 9% 的页面则是连域名都不在了。
具体来看,在抽样调查的新闻网站中,23% 的网页至少包含一个失效链接,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同,网站流量排名前 20% 的新闻网站中,约 25% 的网页至少包含一个失效链接;网站流量排名后 20% 的网站中,数据则是 26%。
百科类网站方面,此次研究人员选择了维基百科的“参考链接”部分。在总共 100 多万个参考链接中,有 11% 已经无法访问;54% 的维基百科网页参考链接至少包含一个失效链接。
社交网站方面,研究人员 2023 年 3 月 8 日至 4 月 27 日期间在社交媒体平台 X(推特)上发布的近 500 万条推文样本,试图每日进行观察,直到 2023 年 6 月 15 日这些推文是否还在网站上。研究发现接近 18% 的推文在 3 个月内就基本不可见。其中六成是因为账号被设为私密、被冻结或注销;四成是因为账号发布者自己删除,但账号本身还活跃。
END
官方站点:www.linuxprobe.com
Linux命令大全:www.linuxcool.com
刘遄老师QQ:5604215
Linux技术交流群:2636170
(新群,火热加群中……)
想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!
微信扫码关注该文公众号作者