Bendi新闻
>
中文互联网正在加速搬运

中文互联网正在加速搬运

6月前

前几天,一篇题为《中文互联网正在加速崩塌》的文章刷屏了。原文提出一个极少人想过却非常重要的问题:如果我们在百度上搜索“马云”这个名字,把时间范围设定在1998年至2005年之间,能搜出来的信息有多少条呢?是1亿条,还是1000万条,还是100万条?

答案一定会让所有人大跌眼镜:1条。
由此,作者得出结论:中文互联网正在加速崩溃。
但这样的结论,真的正确吗?

———— / BEGIN / ———

本周有一篇文章提到,现在你很难使用百度这样的搜索引擎,搜到历史上有关“马云”的网页。比如说在百度上指定1998-2005年的时间段搜索“马云”这个关键词,只有一个结果,而点开后发现也不是这个时间段内的。类似的,马云、雷军、任正非甚至周杰伦和李宇春也都一样。

对于结论,他悲观的感慨是中文互联网的源头性问题,这不禁让人联想到这个AI时代,ChatGPT的中文语料数据占比仅为0.09905%,加上目前国内的AI工具确实落后于美国,于是本文小小的刷屏了一把。

这篇文章讲的东西或许太商业,太直男,那么谈到近些年豆瓣消失的瓜组、鹅组,A站NGA论坛消失的各种爆料贴,知乎上各种极具思辨价值的老帖,大家是不是忽然心有戚戚焉?

事实真的如此吗?

如果有一部分事实真的如此,那这种“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?

01

“崩塌”,不只是中文互联网

作为一个不以观点先行的媒体,视智未来的编辑部第一步想想法是验证他的结论是否成立。

结果嘛,好像还是能搜出一些内容的,甚至不需要用谷歌,只用百度就行。因为我们使用了一个搜索引擎的常见语法。打 site: 加上网址,可以限定搜索结果仅限于某个网站。

同样,我们还能找到历史悠久的官方媒体上的一些老内容,权威媒体的上网时间也更早。比如说,当时央视诸位名嘴还很年轻,很真诚,认真给网友写日记,编读往来还会放在网上。这简直就是80年代春节联欢晚会期间,北京观众可以打电话点歌的赛博版本。

所以,如果限定结果来自这些网站,那么它们仍然保留在服务器上的存档内容,就有可能因为你的搜索而重见天日。

看来,那些“美好的旧时光”在互联网上并不是全都消失了。

但确实,要找到马云那几年的新闻,是需要一些运气和技术。

另外,“加速崩塌”是否只是如文中所说,是“中文互联网”特有的现象?

简单的答案是:哪有,全世界都这个熊样。

就在这篇爆款文章发出来的前两天,美国的皮尤研究中心做了一项调查,显示2013-2023年间存在的网页中,有1/4已无法访问。

这个消息在中国得到的反应就不说了,我们来看看日本网友的反应。

首先,他们祭奠的是雅虎的个人主页服务地球村(GeoCities)。   

日本家庭用PC和互联网的时间大概跟美国同步,这使得在世纪之交时的一些最初的网络服务,日本人也在积极使用。因此,日语成为了互联网最早被广泛支持的东亚语言。一些西方开发的常用软件,会在多语言版本选择中列举一堆欧洲语言,然后孤零零地提供一个日语。

接下来就是一些常见的博客托管服务。其实,“博客”(Blog)这个词已经有年头了,现在的人根本不了解。由于服务是本土化的,不同地方都有自己的博客网站,例如在台湾是无名小站,国内最著名的是新浪博客——韩寒、徐静蕾等人曾把那里当作主阵地。

现在我们还在用的微博,全称是“微博客”,也就是字数较少的博客。另一方面,有些人听小宇宙。“播客”(Podcast)这个词,在被译介入国内时,也是借助了博客的概念。如果现在想要向一个新人解释什么是播客,恐怕得说:播客是一种声音公众号。

是的,时代变迁就是这么无情,就好像我们会说Word那个保存的图标3D打印出来,就是“3.5寸软盘”。

02

不“崩塌”,在技术上无法实现


在美国,零几年的时候正经历一个叫Web 2.0的奇怪时代。意思是,网络1.0是少数编辑、记者或作家提供有限的内容,2.0时代是每个人都可以自己写内容、自己发布,让其他人看到和分享。奇怪的时代出现了很多奇怪的网站。

比如说,既然所有人都在写自己的专栏,谁的内容能脱颖而出呢?就需要有勤劳的推荐小能手不断挖掘相关信息,这就造就了一个叫“挖掘”(Digg)的网站。Digg和StumbleUpon这两个推荐引擎负责将世界各地有趣的文章,以投票方式决定谁显示在最上层。

在国内也有或大或小的网站,选用同样的推荐机制,其中坚持时间最长的一个叫做“抽屉”。抽屉新热榜是一个非常长寿的网站,一直坚持到这几天(!)才发出关站的消息。

早在此之前,它的海外祖师爷都已在很早的时候被贱卖掉,其中的数据也没有了。如果有人能够按月备份每一阶段在网站上被顶到最前面的信息,那将是非常有趣的事情。

国内这方面,最被众人皆知的是互联网档案馆(Internet Archive),这是一个历史地位几乎与维基百科同等重要的非营利组织。它存在的唯一目的是备份那些因自然或人为灾害而可能丢失的内容。

虽然在国内访问有点困难,但它同样可以备份大多数国内的网站。只不过,如果要有备份行为,可能需要你在看到这个网页时,随手用一个浏览器插件点一点,通知网站可以抓取这个页面了。

互联网档案馆一直在发起行动,备份那些随时可能会消失、拥有大量珍贵数据的站点。之前比较著名的有:

  • 2018 年,备份和保存来自流行的照片共享平台 Flickr 的图像。Flickr 决定将免费帐户限制在 1,000 张照片,这可能导致数百万张图像被删除。

  • 2018 年,存档“轻博客”平台 Tumblr 的内容。Tumblr 禁止成人内容的决定,可能导致该平台的大部分内容和创意作品丢失。

  • 2020年以来,存档与新冠疫情大流行相关的全球各地在线内容。

这点努力相对于Web 2.0时代实际损失的其它海量内容简直是杯水车薪,至少还有共享网络收藏夹Delicious,谷歌旗下众多用户依赖的阅读器Google Reader……都一点痕迹也没有了。

即使是那些一直坚持下来的,有着20年以上历史的长寿服务,在运营过程中也会反复更改政策。典型的比如谷歌Blogger服务,清除了一波超过10年没有登录过的账号。但是,很多此类账号的停用,并不意味着作者或读者放弃了这个内容,或许只是已离开人世。

像谷歌、微软、雅虎这些拥有大量陈年老用户的账号系统,处理此类信息时都面临两难境地。它们不可能直截了当地告诉用户,你的东西放在我这里只是临时存储,总有一天要删除掉。但当这些信息的主人也“不再在意”它们时,唯一现实的处置办法就是丢弃,因为任何形式的保管都需要费用。

说个残忍的事实,在国内连实体的墓地也是如此,在公墓落葬或存放的骨灰,需要每隔20年左右,由继承人或亲属缴纳墓穴的管理费。这种行为本身也是供奉的“香火”仍然存在的证明,如果断了,那这个墓穴就会被空出来,留给新的逝者。

前几年,国内的很多门户网站,也丢弃了它们之前长期存放的内容。包括网易博客、微博、QQ空间、人人网等——一大批内容在这个时候被丢弃。其中很多内容,因为存储技术已经过时,所以无法再对外展示。

零几年,网页上经常使用的Flash技术,现状是已经被彻底抛弃,就算变通支持读取,也可能因为无人开发,为你的浏览器带来安全风险,没有任何网站官方支持继续读取Flash内容。然而,QQ空间的某个版本大量运用了Flash技术。

我们需要知道的一点是互联网内容随时会被丢弃,这并不是所谓“中文互联网”的过错,而是自然规律的一部分。

互联网是一个人为建造的生态系统,但在大多数情况下,人类依靠自然的本能反应来使用它。所以这个人造生态系统的表现,就跟自然界中的热带雨林,那种自循环的生物圈一样。

总有生老病死。死亡的下一步就是腐烂。就像《寻梦环游记》里说人类一样,内容也会死两次,一次是停止更新,另一次是被所有人忘记。

大量自然消失的东西,最终会归于泥土。现在人们想的是,找一些侥幸保存得很好的内容片段,再把它们做成标本。少量东西可以这么做,但妄想所有内容都能维持原来的状态,那是“逆天改命”,违背自然规律。平台方第一个不答应——毕竟是他们在付费。

03

相信后人的智慧:

互联网时代的大搬运 

看上去,中文互联网确实在大规模的消退,这甚至是不可逆的一种现象。更可怜的,即使是晚近的内容——哪怕是知乎、豆瓣或小红书上,最近三四年的内容,也可能正在快速地消失。

但我们应该对由00后10后掌管的这一代互联网保持足够的信心。视智未来发现,现在的小孩子们,也自有一套保存、传播和分享这些信息的方法:

最典型的是搬运。搬运是一种口耳相传,当然会有信息失真,但因为有截图,这种失真现在其实较少。

很多引起共鸣的个人经历和故事,以这种方式得到传承。比如AcFun的管理权一直很混乱,被接手后一些原内容不慎丢失,文字区内容几次搬家,搬到“A岛匿名版”去,也是关了又开。但现在有不少内容先是被微博抢救出来,然后官微挂了,又被搬去知乎。

虎扑的步行街也有一个官方运营的号,它上面也会备份很多帖子。

NGA则是志愿者在B站转贴——是,用B站视频转贴。把长帖子滚动截屏后发出,这样的话你看人家帮你往下滚动,你不用动鼠标,还可以欣赏新挂上去的弹幕。

及时备份这些内容非常有必要,这些地方近两年引发人们议论的帖子,都是跟“性别战争”相关的,这很敏感,所以原帖基本上都不存在了。但它们的尸体碎片、网页快照等,被搬运工传递了下来。

还有一些是跨越私密墙或付费墙。财新的文章就不用说了,特别是在涉及到公众利益的报道出来之后,很多地方都有人转。

更经典的是豆瓣有几个小组只存在于传说中,比如瓜组、鹅组、尸组。但在微信公众号等地方,有不止一个账号会专门总结和转载热门“瓜”。这些内容大多“看起来”比较保真,确实也有可能作假,但是……如果传的本来就是流言,为什么需要“原版的”流言呢?

更有名的则是小红书的截图,它正以一种奇怪的方式流传出去:你在知乎或微博等地方,能看到大量来自小红书的截图,但如果按照截图上的文字去搜索原帖,则一般会搜不到。

有些人不断开新账号,在小红书上只发一条帖子,火了之后截图转到营销号上,然后注销账号走人。

小红书目前的流量分配机制是,每个新用户都有平等的前几条帖子,可以获得10万以上阅读量的曝光。这对新用户冷启动非常有效,因为很多时候没人能想到自己也有机会出名,一下子就被平台粘住了。本来就应该这样,“每个人都有15分钟成名的机会”。

然而,小红书的大多数账号在前两三条帖子火爆之后,通常会后继乏力,平台给予的流量会迅速下降。所以实际上,在小红书自然达到1000粉丝是非常困难的,这也是开通广告后台的门槛。

对于搜索引擎来说,小红书是无数个流量黑洞之一。它不仅设置了对任何搜索爬虫静止的状态,而且如果找到证据证明有人使用内容,恐怕还会走法律途径。

现在,大模型方面使用这些网站内容作为语料库,都得支付动辄几千万的费用。搜索引擎作为准公共服务,本应与各个社区达成默契,即他们开放内容让人们可以便捷搜索。但这也只是一种默契,而非法律规定。所以现在,任何地方的搜索引擎,都是不完整的。

一个外国人想要观察中国互联网的流行动态,必须熟练使用几种到十几种流行的中国网络服务。这确实造成了一定的障碍。当他们不在中国,只能离岸观察时,得出的结论往往更离谱,离谱到像ChatGPT最近一次更新使用的分词器,排在前面的都是一些不堪入目的关键词。

但是在这里,视智未来必须说一句反常识的话:这种“围墙花园”的状态,长远来看,说不定反而更有利于信息的长期保存。

那些中小型网站,如果开放搜索和访问,意味着大多数情况下人们会信任它。但它不一定值得信任。像天涯那样曾经名噪一时的网站都有可能最终关闭,而且不给人们信息备份和补偿的机会。

所以,如果所有东西都存在像微信公众号这样的超大平台上,这也意味着它们跟微信这个平台一起坚持到海枯石烂的可能性很高。

如果你2005年选择把一段自拍视频放到优酷上,你现在还能看,但如果放在六间房上,那就不行了。我现在要看《一个馒头引发的血案》——那是多么无与伦比地作品啊!——我只能去B站找。去搜“万恶之源”,很多怀旧的东西都能看。

人们有理由担心微信公众号上的信息搜索不到,有朝一日平台发生变化,上面的东西都会消失。当然是个风险。

但是自2005年以来,非中文互联网上90%以上的视频都存在YouTube一个地方,所以他们也应该担心这个问题。说实在的,当这俩地方出故障的时候,你可能更需要担心自己的人身安全等更基本的命题。

与拜托平台长命百岁相比,更有效的信息备份,应该是有一个人类来负责维护。

例如一个资源,最早可能是bt种子,后来放在115网盘上,后来可能迁移到迅雷,再到百度网盘,然后是阿里或夸克。只要负责维护这个资源的人还在世,这份资源就不会“丢失”。如果真的得罪了什么了不起的能量,那也可以去外面的各种个人站或互联网档案室找到,相信我,他们对于这里一切404的东西都有保留的兴趣。

人们总是抱怨,现在不管找什么资源都得掏钱。有些东西以前是可以免费下载的,现在需要花十多块钱买一个不知名地方的会员,其实就是便宜了站长个人。

这其实是理所应当的。之前使用那些服务,完全仰赖他们的良心。但让这件事有利可图,最终会让信息保存更长久。求人办事最好的方法,就是掏钱。

04

互联网的新陈代谢,只能接受它

如果还有一些并没有被搬运,我们也找不到这些考据的来源网址,对大多数人,会有多大影响吗?其实并没有。

更重要的是,我们有了平替。

哪怕是当时被认为是不可替代的“第四权”,作为社会良心、以身犯险的调查记者,号称现在全国已经下降到了个位数,现在也勉强有了点儿“平替”。比如以一己之力带动淄博烧烤热潮的B太,他出道以来进行的舆论监督,节目放到央视的《经济半小时》和《焦点访谈》播也并不违和。

真正的电视端则显现出青黄不接,之前的几个调查栏目虽然名称还在,但用途已经更换了。总台新开了一个名不见经传的《财经调查》栏目,用来承接之前那些针砭时弊的作用——其实或许能多几个B太也是可以的。

现在,人们交换生活经验,或者为自己争取公道的地方,也变换了场地,他们从电视台、报纸转移到了短视频、公众号,只要人民群众追求美好生活和追求公平正义的心没变,揭露真相这件事,就永远不会停止。

回到本文开头的马云,如果你搜索马云在历史上的痕迹,你可能会发现在不同的营销号中,流传着他做过的一次公开访谈:“他们所说的那些风险一个也没成真,而他们没有预料到的问题却全都出现了。作为专家来说,他们说的全对,做的全错。”  

“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?

不是的。它是一种自然规律的体现。

在互联网这个人造的生态系统中,一棵参天大树也有倒下、死亡、归于尘土的时刻。想要把这棵树和上面的每一片叶子做成标本,保存起来,想法很唯美,但可能不是人力能做到的,而且也需要考虑这是否有必要。

那些过去就不再回来的时光,总是提醒我们应该活在当下。而大浪淘沙之后,有些真正重要的事情,也确实会以更永久的方式留存下来,成为人类文明的一部分。

从历史的眼光来看,在中国普及了30年的国际互联网,还处于其生命周期的早期。将时间拉长一点,未来一二百年,可能仍然需要我们在2024年生产的内容的备份。

如果你认为这一点对你很重要,那么从现在开始,由你自己来留下一些你感兴趣的内容,传给后来人,一点也不晚。备份内容最好的时间点是20年前,其次就是现在。

———— / E N D / ————

作者:James

来源微信公众号:营销娱子酱

题图来自 Unsplash ,基于 CC0 协议

品牌推广| 内容撰写|广告投放|培训合作

请在公众号后台回复  作 

微信扫码关注该文公众号作者

来源:人人都是产品经理

相关新闻

中文互联网正在加速崩塌中文互联网内容真的正在衰退吗?中文互联网在变得越来越差吗?今日最佳:中文互联网到底给AI喂了什么数据?万物皆可饭圈:中文互联网“饭圈扩大化”现象研究没想到吧,中文互联网上最好的大模型语料库是:弱智吧【招聘】美国中文电视/美国中文网诚聘新媒体运营/记者/编导/制作无需3D数据也能训练,港科&港中文联手华为推出3D自动驾驶场景生成模型【招聘】美国中文电视/美国中文网诚聘编导/制作/主持人/导播丢人! 停车场车位大战 数名华人大打出手 吐口水 还中文互骂法拉盛停车场车位大战!!数名华人大打出手,吐口水,中文互骂....停车场车位大战,数名华人大打出手,吐口水,中文互骂习近平复信阿联酋中文教学“百校项目”学生代表谁对谁错?中国网红把车停美国小区 华裔大姐上门驱赶 假装不会中文全网吵翻奥特曼重新加入 OpenAI 董事会;比特币突破 7 万美元大关;苹果中文官网出现 Vision Pro|极客早知道最近,这首15年前的中文老歌在外网爆火,老外:唱哭了!最近,这首15年前的中文老歌在外网爆火,老外苦苦钻研歌词:唱哭了!海外纵横丨中文:架起文明互鉴桥梁剧本杀天花板!全球首座沉浸式乐园东京开业,10大IP联动,还支持中文互动?中文脏话,震撼外网中美编辑团队联袂打造,蟋蟀集团中文STEAM杂志新刊首发!CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理【视频】美国国务院中文发言人阮家齐谈正在华盛顿召开的北约峰会墨西哥坎昆6天游:全包式沙滩酒店+粉红湖+奇琴伊察玛雅城邦遗迹+网红双天井+乐园自选 中文导游APMC6
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。