AI浪潮下对个人信息检索能力的一些思考

前言？

自 GPT-3.5 以来的这几年来，AI 的发展日新月异，人们的生活方式以前所未有的速度改变着。这不禁让我好奇：AI 对人们在某些方面的影响是否存在，以及到底有多大。

在 AI 浪潮之前，简中互联网相比全球互联网就较为独特，呈现出“大 App 化、去 Web 化”的趋势，而 AI 浪潮的出现，在我的观察中甚至继续放大了这一特征。论坛（以及类论坛物）作为经典的互联网交流产物，在全球互联网中仍保持着活跃的生命力；而简中互联网中，譬如天涯论坛、百度贴吧等 top 级论坛都沦落到了半死不活乃至关站的境地，微信、QQ 等信息检索较差且偏向私域的软件的流量却日益增长（虽然我不太能想明白为什么论坛会被微信、QQ 取代，它们严格来说甚至都不算竞品）。而缺少了“中心”的交流论坛转向私域，也让人们一直所诟病的“简中互联网信息质量差”这一情况逐渐加剧，越演越烈。

虽然这一事件和百度无底线地将广告权重置于正常站点之上，以及以 CSDN 为首的唯 SEO 论、不关注文章质量、放任洗稿等行为有脱不开且很大的干系，但所幸还有博客园以及各种大佬们的博客等，为简中互联网保留了这一片桃花源。而当大家在简中互联网找不到答案时，通常会选择进入繁中世界或者英文互联网寻找。譬如当人们在 CSDN、知乎、SegmentFault 等平台找不到答案时，通常就会去 Stack Overflow 寻找答案。或许可以不恰当地抽象为：人们对知识的传承，类似一种以论坛和博客等为媒介而口口相传的行为。

乱象？

而在 AI 浪潮到来以后，根据我个人自身经历以及身边朋友同学们的行为来看，大家对知识检索工具的选择逐渐从搜索引擎转变为生成式 AI，甚至有人表示自己已经完全将生成式 AI 作为了自己的搜索引擎，所有的信息均来自 AI（尤其近期以来经常在各种场合听到诸如“不懂就问问豆包呗”的话语）。

这不禁引起了我的一些思考与担忧……首当其冲的便是内容的真实性与时效性。众所周知，目前所有的生成式 AI 都无法避免“幻觉”的问题，尤其当上下文长度达到较高水平时更是如此。而我身边朋友们使用最多的“豆包”模型本身的能力就更加令人堪忧：其生成内容的真实性无法得到很好的保障，经常会看见它在“一本正经地胡说八道”。如果人们不去质疑或者探究其生成内容的真实性，而盲目相信其生成的内容，那么人们甚至可能获取到完全错误的信息。我认为这种情形甚至比我们以前说的“百度百科的信息质量差”更加严重，因为人们好像在用这种低质量的信息来回洗刷简中互联网，最终这些低质量的信息又被投喂给 AI 训练，形成一个糟糕的循环。

从央视新闻前段时间对《词元》的那篇荒谬文章说起：将多种不同意思的 token 混为一谈，然后统一翻译成“词元”。不知为什么没有经过审核就发表出来，并且登上电视播报。最让人感到恐慌的是，不到几个小时，百度百科就有人对该词条更新了央视所报道的错误概念，并且不知为何还能审核通过（在该词条下，我们甚至可以找到其参考资料中有数篇文章是 AI 生成的垃圾文章，然后被反复洗稿发布）。

尖锐地说，我认为这种行为就是在污染整个简中互联网的语料库，十分恶劣。这会对非相关专业或者信息分辨能力不强的人造成极其严重的误导。尤其是只使用 AI 搜索的人：当 AI 检索到的信息都是上述的垃圾信息时，有效信息被压在后头而无法被看见，最终给用户输出了一堆垃圾。

再说时效性：现阶段的 AI 多训练于较早时期，其内置的知识库也往往停留在较早阶段。所以当你在提问一些新内容时，如果互联网上没有足够明显的内容供其检索（如一些小众或新项目），或者其不主动联网搜索时，会发生诸如能力大大下降、输出过时信息、胡说八道等情况。而传统的“手动 + 人脑”的信息检索模式却可以规避上述的一些问题（尤其是擅长于屎里淘金的简中互联网网民们）。这引发了我对在 AI 浪潮下个人信息检索能力的一些思考……

守旧 or 基本能力？

此处我们姑且将传统的信息检索模式定义为：不使用 AI 工具，而使用传统搜索引擎进行搜索。我们将时间退回到 2019-2022 年，那时还没有横空出世的 GPT-3.5，也没有爆发出如今如此火爆的 AI 浪潮。从我个人的身边统计学来看，大家遇到问题的解决方法还都是：搜索引擎查找、寻找大佬的博客、从各大论坛中搜寻；再不济便是求助群友。在多数情况下，大家在解决完一个问题后都有着撰写一篇博文将此事件记录下来的习惯。不仅是满足分享欲望，同时也是方便自己下一次遇到同样问题时可以快速找到解决方案。

这里我又想到了更传统的信息检索——从书籍中检索。“书籍是人类进步的阶梯”，但是人们对书籍的重视程度好像却又在逐步减少，这与现在 AI 对传统搜索引擎的冲击十分相似，好像可以类比来看（但是我实在写不动了）。在义务教育中，我们都没有疏忽对书籍中内容的检索能力的培养，但是在视手机电脑为洪水猛兽的这一代人身上，没有高强度使用过搜索引擎的人们可能会反而出现信息检索能力的“退化”，也即忘记了如何使用传统的搜索引擎去搜索。

这会导致一些很奇妙的问题，比如前面所说的：当你使用的软件较为小众时，一些你所需的信息只存留在某个论坛或者某个 AI 适配并不良好的网站上，AI 并不能很好地检索到这些信息，从而无法帮助你有效地解决问题（甚至越帮越乱）。而当我们自己亲自上阵的时候，就可以用“人脑”灵敏地捕捉到某些信息，进而解决问题（举一个例子：Remnawave）。

End

我并没有做真实的统计和测试，人们对 AI 的依赖程度到底有没有夸张到完全遗忘掉使用搜索引擎检索、又夸张到什么程度，但从身边统计学来看，甚至是我自己最近的一些行为，情况并不容乐观：问题解决不了，问 AI；AI 做不出来，和 AI 搏斗；循环，然后遗忘了其他渠道……我并不认为这是一个健康的现象。

我并不否认，甚至强烈认同且亲身实践：AI 可以极大地提高学习效率以及学习效果，但前提是你“用” AI，而不是让 AI “成为”你。我们应当驾驭 AI，而不是沦为 AI 的奴隶，离开它就生活不下去。或者用一些精致一点的比喻：至少在学习阶段，AI 应当作为甜品，少了只是没那么美妙；而不是必需品，没了就无法继续生活。

所以我认为，我们应当拥有最基础的使用传统搜索引擎进行信息检索的能力。至少我们是人类，懂得思考。

应该怎么做？应该怎么做得更好？我想这还需要你我自己继续更广或更深地思考。

至于人们是否真的因此产生了信息检索能力的退化？我并不确切知道，也很难知道。本文所述的一切都基于我的个人假设，如有意见不合，请权当我在放屁。

本来还想往长写，但是实在是写不动了（这么点东西已经写了小一周了）。

最后，

Best wishes to us!

lbyxiaolizi's blog

AI浪潮下对个人信息检索能力的一些思考

前言？

乱象？

守旧 or 基本能力？

End

相关推荐

1 评论

发表评论

前言？

乱象？

守旧 or 基本能力？

End

THANK YOU!

相关推荐

1 评论

发表评论