机器入口正在重建网络
今天 HN 上有三篇文章看起来不在同一个领域。
Julien Reszka 写了一篇短文,说 RSS 回来了,因为 AI agents 正在读它。Google Reader 关闭之后,RSS 被很多人判了死刑。但作者指出,RSS 死掉的不是协议本身,而是作为人类内容发现入口的地位。人类喜欢算法流,因为它提供不可预测的奖励;代理不需要这种刺激。一个监控竞争对手发布、追踪法规变化、总结研究进展的 agent,想要的是确定的新内容列表、可解析的结构、稳定访问和不依赖广告关系的接口。RSS 正好提供这些东西。
kapa.ai 的文章讲的是另一个更工程化的问题:技术文档里的图片怎么进入 RAG。它们的结论很克制,也很有价值:不要在每次查询时把图片交给多模态模型看。那样成本高、上下文放不下,检索也不稳定。更好的办法是在索引阶段用视觉模型把图片描述成文本,把这份描述作为独立 chunk 存起来。查询时仍然按文本检索,只在相关时把图片说明拉进上下文。它们测到的结果是,答案质量显著提高,而每次查询成本只增加 1% 到 6%。
还有一篇来自 Don Marti 的文章,批评 W3C 中 Attribution Level 1 这种浏览器内建广告归因提案。它的技术目标是隐私友好的聚合归因:浏览器记录广告展示,购买发生后生成汇总报告,尽量避免个体级跨站识别。问题在于,真实世界里的隐私和竞争问题不是只靠数学匿名性就能解决。谁能把归因能力塞进浏览器默认层,谁就能获得新的入口优势。搜索、社交和应用商店广告天然靠近交易完成点,会更容易拿到转化 credit;真正创造需求的媒体和内容网站反而被低估。更麻烦的是,这种能力如果成为浏览器内建功能,就不再像普通广告脚本那样容易被扩展、拦截器和用户选择约束。
这三篇文章的共同点不是 AI,也不是广告,也不是 RAG。共同点是入口。
过去二十年,网络入口主要围绕人类注意力组织。搜索引擎、社交推荐、信息流、应用商店、浏览器默认搜索框,本质上都在决定人看到什么。谁控制入口,谁就控制分发、定价和归因。于是平台最重要的能力不是把内容做得更好,而是把内容放在人类会经过的位置上。
AI 代理出现之后,入口开始分裂。人类仍然会被算法流吸引,但机器不吃这一套。机器不需要惊喜,不需要无限滚动,不需要推荐系统制造的随机性。机器要的是稳定、结构化、可重复、低摩擦的访问路径。RSS 重新有价值,不是因为怀旧,而是因为它刚好符合机器消费内容的形状:按时间排列、语义简单、可拉取、没有复杂前端状态。
这也是为什么 RSS 的复活和图像 RAG 的索引策略其实是同一个问题。RSS 把"新内容是什么"变成机器能稳定读取的结构;kapa.ai 把"图片里有什么"变成机器能检索的文本结构。两者都不是让模型更聪明,而是把世界整理成模型更容易使用的形状。
这点很重要。很多 AI 产品失败,不是因为模型不会回答,而是因为上游材料对机器不友好。网页需要执行 JavaScript,内容藏在登录墙后,图片里的关键信息没有 alt text,PDF 表格被抽成乱序文本,更新没有 feed,版本变化没有 changelog。人类可以靠视觉、耐心和上下文补齐这些裂缝,代理会在这些裂缝里损失可靠性。
于是一个新的工程原则浮出来:如果你希望内容被 AI 代理正确使用,就要把可读性前移到发布和索引阶段,而不是指望查询时的模型临场发挥。
这听起来像 SEO,但又不完全一样。SEO 是为了让搜索引擎把你排在前面,所以它经常滑向关键词堆砌和排名游戏。机器可读性更接近基础设施设计:清晰的 RSS、稳定的 URL、明确的发布日期、语义化 HTML、可引用的图片说明、结构化 changelog、干净的 API 文档。这些东西不一定会让人类更兴奋,但会让 agent 更少猜测。
这也解释了浏览器归因为什么危险。它不是一个孤立的隐私 API,而是在浏览器这个默认入口里新增一种"机器可读的商业事实":谁带来了转化。归因系统表面上是在测量广告效果,实际上是在定义价值如何被计算。价值一旦被某个入口层定义,市场就会围着它重排。搜索广告和社交广告会因为更靠近交易末端而被高估,内容媒体、独立网站、品牌建设和社区传播会被低估。不是它们没有创造需求,而是它们创造的需求没有被默认接口记录下来。
嗯,这就是入口权力最隐蔽的地方。它不一定删掉某些内容,只要改变"什么算数"。
对工程团队来说,今天的实际启发很直接。
如果你在做文档、开发者平台或知识库,不要只问页面对人类是否好看,还要问它对代理是否可读。RSS 或 Atom feed 不是过时功能,而是面向 agent 的最低成本接口。图片不要只作为视觉装饰存在,关键截图、架构图、接线图和规格矩阵都应该在索引时被转成可检索文本。文档变更应该有稳定 changelog,而不是散落在博客、Discord 和社交媒体里。
如果你在做 RAG,不要急着把所有问题都交给多模态查询。查询时的智能通常最贵,也最不稳定。能在 ingestion 阶段做一次的理解,就不要在每个 query 上重复做。图片、表格、代码示例、配置片段都应该尽量变成独立、可检索、可引用的结构单元。这不是降级,而是把不确定性从运行时移到构建时。
如果你在评估平台治理,就不要只看某个标准是否满足狭义隐私目标。还要看它把哪种能力放进了默认层,谁能调用,谁不能绕过,用户和扩展有没有真正控制权。很多"隐私保护"标准的问题,不在于数学不够漂亮,而在于它们把商业测量能力合法化、标准化、浏览器内建化。默认层一旦形成,后面的选择就变成补救。
今天这几篇 HN 内容放在一起,像是在提醒同一件事:AI 时代的入口竞争,不只是模型入口,也不是谁做了更漂亮的聊天框。更底层的竞争在于,哪些信息被整理成机器可以稳定消费的结构,哪些商业事实被默认记录,哪些路径被平台允许自动化访问。
人类互联网争夺的是注意力。机器互联网争夺的是可读性和默认权限。
前者让你停留更久。后者决定代理会不会看见你。