机器入口正在重建网络

今天 HN 上有三篇文章看起来不在同一个领域。

Julien Reszka 写了一篇短文，说 RSS 回来了，因为 AI agents 正在读它。Google Reader 关闭之后，RSS 被很多人判了死刑。但作者指出，RSS 死掉的不是协议本身，而是作为人类内容发现入口的地位。人类喜欢算法流，因为它提供不可预测的奖励；代理不需要这种刺激。一个监控竞争对手发布、追踪法规变化、总结研究进展的 agent，想要的是确定的新内容列表、可解析的结构、稳定访问和不依赖广告关系的接口。RSS 正好提供这些东西。

kapa.ai 的文章讲的是另一个更工程化的问题：技术文档里的图片怎么进入 RAG。它们的结论很克制，也很有价值：不要在每次查询时把图片交给多模态模型看。那样成本高、上下文放不下，检索也不稳定。更好的办法是在索引阶段用视觉模型把图片描述成文本，把这份描述作为独立 chunk 存起来。查询时仍然按文本检索，只在相关时把图片说明拉进上下文。它们测到的结果是，答案质量显著提高，而每次查询成本只增加 1% 到 6%。

还有一篇来自 Don Marti 的文章，批评 W3C 中 Attribution Level 1 这种浏览器内建广告归因提案。它的技术目标是隐私友好的聚合归因：浏览器记录广告展示，购买发生后生成汇总报告，尽量避免个体级跨站识别。问题在于，真实世界里的隐私和竞争问题不是只靠数学匿名性就能解决。谁能把归因能力塞进浏览器默认层，谁就能获得新的入口优势。搜索、社交和应用商店广告天然靠近交易完成点，会更容易拿到转化 credit；真正创造需求的媒体和内容网站反而被低估。更麻烦的是，这种能力如果成为浏览器内建功能，就不再像普通广告脚本那样容易被扩展、拦截器和用户选择约束。

这三篇文章的共同点不是 AI，也不是广告，也不是 RAG。共同点是入口。

过去二十年，网络入口主要围绕人类注意力组织。搜索引擎、社交推荐、信息流、应用商店、浏览器默认搜索框，本质上都在决定人看到什么。谁控制入口，谁就控制分发、定价和归因。于是平台最重要的能力不是把内容做得更好，而是把内容放在人类会经过的位置上。

AI 代理出现之后，入口开始分裂。人类仍然会被算法流吸引，但机器不吃这一套。机器不需要惊喜，不需要无限滚动，不需要推荐系统制造的随机性。机器要的是稳定、结构化、可重复、低摩擦的访问路径。RSS 重新有价值，不是因为怀旧，而是因为它刚好符合机器消费内容的形状：按时间排列、语义简单、可拉取、没有复杂前端状态。

这也是为什么 RSS 的复活和图像 RAG 的索引策略其实是同一个问题。RSS 把"新内容是什么"变成机器能稳定读取的结构；kapa.ai 把"图片里有什么"变成机器能检索的文本结构。两者都不是让模型更聪明，而是把世界整理成模型更容易使用的形状。

这点很重要。很多 AI 产品失败，不是因为模型不会回答，而是因为上游材料对机器不友好。网页需要执行 JavaScript，内容藏在登录墙后，图片里的关键信息没有 alt text，PDF 表格被抽成乱序文本，更新没有 feed，版本变化没有 changelog。人类可以靠视觉、耐心和上下文补齐这些裂缝，代理会在这些裂缝里损失可靠性。

于是一个新的工程原则浮出来：如果你希望内容被 AI 代理正确使用，就要把可读性前移到发布和索引阶段，而不是指望查询时的模型临场发挥。

这听起来像 SEO，但又不完全一样。SEO 是为了让搜索引擎把你排在前面，所以它经常滑向关键词堆砌和排名游戏。机器可读性更接近基础设施设计：清晰的 RSS、稳定的 URL、明确的发布日期、语义化 HTML、可引用的图片说明、结构化 changelog、干净的 API 文档。这些东西不一定会让人类更兴奋，但会让 agent 更少猜测。

这也解释了浏览器归因为什么危险。它不是一个孤立的隐私 API，而是在浏览器这个默认入口里新增一种"机器可读的商业事实"：谁带来了转化。归因系统表面上是在测量广告效果，实际上是在定义价值如何被计算。价值一旦被某个入口层定义，市场就会围着它重排。搜索广告和社交广告会因为更靠近交易末端而被高估，内容媒体、独立网站、品牌建设和社区传播会被低估。不是它们没有创造需求，而是它们创造的需求没有被默认接口记录下来。

嗯，这就是入口权力最隐蔽的地方。它不一定删掉某些内容，只要改变"什么算数"。

对工程团队来说，今天的实际启发很直接。

如果你在做文档、开发者平台或知识库，不要只问页面对人类是否好看，还要问它对代理是否可读。RSS 或 Atom feed 不是过时功能，而是面向 agent 的最低成本接口。图片不要只作为视觉装饰存在，关键截图、架构图、接线图和规格矩阵都应该在索引时被转成可检索文本。文档变更应该有稳定 changelog，而不是散落在博客、Discord 和社交媒体里。

如果你在做 RAG，不要急着把所有问题都交给多模态查询。查询时的智能通常最贵，也最不稳定。能在 ingestion 阶段做一次的理解，就不要在每个 query 上重复做。图片、表格、代码示例、配置片段都应该尽量变成独立、可检索、可引用的结构单元。这不是降级，而是把不确定性从运行时移到构建时。

如果你在评估平台治理，就不要只看某个标准是否满足狭义隐私目标。还要看它把哪种能力放进了默认层，谁能调用，谁不能绕过，用户和扩展有没有真正控制权。很多"隐私保护"标准的问题，不在于数学不够漂亮，而在于它们把商业测量能力合法化、标准化、浏览器内建化。默认层一旦形成，后面的选择就变成补救。

今天这几篇 HN 内容放在一起，像是在提醒同一件事：AI 时代的入口竞争，不只是模型入口，也不是谁做了更漂亮的聊天框。更底层的竞争在于，哪些信息被整理成机器可以稳定消费的结构，哪些商业事实被默认记录，哪些路径被平台允许自动化访问。

人类互联网争夺的是注意力。机器互联网争夺的是可读性和默认权限。

前者让你停留更久。后者决定代理会不会看见你。

机器入口正在重建网络

机器入口正在重建网络

相关文章