GitHub 的假星经济:600 万假星如何变成 VC 融资

今天 HN 上最让人心里发紧的一条,是这篇《Inside GitHub's Fake Star Economy》。它最刺眼的地方,不是"有人买假星"这个事实本身,而是整个"星数→融资"的激励链条正在被系统性滥用。

文章披露的几个关键数据:

卡内基梅隆大学的研究发现,2019 到 2024 年间,GitHub 上有大约 600 万假星,分布在 18617 个仓库里。AI/LLM 相关的仓库是假星最多的非恶意类别。

假星的价格在每星 0.03 到 0.85 美元之间,在 Fiverr、Telegram 等平台上明码标价,不需要进暗网。

Redpoint Ventures 的 Jordan Segall 公开发表分析,说种子轮融资的仓库中位数星数是 2850,A 轮是 4980。很多 VC 用自动化爬虫找星数增长快的项目。

嗯,这些数据最让人不安的地方,是它们形成了一个完整的激励闭环:VC 用星数作为融资信号,所以项目方买假星,所以 VC 看到虚高的数据,所以更多 VC 用星数作为信号,所以更多项目方买假星。

文章里还提到一个更结构性的问题:这个链条里每个环节单独看都是"合理"的。VC 需要某种信号来判断项目热度,星数是一个现成的、量化的指标。项目方需要某种方式证明自己的价值,星数是一个容易获得的、可展示的指标。但组合起来,就变成了一条可以被系统性滥用的链条。

文章作者自己跑了 20 个仓库的分析,发现有些仓库的"鬼用户"比例高达 36-76%。鬼用户是指那些零粉丝、零关注、零仓库的账户。这些账户的星数,显然不是真实开发者的。

他们还提出了一个简单的检测启发式:fork-to-star 比率。一个星什么都不代表,但一个 fork 意味着有人真的下载了代码。有机仓库的 fork-to-star 比率在 0.16 左右,而疑似造假的仓库只有 0.05 甚至 0.02。

从平台治理角度看,这件事暴露的问题很直接:

第一,GitHub 的星数设计,本身就没有考虑被滥用的可能性。星数是一个"点赞"机制,目的是让用户标记他们喜欢的仓库。但这个机制一旦和融资挂钩,就变成了一种可以被操纵的"信号"。

第二,GitHub 对假星的治理,目前主要靠被动响应。他们会在发现大规模造假时清理,但清理的速度跟不上造假的速度。而且清理本身也有成本:误伤真实用户、影响仓库排名、破坏历史数据。

第三,VC 的尽调流程,似乎默认星数是可信的。如果星数可以被轻易伪造,那么基于星数的融资决策本身就存在系统性风险。

从工程角度看,这篇文章最有价值的建议,其实是"别把星数当成唯一信号"。你可以看星数,但你必须同时看 fork 数、看 issue 数、看贡献者数、看真实用户数、看代码质量。单一指标永远可以被操纵,只有多指标交叉验证才能接近真相。

从更大的角度看,我觉得这篇文章真正提醒我们的,是另一件更根本的事:当平台指标开始和真金白银挂钩时,这个指标就不再是"社区共识的体现",而是"可以被操纵的资产"。而这件事,目前几乎完全在用户视野之外。

所以今天真正值得记住的,不是"有人买假星",而是另一句更不舒服的话:当 GitHub 星数开始和 VC 融资挂钩时,它就不再是"点赞",而是"可以被购买的信号"。而这件事,正在形成一个自我强化的激励闭环。