旧的剧本已经失效。
几十年来,初创公司估值遵循着一套可预测的剧本:团队是否拥有 CEO、CTO 和领域专家?TAM 是否在 Gartner 报告中?他们是否有办公室?他们雇佣了多少人?
到了 2026 年,这个剧本会得出错误的答案。一位拥有 AI 原生工具和明确理念的独立创始人,其交付速度比 2022 年的 10 人团队更快。分析报告中不存在的市场 —— 智能体之间的商业、AI 原生基础设施、去中心化的工作工具 —— 正在孕育着下一个万亿美元级别的公司。
GemScore V3.1 是我们对这种转变的回应。我们重新调整了每个评分维度,以便通过世界发展的方向(而不是它过去的样子)来评估初创公司。
这不是炒作周期,而是一次垂直转变。
让我们坦率地谈谈一些事情。
有一种反复出现的说法,即 AI 只是一个“泡沫” —— LLM 被过度炒作了,这项技术将会停滞不前,我们将以回顾加密货币投机的方式来回顾这段时期。
我们不同意。从根本上来说。
即使当前的 LLM 架构最终证明只是垫脚石,而不是最终形态,它们已经解锁的能力也不会消失。代码生成、自然语言推理、多模态分析、自主代理 —— 这些都在今天的生产系统中交付,处理实际工作负载,产生实际价值。这不是一份白皮书。这是基础设施。
我们所经历的不是一个炒作周期。这是在可能性上的垂直转变 —— 在软件如何构建、企业如何运营、市场如何形成以及价值如何创造方面。该技术的具体细节将会发展。但范式不会倒退。
GemScore V3.1 就建立在这种信念之上。我们评估初创公司,不仅基于 AI 今天能做什么,还基于这样一个结构性的现实:AI 原生执行是一种永久的竞争优势 —— 无论哪种模型架构占主导地位。
发生了什么变化(以及为什么)
1. 执行力杠杆作用,而不是员工人数
之前:“独立创始人 = 风险。缺少 CTO = 问题。小团队 = 准备不足。”
现在:我们评估执行力杠杆作用 ——交付、迭代和扩展的能力。一位在三周内构建并发布产品的 AI 原生独立创始人,所展示的执行能力要比一个“隐身”了一年的五人团队更强。
现在的评估承认:
- AI 原生工作流程 —— 使用 AI 开发、设计和分发工具构建的创始人
- 快速交付作为证据 —— 快速启动是一个数据点,而不是捷径
- 通过 AI 实现的全栈能力 —— 一人覆盖产品、工程和设计
- 领域 + AI 组合 —— 领域内的深入知识通过 AI 执行力得到增强
一位拥有强大过往记录、经过验证的 AI 流利性和领域专业知识的独立创始人,可以获得与传统三人创始团队一样高的分数。没有任意上限。问题不是“有多少人?”,而是“这个人能完成多少事情?”
2. 未来市场,不仅仅是 TAM 报告
之前:“分析报告中没有 TAM 数据 = 市场评分低。”
现在:如果一家初创公司瞄准的是分析数据库中尚未存在的市场,我们不会自动对其进行惩罚。相反,我们评估理念质量:
- 哪些结构性顺风正在创造这个市场?
- 哪些相邻市场可以作为规模估算的替代指标?
- 存在哪些早期采用信号?(融资趋势、开发者生态系统增长、API 使用加速)
智能体经济 —— AI 智能体代表人类进行交易、执行任务和运营 —— 是真实且不断增长的。我们的评估引擎现在将新兴和 AI 原生市场视为一个合法的类别,根据理念质量和结构逻辑进行评分,而不是因为缺少传统数据而受到惩罚。
3. AI 原生经济学
传统的 SaaS 基准假设毛利率为 70-80%,以销售驱动的获客以及人工操作流程。AI 原生业务拥有根本不同的成本结构:
- 当核心功能是 AI 增强时,更高的利润率
- 通过 API 生态系统和智能体网络实现的程序化分发
- 自动化运营 —— AI 处理支持、入职、质量保证
业务评估现在理解这些经济学。它不会因为 AI 原生初创公司不符合 2020 年的基准而对其进行惩罚。它评估 AI 原生方法是否创造了一种结构性优势。
我们还增加了对新业务模式模式的认知:基于使用量的 AI 定价、智能体间的商业、混合的人工 + AI 服务以及 API 优先的分发。
4. 将 AI 依赖性作为首要风险
使用 AI 进行构建可以创造杠杆作用。它也会产生依赖性。
V3.1 引入了技术风险作为一个专门的评分维度。它评估模型提供商集中度、API 成本可持续性、开源复制风险和架构弹性。
与此同时,它也认识到 AI 原生执行降低了某些传统风险。当 AI 工具是工作流程的一部分时,知识转移更容易。当你每天而不是每季度交付时,迭代周期会缩短。
评估不会将 AI 视为普遍的好或坏。它评估每个想法的特定风险/杠杆权衡。
5. 更智能的防御能力评估
我们已经更新了我们评估护城河的方式,以反映在 AI 时代真正创造持久优势的因素:
- 数据飞轮 —— 产品会随着每个用户的使用而变得更好(复合式、自我加强)
- 智能体生态系统 —— AI 智能体集成、交易和创建锁定的平台
- 专有数据 —— 无法通过公开信息复制的独特数据集
- API 锁定 —— 随着时间的推移产生转换成本的开发者采用率
- 网络效应 —— 仍然强大,现在通过 AI 驱动的匹配和推荐得到增强
“我们使用 AI”不是护城河。每次交互都会改进的复合数据优势是。
6. 校准评分
AI 系统具有有据可查的积极性偏差。它们将分数聚集在舒适的 5-7 范围内。
V3.1 添加了明确的校准锚点:
- 5/10 = 中位数。所有想法中有一半得分低于此值。这不是“还可以”—— 它是平均水平。
- 7/10 = 前 15%。需要经过验证的证据,而不仅仅是引人入胜的叙述。
- 8+/10 = 前 5%。多个独立的、有来源的证据点。
- 9+/10 = 前 1%。非常特别。经过验证的牵引力、经过验证的护城河、经过验证的执行力。
当证据模糊时,系统默认设置较低。“听起来很有希望”不是数据点。
7. 版本 + 构建跟踪
每份报告现在都带有一个版本标识符:v3.1 加上一个构建指纹。
版本是算法生成。每当更新任何评估组件时,构建指纹都会更改。这意味着你始终可以准确地追溯到哪个版本的引擎生成了给定的报告。
这对于可重复性、审计跟踪和信任至关重要。它也是我们正在进行的 SOC 2 认证工作的一部分 —— 构建机构用户期望的透明度和问责制基础设施。每次评估都是可追溯的,每个版本都有记录,每次更改都是可审计的。
范围和平台影响
此校准更新会影响 Athanor 的公共平台以及所有运行默认评估设置的依赖合作伙伴实例。
如果你运行一个具有自定义提示、自定义评分权重或自定义校准配置文件的白标平台,则你的评估行为不受此更新的影响。自定义配置仍然独立 —— 这是经过设计的。
如果你想在你的白标实例上采用 V3.1 校准,请联系我们,我们将讲解具体的更改。
由真实的反馈塑造
V3.1 不是在真空中设计的。此更新中的每个更改都可以追溯到我们在早期试点计划中观察到的模式 —— 真实的评估、来自创始人及投资者的真实反馈,我们可以衡量其结果的真实结果。
当独立创始人在交付速度始终快于大型团队的情况下始终获得较低的分数时,这是一个信号。当 AI 原生初创公司因瞄准没有分析报告的市场而受到惩罚时,这是一个信号。当 AI 产品报告中未显示技术依赖性风险时,这是一个缺口。
我们正在与我们的早期用户紧密合作构建 GemScore。他们的反馈直接影响着评估引擎的发展方式。
如果你想成为该反馈循环的一部分,请加入试点计划。早期用户可以直接访问该团队,优先考虑功能请求,并且能够影响下一代评估的工作方式。
通往 V4 的道路
V3.1 是一个中间更新 —— 一个有意义的更新,但仍然是通往更大目标的垫脚石。
GemScore V4 是一个代际飞跃:从静态报告到鲜活的智能。情景建模。与评估进行交互式问答。财务预测。随着你的初创公司发展而更新的实时监控。
| V3.1 (今天) | V4 (即将推出) | |
|---|---|---|
| 报告类型 | 时间点快照 | 不断更新的动态文档 |
| 评分 | 具有置信区间的双轴 | + 情景建模(最佳/基本/最差) |
| 互动 | 只读(带有注释) | 与 AI 进行互动式问答 |
| 市场数据 | 评估时的研究 | 持续监控 |
| 财务模型 | 后续步骤和里程碑 | 完整的财务预测 |
V3.1 奠定了哲学基础 —— AI 原生评估、前瞻性评分、基于证据的校准。V4 在此基础上构建了架构。
这对你意味着什么
如果你是一位 AI 原生创始人:你将根据你能做的事情,而不是你雇佣了多少人来评估。交付一些东西。证明它有效。评分将反映你的执行杠杆作用。
如果你在新兴市场进行构建:你不会因为在没有分析报告的领域运营而受到惩罚。明确你的想法,指出结构性顺风,并让评估机构评估其逻辑。
如果你是一位投资者:报告现在会在显示传统指标的同时,还会显示 AI 原生信号、技术依赖风险和未来市场定位。每份报告都有版本且可追溯。
如果你在 V3.1 之前提交了内容:你之前的报告带有自己的版本标识符。你可以请求重新评估,以查看你的想法在更新后的校准下的得分情况。
哲学
我们围绕一个问题构建了 GemScore V3.1:
这位创始人是否具有掌握未来价值的杠杆作用、适应性和定位?
不是:“这是否符合传统的风险投资标准?”
不是:“这是否像 2019 年奏效的那样?”
世界变化的速度快于评估框架的更新速度。AI 原生创始人构建的东西在两年前是不可能的。市场正在围绕尚未编目的技术转变而形成。旧的启发法 —— 团队规模、办公地点、传统组织结构图 —— 都是噪音。
信号是:你能交付吗?你有一个理论吗?你的优势是复合的吗?
GemScore V3.1 旨在找到该信号。