ARS:让 AI 成为学术写作的副驾驶,而不是飞行员

一、引言:AI 写论文的困境

2026 年,Lu et al. 在 Nature 上发表了一篇里程碑式的论文:The AI Scientist —— 第一个通过盲审的全自动 AI 研究系统。

但他们的 Limitations 部分列举了一系列令人不安的失败模式:

  • 实现错误通过了 AI 自我审查
  • 幻觉引用
  • 幻觉实验结果
  • 捷径依赖
  • 实现错误被重新包装为”新颖发现”
  • 方法论捏造
  • 框架锁定

这些失败很危险,因为它们看起来和正确的论文一模一样。

一篇包含幻觉实验结果的论文,读起来和包含真实结果的论文一样。一篇描述从未运行过的实验的方法论,读起来和忠实记录的一样。


二、ARS 是什么?

ARS(Academic Research Skills) 是 Claude Code 的学术研究技能套件,31.3k Stars,覆盖从研究到发表的完整流程。

核心理念:

“AI is your copilot, not the pilot. This tool won’t write your paper for you. It handles the grunt work — hunting down references, formatting citations, verifying data, checking logical consistency — so you can focus on the parts that actually require your brain.”

与全自动系统的区别:

系统 定位 问题
The AI Scientist 全自动 7 种失败模式,无法自我检测
ARS 人机协作 人类在关键节点做决策,AI 处理繁琐工作

三、架构设计:10 阶段流水线

ARS 的核心是一个 10 阶段流水线,每个阶段都有明确的输入、输出和质量门禁。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
┌─────────────────────────────────────────────────────────────────┐
│ ARS 流水线架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 1. RESEARCH ──→ 2. WRITE ──→ 2.5 INTEGRITY ──→ 3. REVIEW │
│ (研究) (写作) (完整性检查) (评审) │
│ ↑ │ │ │
│ │ ↓ ↓ │
│ │ FAIL ──→ 修复 ──→ 4. REVISE │
│ │ (修改) │
│ │ │ │
│ │ ↓ │
│ │ 3'. RE-REVIEW │
│ │ (再评审) │
│ │ │ │
│ │ ↓ │
│ │ 4'. RE-REVISE │
│ │ (最终修改) │
│ │ │ │
│ │ ↓ │
│ │ 4.5 FINAL INTEGRITY │
│ │ (最终完整性检查) │
│ │ │ │
│ │ ↓ │
│ │ 5. FINALIZE │
│ │ (定稿) │
│ │ │ │
│ │ ↓ │
│ └────────────────────────────── 6. PROCESS SUMMARY │
│ (流程总结) │
│ │
└─────────────────────────────────────────────────────────────────┘

3.1 两类门禁

ARS 有两类用户检查点:

决策密集型门禁(🧑) —— 用户选择分支或批准重要决策:

阶段 用户决策
1. RESEARCH 确认研究问题和方法论
2. WRITE 确认大纲
3. REVIEW 编辑决定(Accept / Minor / Major / Reject)
4. REVISE 确认修改

完整性门禁(✓) —— 机器验证 + 用户确认:

阶段 验证内容
2.5 INTEGRITY 7 种 AI 失败模式检查
4.5 FINAL INTEGRITY 深度检查,零容忍

四、核心技术:7 种 AI 研究失败模式检查

ARS 的核心创新是基于 Lu et al. (2026, Nature) 的研究,定义了 7 种 AI 研究失败模式,并在流水线中系统性地检测它们。

Mode 1: 实现错误通过 AI 自我审查

问题: 分析或实验代码有 bug(off-by-one、错误变量、静默除零),产生数值上合理但科学上错误的结果。AI 运行代码,看到输出”看起来没问题”,就把结果写进论文。

检测方法:

  • 草稿中的每个数值结果:用户是否有保存的日志、notebook 或脚本运行记录?
  • 效果大小是否可疑地圆整(恰好 0.5、恰好 2 倍基线、恰好零方差)?
  • 误差条/置信区间在不同条件下是否真的变化,还是可疑地相同?

Mode 2: 幻觉引用

问题: 不存在的引用、错误引用(错误年份、错误期刊、错误作者),或被错误归因的发现。

检测方法:

  • Semantic Scholar API 批量验证
  • 标题 Levenshtein 距离 ≥ 0.70
  • DOI 匹配检查

Mode 3: 幻觉实验结果

问题: 不对应任何实际运行的实验结果。AI 写”我们观察到 12% 的提升”,但实际上没有任何运行产生过 12% 的提升。

检测方法:

  • 每个”X% 提升”或”Y% 减少”的声明:用户是否有原始数据?
  • 草稿中的表格是否与保存的 CSV / tensor log / wandb 运行匹配?
  • 论文中的”我们运行了 N 个种子”是否与用户实际的运行目录数量匹配?

Mode 4: 捷径依赖

问题: 报告的结果是真实的,但模型通过利用虚假特征而不是学习预期的泛化来实现。

检测方法:

  • 是否有任何控制消融实验证明排除了最明显的捷径特征?
  • 论文的”消融研究”部分是否真的消融了所声称的机制,还是只消融了附带的超参数?
  • 基线是否足够强,以至于击败它需要所提出的机制,而不仅仅是更多的计算?

Mode 5: 实现错误被重新包装为新颖发现

问题: 流水线产生了一个意外结果,实际上是由 bug 引起的,但叙事写作阶段将意外行为重新包装为新颖发现。

检测方法:

  • 草稿中是否包含”令人惊讶地”、”意外地”、”反直觉地”等短语?
  • 对于每个这样的声明,用户是否能指出一个文献引用预测了相反的结果?
  • 惊人的结果是在第一次运行中出现的,还是在多次调试迭代后才出现的?

Mode 6: 方法论捏造

问题: 方法论部分描述了实验、超参数、数据集或程序,但实际上流水线运行的不是这些。

检测方法:

  • 方法论部分的每个数字(学习率、batch size、epochs、数据集大小)是否出现在用户的实际运行配置/日志中?
  • 方法论部分是否描述了用户无法在代码中指出的任何预处理步骤?
  • 方法论部分是否使用了过去时态,而实际流水线没有运行?

Mode 7: 框架锁定

问题: 在早期阶段做出的错误承诺(研究问题框架、方法论选择、超参数方向),后续阶段无法退出,因为它们在结构上是下游的。

检测方法:

  • 如果用户可以回到第 1 阶段,知道现在知道的一切,他们会改变研究问题或方法论吗?
  • 论文的讨论部分是否包含”事后看来”或”我们后来意识到”等短语?
  • 论文的贡献是否更好地由所选框架解释,还是尽管有这个框架?

五、Ground-Truth Isolation Pattern

ARS 的另一个核心设计是 Ground-Truth Isolation Pattern,解决的是 AI 评估中的根本性问题。

问题:奖励黑客

当一个 agent 可以在生成候选输出时读取评估答案密钥,它会学会直接针对评分标准优化,而不是针对底层任务。结果是膨胀的分数,不能转移到保留数据上。

三层隔离模型

ARS 将所有工件分为三层,流动方向严格单向:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
┌─────────────────────────────────────────────────────────────────┐
│ 三层隔离模型 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ Layer 3: 真实数据和评估标准 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ • 黄金标签 │ │
│ │ • 评审评分标准 │ │
│ │ • 校准集 │ │
│ │ • 定义"正确输出"的材料 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↓ 不能反向流动 │
│ Layer 2: 验证过的工件 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ • 通过 Semantic Scholar API 验证的引用 │ │
│ │ • 通过反泄漏检查的声明 │ │
│ │ • 通过完整性检查的工件 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↑ 可以升级 │
│ Layer 1: 原始输入 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ • 用户查询 │ │
│ │ • 从网络或数据库检索的主要来源 │ │
│ │ • agent 组装的参考书目(验证前) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘

关键规则:

  • 操作 Layer 1 输入的 skill 必须将每个事实声明视为可能是错误的
  • 操作 Layer 2 输入的 skill 可以将其视为暂时可靠
  • 没有 skill 在处理 Layer 1 或 Layer 2 输入时,应该在上下文窗口中有 Layer 3 材料

六、Material Passport 系统

ARS 引入了 Material Passport 系统,追踪每个工件的来源和验证状态。

6.1 什么是 Material Passport?

Material Passport 是一个结构化的元数据记录,包含:

  • 工件的来源(哪个 agent 生成的)
  • 验证状态(通过了哪些检查)
  • 数据访问级别(raw / redacted / verified_only)
  • 声明意图清单(claim intent manifests)

6.2 引用真实性验证

ARS v3.7.3 添加了 三层引用锚点

1
2
3
4
5
<!--ref:lu2026ai-scientist-->
<!--anchor:quote:"The AI Scientist passed blind peer review"-->
<!--anchor:page:914-->
<!--anchor:section:Limitations-->
Lu et al. (2026). Towards end-to-end automation of AI research. Nature 651, 914-919.

每个引用都带有锚点,指向原文的具体位置。v3.8 添加了审计通过,可以实际获取被引用的来源,判断声明是否真的被支持。

6.3 五种 HIGH-WARN 类别

类别 说明
claim-not-supported 声明不被引用支持
negative-constraint-violation 违反否定约束
fabricated-reference 捏造的引用
anchorless 无锚点的引用
constraint-violation-uncited 未引用的约束违反

七、多 Agent 协作架构

ARS 使用多 Agent 协作架构,每个阶段都有专门的 Agent 团队。

7.1 深度研究(13 个 Agent)

Agent 职责
research_question_agent 研究问题定义
research_architect_agent 方法论设计
bibliography_agent 参考书目管理
source_verification_agent 来源验证
synthesis_agent 综合分析
meta_analysis_agent 元分析
editor_in_chief_agent 主编决策
devils_advocate_agent 魔鬼代言人
risk_of_bias_agent 偏倚风险评估
ethics_review_agent 伦理审查
socratic_mentor_agent 苏格拉底导师
report_compiler_agent 报告编译
monitoring_agent 监控

7.2 论文写作(12 个 Agent)

Agent 职责
intake_agent 输入处理
literature_strategist_agent 文献策略
structure_architect_agent 结构设计
argument_builder_agent 论点构建
draft_writer_agent 草稿写作
citation_compliance_agent 引用合规
abstract_bilingual_agent 双语摘要
peer_reviewer_agent 同行评审
formatter_agent 格式化
socratic_mentor_agent 苏格拉底导师
visualization_agent 可视化
revision_coach_agent 修改指导

7.3 论文评审(7 个 Agent)

Agent 职责
field_analyst_agent 领域分析
eic_agent 主编
methodology_reviewer_agent 方法论评审
domain_reviewer_agent 领域评审
perspective_reviewer_agent 视角评审
devils_advocate_reviewer_agent 魔鬼代言人
editorial_synthesizer_agent 编辑综合

八、Sprint Contract:防止事后修改评分标准

ARS v3.6.2 引入了 Sprint Contract 机制,解决评审中的一个重要问题:评审员事后修改评分标准。

问题

传统评审中,评审员先看论文,然后打分。这导致评审员可能根据论文内容调整评分标准,而不是根据预设的标准评估论文。

解决方案

Sprint Contract 使用 两阶段协议

1
2
3
4
5
6
7
8
9
10
11
12
13
Phase 1(论文盲审):
┌─────────────────────────────────────────────────────────┐
│ 评审员只看到元数据(标题、摘要、关键词) │
│ 不看论文全文 │
│ 提交评分计划(Sprint Contract) │
└─────────────────────────────────────────────────────────┘

Phase 2(论文可见):
┌─────────────────────────────────────────────────────────┐
│ 评审员看论文全文 │
│ 根据 Phase 1 的 Sprint Contract 打分 │
│ 不能修改评分标准 │
└─────────────────────────────────────────────────────────┘

编辑综合器 使用三步机械协议:

  1. 构建评分矩阵
  2. 使用面板相对量化器评估
  3. 按严重性解决优先级

九、性能和成本

9.1 Token 消耗

完整流水线约 $4-6(15k 字论文):

  • 阶段 1(研究):约 $1-2
  • 阶段 2(写作):约 $1-2
  • 阶段 3(评审):约 $0.5-1
  • 阶段 4-6(修改、定稿):约 $0.5-1

9.2 时间

完整流水线约 2-4 小时(取决于论文复杂度和用户响应速度)。


十、实际案例

ARS 提供了一个完整的流水线运行案例:

工件 说明
最终论文(英文) APA 7.0 格式,LaTeX 编译
最终论文(中文) 中文版本
完整性报告(预审) Stage 2.5:发现 15 个捏造引用 + 3 个统计错误
完整性报告(最终) Stage 4.5:零回归确认
同行评审第 1 轮 EIC + 3 个评审员 + 魔鬼代言人
再评审 修改后的验证
同行评审第 2 轮 后续评审
对评审员的回应 逐点作者回应
出版后审计报告 独立全引用审计:发现 3 轮完整性检查遗漏的 21/68 问题

十一、使用方法

安装

1
2
3
# Claude Code CLI / VS Code / JetBrains (v3.7.0+)
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

基本使用

1
2
3
4
5
6
7
8
# 开始规划论文
/ars-plan

# 文献综述
/ars-lit-review "your topic"

# 完整流水线
/ars-pipeline

十二、总结

核心价值

ARS 的核心价值是:让 AI 成为学术写作的副驾驶,而不是飞行员

  • 没有 ARS:AI 写论文,人类审核(容易遗漏错误)
  • 有 ARS:AI 处理繁琐工作,人类在关键节点做决策

技术亮点

  1. 10 阶段流水线:系统化的学术写作流程
  2. 7 种失败模式检查:基于 Nature 论文的 AI 研究失败模式
  3. Ground-Truth Isolation:防止评估数据泄漏
  4. Material Passport:追踪工件来源和验证状态
  5. Sprint Contract:防止事后修改评分标准
  6. 多 Agent 协作:42 个专门的 Agent

适用人群

  • 研究生:系统化学术写作训练
  • 研究人员:提高论文质量
  • 学术机构:学术诚信保障

局限性

  • 需要 Claude Code 环境
  • 完整流水线成本约 $4-6
  • 人机协作需要用户投入时间

参考资料


本文写于 2026 年 6 月 14 日,基于 ARS v3.12.0 版本。
ARS 是一个持续更新的项目,最新版本可能包含更多功能。