ARS:让 AI 成为学术写作的副驾驶,而不是飞行员
ARS:让 AI 成为学术写作的副驾驶,而不是飞行员
Areay一、引言:AI 写论文的困境
2026 年,Lu et al. 在 Nature 上发表了一篇里程碑式的论文:The AI Scientist —— 第一个通过盲审的全自动 AI 研究系统。
但他们的 Limitations 部分列举了一系列令人不安的失败模式:
- 实现错误通过了 AI 自我审查
- 幻觉引用
- 幻觉实验结果
- 捷径依赖
- 实现错误被重新包装为”新颖发现”
- 方法论捏造
- 框架锁定
这些失败很危险,因为它们看起来和正确的论文一模一样。
一篇包含幻觉实验结果的论文,读起来和包含真实结果的论文一样。一篇描述从未运行过的实验的方法论,读起来和忠实记录的一样。
二、ARS 是什么?
ARS(Academic Research Skills) 是 Claude Code 的学术研究技能套件,31.3k Stars,覆盖从研究到发表的完整流程。
核心理念:
“AI is your copilot, not the pilot. This tool won’t write your paper for you. It handles the grunt work — hunting down references, formatting citations, verifying data, checking logical consistency — so you can focus on the parts that actually require your brain.”
与全自动系统的区别:
| 系统 | 定位 | 问题 |
|---|---|---|
| The AI Scientist | 全自动 | 7 种失败模式,无法自我检测 |
| ARS | 人机协作 | 人类在关键节点做决策,AI 处理繁琐工作 |
三、架构设计:10 阶段流水线
ARS 的核心是一个 10 阶段流水线,每个阶段都有明确的输入、输出和质量门禁。
1 | ┌─────────────────────────────────────────────────────────────────┐ |
3.1 两类门禁
ARS 有两类用户检查点:
决策密集型门禁(🧑) —— 用户选择分支或批准重要决策:
| 阶段 | 用户决策 |
|---|---|
| 1. RESEARCH | 确认研究问题和方法论 |
| 2. WRITE | 确认大纲 |
| 3. REVIEW | 编辑决定(Accept / Minor / Major / Reject) |
| 4. REVISE | 确认修改 |
完整性门禁(✓) —— 机器验证 + 用户确认:
| 阶段 | 验证内容 |
|---|---|
| 2.5 INTEGRITY | 7 种 AI 失败模式检查 |
| 4.5 FINAL INTEGRITY | 深度检查,零容忍 |
四、核心技术:7 种 AI 研究失败模式检查
ARS 的核心创新是基于 Lu et al. (2026, Nature) 的研究,定义了 7 种 AI 研究失败模式,并在流水线中系统性地检测它们。
Mode 1: 实现错误通过 AI 自我审查
问题: 分析或实验代码有 bug(off-by-one、错误变量、静默除零),产生数值上合理但科学上错误的结果。AI 运行代码,看到输出”看起来没问题”,就把结果写进论文。
检测方法:
- 草稿中的每个数值结果:用户是否有保存的日志、notebook 或脚本运行记录?
- 效果大小是否可疑地圆整(恰好 0.5、恰好 2 倍基线、恰好零方差)?
- 误差条/置信区间在不同条件下是否真的变化,还是可疑地相同?
Mode 2: 幻觉引用
问题: 不存在的引用、错误引用(错误年份、错误期刊、错误作者),或被错误归因的发现。
检测方法:
- Semantic Scholar API 批量验证
- 标题 Levenshtein 距离 ≥ 0.70
- DOI 匹配检查
Mode 3: 幻觉实验结果
问题: 不对应任何实际运行的实验结果。AI 写”我们观察到 12% 的提升”,但实际上没有任何运行产生过 12% 的提升。
检测方法:
- 每个”X% 提升”或”Y% 减少”的声明:用户是否有原始数据?
- 草稿中的表格是否与保存的 CSV / tensor log / wandb 运行匹配?
- 论文中的”我们运行了 N 个种子”是否与用户实际的运行目录数量匹配?
Mode 4: 捷径依赖
问题: 报告的结果是真实的,但模型通过利用虚假特征而不是学习预期的泛化来实现。
检测方法:
- 是否有任何控制消融实验证明排除了最明显的捷径特征?
- 论文的”消融研究”部分是否真的消融了所声称的机制,还是只消融了附带的超参数?
- 基线是否足够强,以至于击败它需要所提出的机制,而不仅仅是更多的计算?
Mode 5: 实现错误被重新包装为新颖发现
问题: 流水线产生了一个意外结果,实际上是由 bug 引起的,但叙事写作阶段将意外行为重新包装为新颖发现。
检测方法:
- 草稿中是否包含”令人惊讶地”、”意外地”、”反直觉地”等短语?
- 对于每个这样的声明,用户是否能指出一个文献引用预测了相反的结果?
- 惊人的结果是在第一次运行中出现的,还是在多次调试迭代后才出现的?
Mode 6: 方法论捏造
问题: 方法论部分描述了实验、超参数、数据集或程序,但实际上流水线运行的不是这些。
检测方法:
- 方法论部分的每个数字(学习率、batch size、epochs、数据集大小)是否出现在用户的实际运行配置/日志中?
- 方法论部分是否描述了用户无法在代码中指出的任何预处理步骤?
- 方法论部分是否使用了过去时态,而实际流水线没有运行?
Mode 7: 框架锁定
问题: 在早期阶段做出的错误承诺(研究问题框架、方法论选择、超参数方向),后续阶段无法退出,因为它们在结构上是下游的。
检测方法:
- 如果用户可以回到第 1 阶段,知道现在知道的一切,他们会改变研究问题或方法论吗?
- 论文的讨论部分是否包含”事后看来”或”我们后来意识到”等短语?
- 论文的贡献是否更好地由所选框架解释,还是尽管有这个框架?
五、Ground-Truth Isolation Pattern
ARS 的另一个核心设计是 Ground-Truth Isolation Pattern,解决的是 AI 评估中的根本性问题。
问题:奖励黑客
当一个 agent 可以在生成候选输出时读取评估答案密钥,它会学会直接针对评分标准优化,而不是针对底层任务。结果是膨胀的分数,不能转移到保留数据上。
三层隔离模型
ARS 将所有工件分为三层,流动方向严格单向:
1 | ┌─────────────────────────────────────────────────────────────────┐ |
关键规则:
- 操作 Layer 1 输入的 skill 必须将每个事实声明视为可能是错误的
- 操作 Layer 2 输入的 skill 可以将其视为暂时可靠
- 没有 skill 在处理 Layer 1 或 Layer 2 输入时,应该在上下文窗口中有 Layer 3 材料
六、Material Passport 系统
ARS 引入了 Material Passport 系统,追踪每个工件的来源和验证状态。
6.1 什么是 Material Passport?
Material Passport 是一个结构化的元数据记录,包含:
- 工件的来源(哪个 agent 生成的)
- 验证状态(通过了哪些检查)
- 数据访问级别(raw / redacted / verified_only)
- 声明意图清单(claim intent manifests)
6.2 引用真实性验证
ARS v3.7.3 添加了 三层引用锚点:
1 | <!--ref:lu2026ai-scientist--> |
每个引用都带有锚点,指向原文的具体位置。v3.8 添加了审计通过,可以实际获取被引用的来源,判断声明是否真的被支持。
6.3 五种 HIGH-WARN 类别
| 类别 | 说明 |
|---|---|
claim-not-supported |
声明不被引用支持 |
negative-constraint-violation |
违反否定约束 |
fabricated-reference |
捏造的引用 |
anchorless |
无锚点的引用 |
constraint-violation-uncited |
未引用的约束违反 |
七、多 Agent 协作架构
ARS 使用多 Agent 协作架构,每个阶段都有专门的 Agent 团队。
7.1 深度研究(13 个 Agent)
| Agent | 职责 |
|---|---|
research_question_agent |
研究问题定义 |
research_architect_agent |
方法论设计 |
bibliography_agent |
参考书目管理 |
source_verification_agent |
来源验证 |
synthesis_agent |
综合分析 |
meta_analysis_agent |
元分析 |
editor_in_chief_agent |
主编决策 |
devils_advocate_agent |
魔鬼代言人 |
risk_of_bias_agent |
偏倚风险评估 |
ethics_review_agent |
伦理审查 |
socratic_mentor_agent |
苏格拉底导师 |
report_compiler_agent |
报告编译 |
monitoring_agent |
监控 |
7.2 论文写作(12 个 Agent)
| Agent | 职责 |
|---|---|
intake_agent |
输入处理 |
literature_strategist_agent |
文献策略 |
structure_architect_agent |
结构设计 |
argument_builder_agent |
论点构建 |
draft_writer_agent |
草稿写作 |
citation_compliance_agent |
引用合规 |
abstract_bilingual_agent |
双语摘要 |
peer_reviewer_agent |
同行评审 |
formatter_agent |
格式化 |
socratic_mentor_agent |
苏格拉底导师 |
visualization_agent |
可视化 |
revision_coach_agent |
修改指导 |
7.3 论文评审(7 个 Agent)
| Agent | 职责 |
|---|---|
field_analyst_agent |
领域分析 |
eic_agent |
主编 |
methodology_reviewer_agent |
方法论评审 |
domain_reviewer_agent |
领域评审 |
perspective_reviewer_agent |
视角评审 |
devils_advocate_reviewer_agent |
魔鬼代言人 |
editorial_synthesizer_agent |
编辑综合 |
八、Sprint Contract:防止事后修改评分标准
ARS v3.6.2 引入了 Sprint Contract 机制,解决评审中的一个重要问题:评审员事后修改评分标准。
问题
传统评审中,评审员先看论文,然后打分。这导致评审员可能根据论文内容调整评分标准,而不是根据预设的标准评估论文。
解决方案
Sprint Contract 使用 两阶段协议:
1 | Phase 1(论文盲审): |
编辑综合器 使用三步机械协议:
- 构建评分矩阵
- 使用面板相对量化器评估
- 按严重性解决优先级
九、性能和成本
9.1 Token 消耗
完整流水线约 $4-6(15k 字论文):
- 阶段 1(研究):约 $1-2
- 阶段 2(写作):约 $1-2
- 阶段 3(评审):约 $0.5-1
- 阶段 4-6(修改、定稿):约 $0.5-1
9.2 时间
完整流水线约 2-4 小时(取决于论文复杂度和用户响应速度)。
十、实际案例
ARS 提供了一个完整的流水线运行案例:
| 工件 | 说明 |
|---|---|
| 最终论文(英文) | APA 7.0 格式,LaTeX 编译 |
| 最终论文(中文) | 中文版本 |
| 完整性报告(预审) | Stage 2.5:发现 15 个捏造引用 + 3 个统计错误 |
| 完整性报告(最终) | Stage 4.5:零回归确认 |
| 同行评审第 1 轮 | EIC + 3 个评审员 + 魔鬼代言人 |
| 再评审 | 修改后的验证 |
| 同行评审第 2 轮 | 后续评审 |
| 对评审员的回应 | 逐点作者回应 |
| 出版后审计报告 | 独立全引用审计:发现 3 轮完整性检查遗漏的 21/68 问题 |
十一、使用方法
安装
1 | # Claude Code CLI / VS Code / JetBrains (v3.7.0+) |
基本使用
1 | # 开始规划论文 |
十二、总结
核心价值
ARS 的核心价值是:让 AI 成为学术写作的副驾驶,而不是飞行员。
- 没有 ARS:AI 写论文,人类审核(容易遗漏错误)
- 有 ARS:AI 处理繁琐工作,人类在关键节点做决策
技术亮点
- 10 阶段流水线:系统化的学术写作流程
- 7 种失败模式检查:基于 Nature 论文的 AI 研究失败模式
- Ground-Truth Isolation:防止评估数据泄漏
- Material Passport:追踪工件来源和验证状态
- Sprint Contract:防止事后修改评分标准
- 多 Agent 协作:42 个专门的 Agent
适用人群
- 研究生:系统化学术写作训练
- 研究人员:提高论文质量
- 学术机构:学术诚信保障
局限性
- 需要 Claude Code 环境
- 完整流水线成本约 $4-6
- 人机协作需要用户投入时间
参考资料
- ARS GitHub
- Lu et al. (2026). Towards end-to-end automation of AI research. Nature 651, 914-919.
- ARS Architecture Documentation
本文写于 2026 年 6 月 14 日,基于 ARS v3.12.0 版本。
ARS 是一个持续更新的项目,最新版本可能包含更多功能。