技术 AI 开源学术写作 Claude Code

ARS：让 AI 成为学术写作的副驾驶，而不是飞行员

Areay2026-06-142026-06-22

一、引言：AI 写论文的困境

2026 年，Lu et al. 在 Nature 上发表了一篇里程碑式的论文：The AI Scientist —— 第一个通过盲审的全自动 AI 研究系统。

但他们的 Limitations 部分列举了一系列令人不安的失败模式：

实现错误通过了 AI 自我审查
幻觉引用
幻觉实验结果
捷径依赖
实现错误被重新包装为”新颖发现”
方法论捏造
框架锁定

这些失败很危险，因为它们看起来和正确的论文一模一样。

一篇包含幻觉实验结果的论文，读起来和包含真实结果的论文一样。一篇描述从未运行过的实验的方法论，读起来和忠实记录的一样。

二、ARS 是什么？

ARS（Academic Research Skills） 是 Claude Code 的学术研究技能套件，31.3k Stars，覆盖从研究到发表的完整流程。

核心理念：

“AI is your copilot, not the pilot. This tool won’t write your paper for you. It handles the grunt work — hunting down references, formatting citations, verifying data, checking logical consistency — so you can focus on the parts that actually require your brain.”

与全自动系统的区别：

系统	定位	问题
The AI Scientist	全自动	7 种失败模式，无法自我检测
ARS	人机协作	人类在关键节点做决策，AI 处理繁琐工作

三、架构设计：10 阶段流水线

ARS 的核心是一个 10 阶段流水线，每个阶段都有明确的输入、输出和质量门禁。

┌─────────────────────────────────────────────────────────────────┐
│                        ARS 流水线架构                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  1. RESEARCH ──→ 2. WRITE ──→ 2.5 INTEGRITY ──→ 3. REVIEW     │
│     (研究)        (写作)        (完整性检查)       (评审)         │
│       ↑                          │                    │         │
│       │                          ↓                    ↓         │
│       │                    FAIL ──→ 修复 ──→ 4. REVISE          │
│       │                                    (修改)               │
│       │                                        │               │
│       │                                        ↓               │
│       │                                  3'. RE-REVIEW          │
│       │                                    (再评审)             │
│       │                                        │               │
│       │                                        ↓               │
│       │                                  4'. RE-REVISE          │
│       │                                    (最终修改)            │
│       │                                        │               │
│       │                                        ↓               │
│       │                                  4.5 FINAL INTEGRITY    │
│       │                                    (最终完整性检查)       │
│       │                                        │               │
│       │                                        ↓               │
│       │                                  5. FINALIZE            │
│       │                                    (定稿)               │
│       │                                        │               │
│       │                                        ↓               │
│       └────────────────────────────── 6. PROCESS SUMMARY        │
│                                        (流程总结)                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.1 两类门禁

ARS 有两类用户检查点：

决策密集型门禁（🧑） —— 用户选择分支或批准重要决策：

阶段	用户决策
1. RESEARCH	确认研究问题和方法论
2. WRITE	确认大纲
3. REVIEW	编辑决定（Accept / Minor / Major / Reject）
4. REVISE	确认修改

完整性门禁（✓） —— 机器验证 + 用户确认：

阶段	验证内容
2.5 INTEGRITY	7 种 AI 失败模式检查
4.5 FINAL INTEGRITY	深度检查，零容忍

四、核心技术：7 种 AI 研究失败模式检查

ARS 的核心创新是基于 Lu et al. (2026, Nature) 的研究，定义了 7 种 AI 研究失败模式，并在流水线中系统性地检测它们。

Mode 1: 实现错误通过 AI 自我审查

问题： 分析或实验代码有 bug（off-by-one、错误变量、静默除零），产生数值上合理但科学上错误的结果。AI 运行代码，看到输出”看起来没问题”，就把结果写进论文。

检测方法：

草稿中的每个数值结果：用户是否有保存的日志、notebook 或脚本运行记录？
效果大小是否可疑地圆整（恰好 0.5、恰好 2 倍基线、恰好零方差）？
误差条/置信区间在不同条件下是否真的变化，还是可疑地相同？

Mode 2: 幻觉引用

问题： 不存在的引用、错误引用（错误年份、错误期刊、错误作者），或被错误归因的发现。

检测方法：

Semantic Scholar API 批量验证
标题 Levenshtein 距离 ≥ 0.70
DOI 匹配检查

Mode 3: 幻觉实验结果

问题： 不对应任何实际运行的实验结果。AI 写”我们观察到 12% 的提升”，但实际上没有任何运行产生过 12% 的提升。

检测方法：

每个”X% 提升”或”Y% 减少”的声明：用户是否有原始数据？
草稿中的表格是否与保存的 CSV / tensor log / wandb 运行匹配？
论文中的”我们运行了 N 个种子”是否与用户实际的运行目录数量匹配？

Mode 4: 捷径依赖

问题： 报告的结果是真实的，但模型通过利用虚假特征而不是学习预期的泛化来实现。

检测方法：

是否有任何控制消融实验证明排除了最明显的捷径特征？
论文的”消融研究”部分是否真的消融了所声称的机制，还是只消融了附带的超参数？
基线是否足够强，以至于击败它需要所提出的机制，而不仅仅是更多的计算？

Mode 5: 实现错误被重新包装为新颖发现

问题： 流水线产生了一个意外结果，实际上是由 bug 引起的，但叙事写作阶段将意外行为重新包装为新颖发现。

检测方法：

草稿中是否包含”令人惊讶地”、”意外地”、”反直觉地”等短语？
对于每个这样的声明，用户是否能指出一个文献引用预测了相反的结果？
惊人的结果是在第一次运行中出现的，还是在多次调试迭代后才出现的？

Mode 6: 方法论捏造

问题： 方法论部分描述了实验、超参数、数据集或程序，但实际上流水线运行的不是这些。

检测方法：

方法论部分的每个数字（学习率、batch size、epochs、数据集大小）是否出现在用户的实际运行配置/日志中？
方法论部分是否描述了用户无法在代码中指出的任何预处理步骤？
方法论部分是否使用了过去时态，而实际流水线没有运行？

Mode 7: 框架锁定

问题： 在早期阶段做出的错误承诺（研究问题框架、方法论选择、超参数方向），后续阶段无法退出，因为它们在结构上是下游的。

检测方法：

如果用户可以回到第 1 阶段，知道现在知道的一切，他们会改变研究问题或方法论吗？
论文的讨论部分是否包含”事后看来”或”我们后来意识到”等短语？
论文的贡献是否更好地由所选框架解释，还是尽管有这个框架？

五、Ground-Truth Isolation Pattern

ARS 的另一个核心设计是 Ground-Truth Isolation Pattern，解决的是 AI 评估中的根本性问题。

问题：奖励黑客

当一个 agent 可以在生成候选输出时读取评估答案密钥，它会学会直接针对评分标准优化，而不是针对底层任务。结果是膨胀的分数，不能转移到保留数据上。

三层隔离模型

ARS 将所有工件分为三层，流动方向严格单向：

┌─────────────────────────────────────────────────────────────────┐
│                    三层隔离模型                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  Layer 3: 真实数据和评估标准                                      │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │ • 黄金标签                                               │   │
│  │ • 评审评分标准                                           │   │
│  │ • 校准集                                                 │   │
│  │ • 定义"正确输出"的材料                                    │   │
│  └─────────────────────────────────────────────────────────┘   │
│                          ↓ 不能反向流动                          │
│  Layer 2: 验证过的工件                                           │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │ • 通过 Semantic Scholar API 验证的引用                    │   │
│  │ • 通过反泄漏检查的声明                                    │   │
│  │ • 通过完整性检查的工件                                    │   │
│  └─────────────────────────────────────────────────────────┘   │
│                          ↑ 可以升级                              │
│  Layer 1: 原始输入                                               │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │ • 用户查询                                               │   │
│  │ • 从网络或数据库检索的主要来源                              │   │
│  │ • agent 组装的参考书目（验证前）                            │   │
│  └─────────────────────────────────────────────────────────┘   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

关键规则：

操作 Layer 1 输入的 skill 必须将每个事实声明视为可能是错误的
操作 Layer 2 输入的 skill 可以将其视为暂时可靠
没有 skill 在处理 Layer 1 或 Layer 2 输入时，应该在上下文窗口中有 Layer 3 材料

六、Material Passport 系统

ARS 引入了 Material Passport 系统，追踪每个工件的来源和验证状态。

6.1 什么是 Material Passport？

Material Passport 是一个结构化的元数据记录，包含：

工件的来源（哪个 agent 生成的）
验证状态（通过了哪些检查）
数据访问级别（raw / redacted / verified_only）
声明意图清单（claim intent manifests）

6.2 引用真实性验证

ARS v3.7.3 添加了 三层引用锚点：

<!--ref:lu2026ai-scientist-->
<!--anchor:quote:"The AI Scientist passed blind peer review"-->
<!--anchor:page:914-->
<!--anchor:section:Limitations-->
Lu et al. (2026). Towards end-to-end automation of AI research. Nature 651, 914-919.

每个引用都带有锚点，指向原文的具体位置。v3.8 添加了审计通过，可以实际获取被引用的来源，判断声明是否真的被支持。

6.3 五种 HIGH-WARN 类别

类别	说明
`claim-not-supported`	声明不被引用支持
`negative-constraint-violation`	违反否定约束
`fabricated-reference`	捏造的引用
`anchorless`	无锚点的引用
`constraint-violation-uncited`	未引用的约束违反

七、多 Agent 协作架构

ARS 使用多 Agent 协作架构，每个阶段都有专门的 Agent 团队。

7.1 深度研究（13 个 Agent）

Agent	职责
`research_question_agent`	研究问题定义
`research_architect_agent`	方法论设计
`bibliography_agent`	参考书目管理
`source_verification_agent`	来源验证
`synthesis_agent`	综合分析
`meta_analysis_agent`	元分析
`editor_in_chief_agent`	主编决策
`devils_advocate_agent`	魔鬼代言人
`risk_of_bias_agent`	偏倚风险评估
`ethics_review_agent`	伦理审查
`socratic_mentor_agent`	苏格拉底导师
`report_compiler_agent`	报告编译
`monitoring_agent`	监控

7.2 论文写作（12 个 Agent）

Agent	职责
`intake_agent`	输入处理
`literature_strategist_agent`	文献策略
`structure_architect_agent`	结构设计
`argument_builder_agent`	论点构建
`draft_writer_agent`	草稿写作
`citation_compliance_agent`	引用合规
`abstract_bilingual_agent`	双语摘要
`peer_reviewer_agent`	同行评审
`formatter_agent`	格式化
`socratic_mentor_agent`	苏格拉底导师
`visualization_agent`	可视化
`revision_coach_agent`	修改指导

7.3 论文评审（7 个 Agent）

Agent	职责
`field_analyst_agent`	领域分析
`eic_agent`	主编
`methodology_reviewer_agent`	方法论评审
`domain_reviewer_agent`	领域评审
`perspective_reviewer_agent`	视角评审
`devils_advocate_reviewer_agent`	魔鬼代言人
`editorial_synthesizer_agent`	编辑综合

八、Sprint Contract：防止事后修改评分标准

ARS v3.6.2 引入了 Sprint Contract 机制，解决评审中的一个重要问题：评审员事后修改评分标准。

问题

传统评审中，评审员先看论文，然后打分。这导致评审员可能根据论文内容调整评分标准，而不是根据预设的标准评估论文。

解决方案

Sprint Contract 使用 两阶段协议：

Phase 1（论文盲审）：
  ┌─────────────────────────────────────────────────────────┐
  │ 评审员只看到元数据（标题、摘要、关键词）                      │
  │ 不看论文全文                                              │
  │ 提交评分计划（Sprint Contract）                           │
  └─────────────────────────────────────────────────────────┘
                          ↓
Phase 2（论文可见）：
  ┌─────────────────────────────────────────────────────────┐
  │ 评审员看论文全文                                          │
  │ 根据 Phase 1 的 Sprint Contract 打分                     │
  │ 不能修改评分标准                                          │
  └─────────────────────────────────────────────────────────┘

编辑综合器 使用三步机械协议：

构建评分矩阵
使用面板相对量化器评估
按严重性解决优先级

九、性能和成本

9.1 Token 消耗

完整流水线约 $4-6（15k 字论文）：

阶段 1（研究）：约 $1-2
阶段 2（写作）：约 $1-2
阶段 3（评审）：约 $0.5-1
阶段 4-6（修改、定稿）：约 $0.5-1

9.2 时间

完整流水线约 2-4 小时（取决于论文复杂度和用户响应速度）。

十、实际案例

ARS 提供了一个完整的流水线运行案例：

工件	说明
最终论文（英文）	APA 7.0 格式，LaTeX 编译
最终论文（中文）	中文版本
完整性报告（预审）	Stage 2.5：发现 15 个捏造引用 + 3 个统计错误
完整性报告（最终）	Stage 4.5：零回归确认
同行评审第 1 轮	EIC + 3 个评审员 + 魔鬼代言人
再评审	修改后的验证
同行评审第 2 轮	后续评审
对评审员的回应	逐点作者回应
出版后审计报告	独立全引用审计：发现 3 轮完整性检查遗漏的 21/68 问题

十一、使用方法

安装

1
2
3

# Claude Code CLI / VS Code / JetBrains (v3.7.0+)
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

基本使用

# 开始规划论文
/ars-plan

# 文献综述
/ars-lit-review "your topic"

# 完整流水线
/ars-pipeline

十二、总结

核心价值

ARS 的核心价值是：让 AI 成为学术写作的副驾驶，而不是飞行员。

没有 ARS：AI 写论文，人类审核（容易遗漏错误）
有 ARS：AI 处理繁琐工作，人类在关键节点做决策

技术亮点

10 阶段流水线：系统化的学术写作流程
7 种失败模式检查：基于 Nature 论文的 AI 研究失败模式
Ground-Truth Isolation：防止评估数据泄漏
Material Passport：追踪工件来源和验证状态
Sprint Contract：防止事后修改评分标准
多 Agent 协作：42 个专门的 Agent

适用人群

研究生：系统化学术写作训练
研究人员：提高论文质量
学术机构：学术诚信保障

局限性

需要 Claude Code 环境
完整流水线成本约 $4-6
人机协作需要用户投入时间

参考资料

本文写于 2026 年 6 月 14 日，基于 ARS v3.12.0 版本。
ARS 是一个持续更新的项目，最新版本可能包含更多功能。