📰 来源:36氪

听雨 发自 凹非寺量子位 | 公众号 QbitAI 用Claude Code写论文的一整套流水线,有人打包开源出来了。 完全戳中了学生党的痛点,github星标直达6.4k。 academic-research-skills 项目名叫academic-research-skills(以下简称ARS),是一套Claude Code技能包。 里面涵盖4个skill,分别对应论文的研究、写作、审稿、定稿。 只需两行命令安装,直接一条龙串起整套学术研究流水线。 academic-research-skills 只能说,我读研的时候怎么没碰到这种好东西呢… 示意图 4个skill,跑通整套科研流程 ARS的核心架构由4个skill组成,它们各司其职,拼在一起就是一条从选题到交稿的完整链路。 我这里还做了图,大家可以看得比较直观: △ Deep Research是一支13个Agent的研究团队。 它负责文献调研、研究问题构建、方法论设计,还能写系统性的PRISMA综述。 团队里有专门做文献溯源的Agent,会调用Semantic Scholar API验证每一篇引用的真实性。 有苏格拉底导师Agent,通过对话引导研究者理清思路。 还有魔鬼代言人Agent,专门挑刺,防止研究者在早期就陷入思维定式。 △ Academic Paper是一支12个Agent的写作团队。 从大纲设计、论证构建、草稿撰写,到双语摘要生成、图表可视化、引用格式转换,全流程覆盖。 特别值得一提的是风格校准功能,AI会学习你过往作品的写作风格,让输出更像你自己写的,而不是千篇一律的AI味。 输出格式支持Markdown、DOCX、LaTeX,最终可以编译成APA 7.0或IEEE格式的PDF。 △ Academic Paper Reviewer是一支7个Agent的审稿团队。 模拟真实学术期刊的评审流程,由主编EIC带领三位领域审稿人,再加上一个魔鬼代言人,从方法论、学科视角、跨学科价值等多个维度打分。 评分采用0到100的量化标准,80分以上接受,65到79小修,50到64大修,50以下拒稿。 审稿团队还会输出详细的修改路线图,告诉作者下一步该做什么。 △ Academic Pipeline是流程编排器,把前面三个团队串联成一条10阶段的流水线。 从研究、写作、完整性检查、同行评审、修订、最终检查,到发表准备和流程总结,每个阶段都有明确的产物和检查点。 你可以在任意阶段插入,比如已经有了初稿,就从Stage 2.5的完整性检查开始;收到了审稿意见,直接从Stage 4的修订切入。 费用参考也很透明,一篇1.5万字的论文,全程跑下来大约4到6美元。 △ 比较有意思的设计 用Claude Code做学术研究的开源项目已经很多了,但是深扒之后,我发现ARS在底层设计上还是有些过人之处。 可以简单总结为一句话:系统性防止AI搞砸学术研究。 第一,引用核验。 AI写论文最忌讳的,就是幻觉引用。 不只是编造不存在的文章,还包括标题相似但作者年份全错、DOI真实但内容对不上等更隐蔽的情况。 ARS在Deep Research阶段就埋了一个引用核验机制,每一篇文献都要过Semantic Scholar API的存在性确认。 不是简单查一下标题对不对,而是用Levenshtein相似度算法做模糊匹配,阈值设在0.70以上才算通过。 △ 第二,完整性闸门。 在流水线的Stage 2.5和Stage 4.5,有两道不可跳过的完整性闸门,会运行一份7项AI失败模式检查清单。 这份清单直接来自2026年Nature上发表的一项全自主AI科研研究,其中总结了7种翻车模式,覆盖引用幻觉、数据捏造、方法论造假等情形。 7种翻车模式 任何在2.5被标记为SUSPECTED的问题,必须在4.5变成CLEAR,或者由人工手动覆盖并留下记录。 设计逻辑是:把「我相信AI不会出错」变成「我要求AI证明它没出错」。 实测中,这套机制在一篇真实论文里抓到了15个伪造引用和3个统计错误。 第三,反谄媚协议,让AI敢于说不。 大多数AI工具都有一个隐形毛病,讨好用户。你让它改,它就改,哪怕改得更差。 所以ARS在审稿环节专门设计了反谄媚机制。 审稿团队里有一个Devil’s Advocate,也就是魔鬼代言人,职责是挑刺。 但挑完刺之后,还有一个让步阈值协议。 DA的反驳会被评分1到5,如果低于4分,写作团队不允许承认。 △ 换句话说,AI不能为了显得好合作就轻易让步。 同时,攻击强度在修订过程中必须保持。如果第一轮审稿把方法论批得体无完肤,作者修订后不能让审稿人突然变得温柔。 评分轨迹也会被追踪,任何维度的分数下降都会被标记为回归。 这和软件工程里的不引入新Bug原则一样,改一个地方不能搞砸另一个地方。 第四,三


本文转载自 36氪,版权归原作者所有。