大语言模型如何影响天体物理学研究

池州记忆 · 发表于 2026-6-13 09:41:19

周一 · 知古通今|周二 · 牧夫专栏
周三 · 风月同天|周四 · 观测指南
周五 · 深空探测|周六 · 茶余星话|周日 · 太空探索
主译：遠山真理
校对：suu
审核：牧夫天文校对组
美编：余家劲
后台：王启儒
原作：
Hiranya V. Peiris, “Large language models are not the problem”, Nature Astronomy volume 10, pages472–474 (2026)
前言
如果一个大语言模型（LLM）能够复制你的科学贡献，那么问题不在于 LLM。
为什么我们这个领域中如此多关于人工智能的焦虑，都归结为害怕机器能够完成我们的工作？也许这说明，我们本该做得更好。
“复制人和其他机器没有区别——它们要么是有益的，要么是危险的。如果它们有益，那就不是我的问题。”
——Rick Deckard，《银翼杀手》（1982）
在 Ridley Scott 的电影《银翼杀手》中，Deckard 的工作是追捕失控的人工生命体——“复制人”（replicants），这些生物已经几乎无法与真人区分。他说出这句话时带着一种疲惫而笃定的自信，仿佛问题已经有了答案：如果工具是有益的，那就不必担心。当然，很快这件事就变成了他的麻烦。整部电影都在探讨这样一个问题：当工具与主体之间的界限不像人们原先以为的那样清晰时，会发生什么？
目前天体物理学界正围绕大语言模型展开热烈甚至有些夸张的讨论。我一直关注着这场讨论，因为我恰好就在许多人焦虑的那个领域工作。我的研究团队构建星系群体的生成模型，并开发面向大规模测光巡天的机器学习方法。我们使用机器学习并非把它当作黑箱，而是把它当作一种创造性的工具。它让我们能够完成过去根本做不到的事情。我自己也经常直接使用 LLM，后面我会介绍具体方式。我没有发现这让我成为一个更差的科学家——恰恰相反。
但这篇文章真正讨论的并不是 LLM。它讨论的是：围绕 LLM 的焦虑究竟揭示了什么。这些工具的出现，把科学实践、评价标准以及激励机制中长期存在的问题暴露得更加明显，诸如：论文工厂（paper mills）；缺乏创新的增量研究；重数量轻质量的文化；领域知识的不断流失。这些问题都早于 ChatGPT 的出现。它们并不是 AI 造成的，它们是我们组织和奖励科学工作的方式所造成的。LLM 只是让这些后果变得更难忽视而已。
特权与科研实践
我们每位科学家的工作，都嵌入在人类共同编织的宏大叙事之中——关于宇宙以及我们在其中的位置。我始终觉得，能够领取薪水去从事让我如此快乐的工作，是一种非凡的特权。因此，我也欠社会一笔债。纳税人、慈善基金会以及个人捐赠者之所以资助天体物理学研究，是因为他们相信这项工作有价值。这种特权既不是永久的，也不是无条件的。无论人们从事天体物理学的动机是什么，能够因此获得报酬本身就是一种幸运。而与这种幸运相对应的责任，就是把工作做好。正是这种信念塑造了我看待 LLM 的方式。
我是 X 世代的一员——经历了从模拟时代向数字时代转变的一代。因此，对我而言，拥抱新技术从来不是可选项，我也从未希望它成为可选项（译者注：而是必选项）。在职业生涯中，我多次改变研究方向。最近一次，当我的团队开始进入机器学习领域时，我又一次成为彻头彻尾的新手。每一次转型都要求我学习新的思维方式，但没有一次让科学变差。相反，它们都让科学变得更好。
我实际上如何使用 LLM
当前的很多讨论，把 LLM 在科研中的各种用途混为一谈。我认为有必要具体说明自己的实践。多年来，我一直依赖与值得信任的人讨论问题来磨炼思维。优秀的讨论伙伴会提出你从未想到的问题；或者发现你以为无懈可击的论证中的漏洞。我发现现代 LLM（我主要使用 Claude）能够扮演类似角色。
当然，它不能替代真正的人类同事。但它可以成为一个随时可得的“第一轮讨论对象”：帮助检验论证；发现推理漏洞；快速探索陌生领域。然后我再把经过整理的想法拿去与真正的合作者讨论。这些交流不会直接进入我的数据分析，它们进入的是我的思考过程。而思考本来就是它们应该存在的地方——没有人要求你公开每一次走廊里的学术讨论记录。
我的团队成员也使用 AI 辅助编程工具，但生成的代码从来不会被直接信任。它们会像任何团队成员写出的代码一样，经过验证测试，同行审查，然后纳入代码仓库。经过验证后的代码，其可重复性和可检查性与纯手工编写的代码完全一样。
有人担心：“LLM 不会对同一提示词？给出完全相同的答案。”这种担忧只在 LLM 输出本身就是最终科研成果时才成立。如果 LLM 的输出只是中间步骤，那么其非确定性并不比人类思维的非确定性更具有科学意义。
但是，我确实认同一种担忧，如果未来出现 AI 系统，能够设计科研项目，执行研究，撰写论文，自动投稿，而几乎没有人类监督，那么科学事业的核心——人类为关于自然界的主张承担责任——就会受到威胁。这是一个真实而严肃的问题。但当前讨论的问题在于：很多原本只适用于这种极端情形的焦虑，被错误地投射到了普通的 LLM 使用上。
LLM 揭示了什么
很多人担心 LLM 会向文献中灌入大量低质量论文。这种担忧并非毫无根据，但它忽略了关键事实——天体物理学文献早在 LLM 出现之前就已经存在质量问题：
· “发表或淘汰”（publish or perish）；
· 引用数作为影响力指标；
· 论文数量作为生产力指标；
这些激励机制几十年来一直在制造增量式研究，缺乏验证的代码，甚至错误的论文。同行评审体系早已不堪重负。论文工厂不是 AI 发明的，而是人类发明的。
许多人默认为，在天文学中创意很廉价，真正限制科研的是把创意变成论文所需的时间。我认为恰恰相反，科学家最困难的工作不是执行，而是判断哪些问题值得研究。同样重要的是：哪些论文根本不应该写。
我在关于博士培养的一篇文章中曾写道：科学家最重要的能力之一，就是抵抗让自己一直忙碌的压力，允许自己发呆和自由联想，从而发现那些真正值得花费数年时间去研究的问题。
文献中充斥的大量增量论文，并不意味着我们拥有太多好点子而执行能力不足。恰恰说明：我们已经让“执行”取代了“思考”。
“数据科学天体物理学家会失业吗？”
有人担心，如果 LLM 能够设计分析方案，写代码，跑数据，写论文，那么数据科学型天体物理学家还剩下什么价值？我认为这种担忧本身就是一个诊断工具。如果一个研究者的贡献真的能够被一个不理解物理学的统计系统完全复制，那么这种工作从一开始就不够科学。
最优秀的数据科学天体物理研究始终深深植根于领域知识。例如我的团队构建星系群生成模型时，真正重要的决策都是天体物理问题。这些决策依赖于多年积累的数据与理论直觉。LLM 真正能够复制的，往往是那些机械性的工作：
· 用旧方法分析新数据；
· 调超参数；
· 写出“我们在数据集 Y 上重复了 X 的工作”的论文。
这种研究本来就缺乏科学深度。
我们对学生的承诺
当我回顾职业生涯时，最重要的并不是论文或荣誉，而是人——导师、学生和博士后。招收一名博士生，是学术界最严肃的承诺之一。你的责任不仅仅是教会技术。而是帮助一个人成长为科学家。包括：清晰思考；提出好问题；面对失败；精准表达；培养判断力。
然而当前学术体系的问题是：博士生数量大幅增加，教职岗位却没有同步增长。结果是，培养人数远超吸纳能力，许多人训练不足，经历多年不稳定的博士后阶段最终被迫离开学术界。
这同样不是 LLM 造成的，而是我们建立的激励机制造成的。一个拥有大额经费的 PI 可以不断招收学生。因为：更多学生 → 更多论文 → 更多引用 → 更容易获得下一轮经费。但导师投入到每位学生身上的时间必然被稀释。学生学到的是执行，而不是思考。论文数量增加了，理解却没有增加。
中间道路
当前讨论中缺失的关键区别是：自动化天体物理学（automating astrophysics）与增强天体物理学家（augmenting astrophysicists）之间的区别。自动化意味着——让系统代替我们做科学。这确实令人担忧，因为它消除了人类理解世界这一核心过程。而增强意味着——给科学家更好的工具。
望远镜如此，计算机如此，LLM 也是如此。前提是：使用它的人真正理解科学，并愿意对结果负责。
结语
Deckard 最终错了。不是因为复制人危险，而是因为他误解了问题本身，问题从来不是机器。问题是——
什么样的社会创造了这些机器，以及为什么创造它们。
LLM 也是如此。它们并不是天体物理学的威胁，但它们像一面镜子，照出了这个行业并不光彩的一面：
· 扭曲的激励机制；
· 导师制度的退化；
· 用论文数量代替思考；
这些问题属于我们，不属于机器。解决它们也是我们的责任，一直如此。
责任编辑：甘林
牧夫新媒体编辑部
『天文湿刻』牧夫出品
微信公众号：astronomycn

土星之夜

图源：NASA, JPL-Caltech, Space Science Institute, Mindaugas Macijauskas
谢谢阅读

帐号		自动登录	找回密码
密码			立即注册

大语言模型如何影响天体物理学研究

浏览过的版块