从技术突破而言,DeepSeek是很优秀的大模型,对于AI for Science和AI的个人化是巨大的促进,DeepSeek能获得这样的成果很了不起。过去,人类文明漫漫数千年,技术的进步以十年甚至是百年计算。而在我们的一生中,能够见证互联网和人工智能改变世界这样的大时代,何其有幸。未来不可知,只能勇敢前行,我们不预测未来,我们创造未来。

李星 CERNET网络中心副主任、清华大学教授
一蒂双果:互联网与人工智能
在人类的文明发展历程中,漫漫数千年,技术的进步以十年甚至是百年计算。然而,五十多年前,互联网诞生并开始蓬勃发展;当下,人工智能技术一日千里,DeepSeek的出现更是令人惊喜。我们在一生之中赶上了互联网和人工智能,是这个大时代的见证者,这是非常幸运的。
互联网和人工智能都称得上是人类社会最重要的发明,它们就像一粒种子所结出的两颗甜美的果实——据RFC 1的作者史蒂夫·克罗克(Steve Crocker)的说法,美国军方ARPA最初的计划是研究人工智能,却一不小心先做出了ARPANET。
1943年,在信息革命刚刚开始的时候,IBM董事长托马斯·沃森(Thomas J. Watson)曾经预测:未来,5台主机足以满足整个世界市场。然而,当时间来到2024年,全球预计有接近13亿个人计算机,70亿部手机,180亿接入互联网的loT设备,以及2000亿正在运行的CPU。
观察硅谷近二十年发展的趋势图,我们能够发现一些有趣的事实。2004年3月,硅谷最炙手可热的行业是通讯,如AT&T的贝尔实验室是代表。时间来到2014年4月,硅谷最火热的行业是智能手机。而在2024年的9月,AI毫无争议地成为了世界关注的焦点。
在历届诺贝尔奖中,有几次获奖与信息技术IT相关。1979年的诺贝尔生物或医学奖颁发给了发明CT成像的两位科学家。2009年,光纤通信之父高琨获得了诺贝尔物理学奖。2024年的诺贝尔物理学奖和化学奖都与人工智能有关,引发了人们的热议:物理学奖表彰了基于人工神经网络实现机器学习的基础性发现和发明,诺贝尔化学奖则表彰了对蛋白质神奇结构密码的破解。
随着人工智能的发展,人类文明最终将走向何方?我们不得而知。在2014年出版的原著《我们最后的发明:人工智能与人类时代的终结》(Our Final Invention)一书中,作者探讨了不顾一切追求先进的AI技术的危险。书中指出:一群倔强的AI制造者达成了一致——任何情况下都不得把超级AI接入网络。他们担心,一旦AI达到人类水平,它将拥有与人类一样的生存动力。人类可能会被迫与比想象中更狡猾、更强大、更陌生的对手竞争。
然而如今,人工智能不仅接入了互联网,还穷尽了互联网上的所有语料进行训练。这个春节,继ChatGPT出现之后,DeepSeek这匹最大的黑马杀出了重围。正所谓有心栽花花不开,无心插柳柳成荫。这再次印证了“伟大无法被计划”这一观点。伟大并不是目标指引的结果,很多时候快反而就是慢——没有特殊目标,每次只是选择下一块踏脚石,反而能柳暗花明。
对DeepSeek的评价
2025年刚开年,DeepSeek的强推理模型就让大模型领域再次迎来了“ChatGPT”时刻。DeepSeek用算法在一定程度上突破了算力“瓶颈”的限制。
其实在DeepSeek大热之前,我已经下载并使用了它的前几个版本。从DeepSeek-llm,到v2、v2.5,在当时,我感觉它并不出彩。DeepSeek真正火了起来,是从v3和R1开始。同时它还做了coder和coder-v2,在R1之后还出了一个多模态版Janus。在我看来,Janus与我用的其他开源识图和文本到图像的开源模型还有差距,但其真正出彩的地方在于,多模态的图像识别和图像生成是用同一个模型。
DeepSeek用户过亿只用了7天,随后达到了1.25亿注册用户。ChatGPT达到1亿用户,花了2个月。对比之下,DeepSeek的增长速度是ChatGPT的数倍。
DeepSeek能获得这样的成果很了不起。首先是因为,我们能发现,DeepSeek是很优秀的大模型,它的水平对全球AI界震动很大。其二,DeepSeek是开源模型,可免费下载、本地使用,能保护用户的隐私。其三,DeepSeek发表了质量较好的学术论文。其四,DeepSeek确实有不少技术创新。
然而,DeepSeek也引起一些争议。如训练数据可能用到了OpenAI商业条款禁止的内容(但OpenAI本身互联网上数据的来源也被人质疑)。其次,它做了某种形式的“对齐”,导致一些回答不够客观。最后,其算力资源使用效率的计算方法等方面存在着争议。
其实,DeepSeek并非传统意义上的AI公司,它不看短期直接收益、聘用年轻的名校高材生,公司的价值观重视好奇心和创造欲。可以说,DeepSeek的成功故事对世人有着重要的参考价值。在DeepSeek创始人梁文锋的采访中,他提到,创新不完全是商业驱动的,还需要好奇心和创造欲,这里的好奇心,是对AI能力边界的好奇。在这样鼓励创新的环境之下,再加上一群非常聪明、充满好奇心的人,创造出奇迹也就不足为奇了。
DeepSeek的胜利其实是开源对闭源的胜利。Meta的首席人工智能科学家杨立昆(Yann Lecun)认为,DeepSeek的成功带来的最大启示是保持AI模型开源的重要性。
此外,DeepSeek的开源(其实是开放模型权重)对于AI for Science和AI的个人化是巨大的促进。我认为,世界上通用的大模型不需要很多,而有个性的大模型更有用。因此个人化和本地化对于使用AI的人而言是非常重要的。对此有兴趣且条件允许的人们,建议在本地安装使用,若能部署满血版最好,退而求其次,蒸馏版也不错。与DeepSeek-R1的对话是很有启发意义的,有时它能提出自己未必能想到的观点。
然而,DeepSeek也存在着一些不容忽视的问题,需要引起人们的重视。其一,本地部署基于ollama等本地推理工具,有潜在的网络安全风险。其二,与其他大模型一样,DeepSeek的答案也存在幻觉,内容的可信度存疑。其三,与所有大模型一样,DeepSeek也面临着非常激烈的国内和国际竞争,未必能一直保持开源大模型的领先地位。其四,DeepSeek的对齐存在着争议。其五,现实世界中用于训练AI的已有开放数据接近耗尽,当然这也是所有大模型所面临的问题。
技术的发展一日千里。前几日,埃隆·马斯克(Elon Musk)旗下的人工智能公司xAI发布了Grok3,称其在数学、科学和编码基准测试中击败了Google Gemini、DeepSeek v3、Claude和GPT-4o。暂且不论Grok3的实际水平,马斯克的话很有意思:“要想知道一家公司能否在技术竞赛中胜出,就看它的创新速度和创新的加速度是否足够快”。DeepSeek若要持续保持领先地位,还需要不断地创新。
开源带来的机遇
总结人类历史上三个最重要的时刻,我认为是语言的诞生、文字的诞生以及生成式AI的诞生。语言的诞生将人与动物区别开来,人类可以用系统思维来思考事物、进行交流。而文字的诞生推动了人类文明的发展。生成式AI诞生之后,会使用AI的人与不会使用AI的人,就是知识分子与文盲的区别了。
AI是工具的革命,同时也是革命的工具。对于互联网体系结构研究而言,其每一层都可以使用AI来提高网络、路由、域名等方面的性能和安全性。除此之外,传统的网络分层模型的应用层上方是使用应用程序的人,现在可以在应用层和人之间加上一个“人工智能层”。
而人工智能对高等教育的影响,不亚于十二世纪现代大学的诞生。随着现代大学的诞生和十五世纪印刷术的发明,带来了教育和知识的平民化浪潮;随着互联网的发展和开放源码,人们可以自己开发APP了;而如今,DeepSeek、Llama这些模型开源之后,只需要一台性能好的设备,完全就可以自己调优、嵌入本地知识,蒸馏了——人们将自己的专业知识和领悟与大模型共享共生,由此诞生各种各样的Agent,这将改变世界。
从大时代的角度来思考,教育和科研将会发生颠覆性的巨变,究竟如何变,我们还不得而知。举个例子,在AI时代,我们不能再用现在做科研的思路生搬硬套了。AI生产论文的速度非常快,质量越来越好,如果还要求论文必须是人类自己写,AI写就被视为学术不端,人类写的论文质量将远低于AI生成的论文,这将带来问题。由此看来,教育的评价体系都会发生巨变。
在AI的加持之下,人类的学习曲线也将会发生改变。传统的学习曲线是S形,初期进步缓慢,之后快速提升,最后趋于平缓。而在使用AI Agent之后,人类的学习效率将大幅提升,甚至有些技能都能省略不学了。从前,我读阿西莫夫的《基地》,数学家哈里·谢顿要编写百科全书,将知识都存储下来,保存人类文明的火种。在银河帝国后期,科技高度复杂化,但社会整体对科学原理的理解逐渐丧失。从前我不太理解这一点,当下,书中的这些内容就完全可理解了——我们现在的很多技能将来都不再需要,真的会失传。
近期,有文章还提出了 “人机共读计划”,通过人类与机器协作,生成高质量的预料,不仅可以解决大模型消耗大量语料后资源枯竭的问题,还能通过人类与机器的深度协作创造出更多样化的内容。人类每天都会接触新的知识和信息,将它们“喂”给大模型,大模型再给出反馈,人机交互,互相促进。
然而,这随之而来也带来了问题:究竟是给每个人配备一台计算机,还是给每台计算机配备一个人?当人工智能变得越来越聪明的时候,人类与技术之间的关系,是否已经发生了反转?这也是值得我们思考的问题。
2024年,我曾说,30年前我们的梦想是让中国的每一个学生能够使用自己的计算机连上互联网,而今天,我们的希望是让中国的每一个学生能够使用自己的大模型联网互相交流,走向充满希望的未来。如今看来,DeepSeek V3/R1开源大模型发布之后,这一畅想完全可以成为现实。
在不久的将来,每个孩子都将有一个自己的大模型,将孩子新学的知识与大模型交互,促进孩子的思维广度与深度的提升。大模型与孩子可以共同成长,提醒孩子哪些方面要加以重视,提醒他哪些方面不要再犯同样的错误。
也许,未来的教育是这样的图景:在童年,进行有意义的玩耍,在玩耍过程中学习到多个领域的知识,全面地了解这个世界。青少年,保持着热情去探索人生的目标,确定他们真正擅长和喜欢的事,以此作为事业。成年,在既定的方向上、真正想做的事情上努力耕耘。
伟大不能被计划,计划的事物未必会按照既定的路线发展。在五十多年前,互联网刚诞生的时候,谁能想到会发展出视频直播呢?未来不可知,只能勇敢前行,我们不预测未来,我们创造未来。
本文根据清华大学李星教授采访整理
整理:陈茜