中国大模型,首登Nature封面。
9月17日,在最新一期的国际权威期刊Nature(自然)中 ,DeepSeek-R1推理模型研究论文登上了封面 。该论文由DeepSeek团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果。这是中国大模型研究首次登上Nature封面 ,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可。
Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 。”
中国AI大模型的“Nature时刻 ”
自大模型浪潮席卷全球以来 ,技术发布、性能榜单层出不穷,但始终缺乏一个权威的“科学认证”机制。OpenAI 、谷歌等巨头虽屡有突破,但其核心技术多以技术报告形式发布 ,未经独立同行评审。
DeepSeek以其公开性和透明性打破了这一局面 。DeepSeek-R1模型的研究论文最早于今年年初发布在预印本平台arXiv上。自今年2月14日向Nature投递论文至今,历经半年,8位外部专家参与了同行评审 ,DeepSeek-R1推理模型研究论文终获发表,完成了从预印本到Nature封面的“学术跃迁”。审稿人不仅关注模型性能,更对数据来源、训练方法、安全性等提出严格质询,这一过程是AI模型迈向更高的透明度和可重复性的可喜一步 。
因此 ,Nature也对DeepSeek的开放模式给予高度评价,在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。 ”全球知名开源社区Hugging Face机器学习工程师Lewis Tunstall也是DeepSeek论文的审稿人之一 ,他强调:“这是一个备受欢迎的先例。如果缺乏这种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的潜在风险 。”
据了解,DeepSeek本次在Nature上发表的论文较今年年初的初版论文有较大的改动 ,全文64页,不仅首次披露了R1的训练成本,而且透露了更多模型训练的技术细节 ,包括对发布初期外界有关“蒸馏”方法的质疑作出了正面回应,提供了训练过程中减轻数据污染的详细流程,并对R1的安全性进行了全面评估。
其中 ,在训练成本方面,R1-Zero和R1都使用了512张H800GPU,分别训练了198个小时和80个小时,以H800每GPU小时2美元的租赁价格换算 ,R1的总训练成本为29.4万美元(约合人民币209万元)。不到30万美元的训练成本,与其他推理模型动辄上千万美元的花费相比,可谓实现了极大的降本。
关于R1发布最初时所受到的“蒸馏 ”质疑 ,DeepSeek介绍,其使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果 ,但并非有意而为之,更没有专门的蒸馏环节 。所谓“蒸馏”,简单理解就是用预先训练好的复杂模型输出的结果 ,作为监督信号再去训练另外一个模型。R1发布时,OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。
R2何时问世引发关注
自今年年初发布R1以来 ,DeepSeek在全球树立了开源模型的典范,但过去数月,外界对于R2何时发布始终保持高度关注,相关传言一直不断 。不过 ,R2的发布时间一再推迟,外界分析R2研发进程缓慢可能与算力受限有关。
值得注意的是,今年8月21日 ,DeepSeek正式发布DeepSeek-V3.1,称其为“迈向Agent(智能体)时代的第一步”。据DeepSeek介绍,V3.1主要包含三大变化:一是采用混合推理架构 ,一个模型同时支持思考模式与非思考模式;二是具有更高的思考效率,能在更短时间内给出答案;三是具有更强的智能体能力,通过后训练优化 ,新模型在工具使用与智能体任务中的表现有较大提升 。
由于R1的基座模型为V3,V3.1的升级也引发了外界对于R2“在路上 ”的猜测。V3.1的升级更深刻的意义在于,DeepSeek强调DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度 ,而UE8M0 FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设 。这一表态一度带动国产芯片算力股股价飙升。
中国银河证券研报指出,DeepSeek从V3版本就开始采用FP8参数精度验证了其训练的有效性,通过降低算力精度 ,使国产ASIC芯片能在成熟制程(12-28nm)上接近先进制程英伟达GPU的算力精度,DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度,让软件去主动拥抱硬件更喜欢的数据格式 ,“软硬协同”的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多拥抱FP8算力精度并有望成为一种新技术趋势,通过软硬件的协同换取数量级性能的提升 ,国产算力芯片将迎来变革。
网上股票开户佣金最低:如何开设股票账户流程-9月3日涨停复盘:40只股涨停 天普股份9连板
股票开户去哪家手续费便宜:股票账户app-重塑投资 公募AI量化大变革已至
炒股票如何开户流程:股票都在什么平台买-AI时代下的PCB大变局:胜宏科技逆袭鹏鼎控股 为何“英伟达链”吃肉 “果链”只能喝汤?
手机购买股票流程:买股票哪个平台开户-达利欧功成身退 桥水基金受益中国业务 收益率居全球前十
股票开户哪家佣金好:配资指数网官网-10月13日港股收盘:恒指跌1.52% 科技指数跌1.82%
股票:中国期货开户条件-摩尔线程精彩亮相2025中国移动云智算大会,以全栈AI赋能智算新时代
新开户只能买哪些股票:新手买股票开户流程步骤-荷兰政府:预计安世中国将很快恢复芯片供应 荷方将继续与中方、欧盟等密切协调
a股开户股票开户流程网上开户:私人股票配资怎么判刑-18家科创板软件公司参会:AI应用落地与研发趋势成投资者关注重点 这些企业披露海外布局进展
汇盈策略-汇盈策略官网-兰州股票配资公司提示:文章来自网络,不代表本站观点。
央行公告,为保持银行体系流动性充裕,更好满足不同参与机构差异化资金需求,自本月起中期借贷便利(MLF)将采用固定数量、利...
国家卫健委主任雷海潮在参加十四届全国人大三次会议江苏代表团开放团组会议时指出,人口问题仍是一个需要深入和动态研究的重要问...
...
...
华电新能在上交所正式上市,华润新能源上市稳步推进……一批新能源领域央企正加速挺进资本市场;国家电投、国家能源集团等企...
美股财报季危险重重。 美东时间8月1日,美股开盘后,美国电商巨头亚马逊股价重挫,盘中一度暴跌超9%。有分析称,最新...
7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议发表《人工智能全球治理行动计划》。全文如下: 人工...
界面新闻记者|邹文榕近段时间,一款信托合同当中隐藏“受益人代表/委托人代表”条款的政信信托开始在江浙等区域流...
2025年4月12日,永安行(603776.SH)发布2024年年报。 公司营业总收入为4.5...
4月14日,国内商品期货早盘开盘,涨多跌少。NR、氧化铝等涨超2%,沪镍、沪锡等涨超1%,豆油、沪锌等小幅上涨;集运欧线...
记者辛圆中国工程机械工业协会最新公布统计数据显示,2025年1-3月,共销售挖掘机61372台,同比增...
记者今天从国家发展改革委了解到,近日,国家发展改革委、财政部、自然资源部、商务部、中国人民银行、税务总局、国家外汇局...
记者辛圆3月20日下午,商务部举行例行记者会,发言人何咏前回应了包括扩大对外开放、内外贸一体化以及中日...
下周解禁市值超270亿元。 下周解禁市值超270亿元 下周将有40余股面临解禁,按照最新收盘价计算,合计解禁市值...
关税风波一起,我国多部门便联合打出组合拳,力筑资本市场“防波堤”。“增持”“已再次增持”“未来将继续增持”“加快实施增持...