
DeepSeek近日发布论文开云kaiyun中国官方网站,叙述了一种更为高效的东说念主工智能拓荒措施。该论文由独创东说念主梁文锋参与撰写,提议了名为“流形抑止超伙同”(mHC)的框架。作家称,该框架旨在擢升可延伸性,同期裁汰造就先进东说念主工智能系统的算力和动力需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。 DeepSeek提议mHC新架构 1月1日音问,DeepSeek发布了一篇新论文,提议了一种名为mHC(流形抑止超伙同)的新架构。 该臆测旨在科罚传统超伙同在大领域模

DeepSeek近日发布论文开云kaiyun中国官方网站,叙述了一种更为高效的东说念主工智能拓荒措施。该论文由独创东说念主梁文锋参与撰写,提议了名为“流形抑止超伙同”(mHC)的框架。作家称,该框架旨在擢升可延伸性,同期裁汰造就先进东说念主工智能系统的算力和动力需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。
DeepSeek提议mHC新架构
1月1日音问,DeepSeek发布了一篇新论文,提议了一种名为mHC(流形抑止超伙同)的新架构。
该臆测旨在科罚传统超伙同在大领域模子造就中的不踏实性问题,同期保握其权贵的性能增益。
这篇论文的第一作家有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得淡雅的是,DeepSeek独创东说念主梁文锋也在作家名单中。

论文节录指出,近来,以超伙同(HC)为代表的臆测通过拓宽残差流宽度和各样化伙同风物,拓展了往时十年间建造的无数聘任的残差伙同范式。固然这些矫正带来了权贵的性能擢升,但伙同风物的各样化从根底上磨蹭了残差伙同固有的恒等映射特点,导致严重的造就不踏实性与受限的可延伸性,同期还形成了权贵的内存访谒支拨。
为了科罚这些问题,DeepSeek提议了流形抑止超伙同(mHC)——一种通用框架,粗野将HC的残差伙同空间投影到特定流形上,从而收复恒等映射特点,并交融严格的基础设施优化以确保初始效劳。
DeepSeek称,实证现实标明,mHC粗野灵验复旧大领域造就,在提供表露性能擢升的同期具备更优的可延伸性。DeepSeek预计,mHC看成HC的一种生动而实用的拓展,将有助于深化对拓扑架构遐想的纠合,并为基座模子的演进指明裕如出路的主义。
里面大领域造就适度裸露,mHC可灵验复旧领域化造就,当延伸率=4时,仅带来6.7%的特等时辰支拨。

图为残差伙同范式的暗示图。本图对比了 (a) 表率残差伙同、(b) 超伙同以及 (c) 流形抑止超伙同的结构遐想。与无抑止的HC不同,mHC通过将伙同矩阵投影到一个抑止流形上,专注于优化残差伙同空间,从而确保造就的踏实性。
论文在论断与瞻望部分指出,实证适度标明,mHC能灵验收复恒等映射特点,相较于传统HC,能以更优的可延伸性已毕踏实的大领域造就。关键的是,通过高效的基础设施级优化,mHC以可忽略的打算支拨已毕了上述矫正。
论文还指出,看成HC范式的广义拓展,mHC为将来臆测开辟了多个遑急主义:固然本臆测聘任双随即矩阵确保踏实性,但该框架可兼容针对特定学习目的遐想的多种流形抑止探索;预计对各别化几何抑止的深远臆测可能催生能更好量度可塑性—踏实性相干的新措施。此外,DeepSeek但愿mHC能再行引发学界对宏不雅架构遐想的温和。通过深化对拓扑结构若何影响优化与表征学习的纠合,mHC将有助于突破现存局限,并可能为下一代基础架构的演进指明新旅途。
DeepSeek一样上“热搜”
近期,DeepSeek动作约束,“热搜”也约束。
2025年12月8日
梁文锋入选《当然》年度十大科学东说念主物
2025年12月8日,英国《当然》杂志网站发布2025年度十大科学东说念主物榜单,中国东说念主工智能企业深度求索独创东说念主梁文锋和中国科学院深海科学家杜梦然入选。
2025年1月,来自中国的一则公告震荡了东说念主工智能界。深度求索公司发布其深广而低资本的R1推理模子。《当然》杂志网站称,这骤然施展好意思国在东说念主工智能领域的发展并不像很多大众思象的那样遥遥起初。
2025年12月1日
DeepSeek发布两个郑再版模子
据DeepSeek官微,2025年12月1日,DeepSeek发布两个郑再版模子:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2强化Agent才气,官方网页端、App和API均已更新为郑再版DeepSeek-V3.2。Speciale版块当今仅以临时API工作神气通达,以供社区评测与臆测。
2025年11月27日
DeepSeek推出新模子
2025年11月27日,DeepSeek推出新式数学推理模子DeepSeekMath-V2,聘任可自我考据的造就框架。该模子基于DeepSeek-V3.2-Exp-Base构建,通过LLM考据器自动审查生成的数学施展,并期骗高难度样本握续优化性能。
2025年10月20日
DeepSeek开源新模子
2025年10月20日,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提议期骗视觉模态压缩长文本险阻文的新措施。阐述先容,这次开源的 DeepSeek-OCR 由两个部分构成:中枢编码器 DeepEncoder 息争码器 DeepSeek3B-MoE-A570M。在内容分娩中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成跳跃 20 万页的假话语模子 / 视觉话语模子造就数据。
2025年9月29日
DeepSeek-V3.2-Exp模子厚爱发布
2025年9月29日,深度求索公司发布了 DeepSeek-V3.2-Exp 模子,其宛如再次向国产芯片江湖插足一枚巨石。
官方公告裸露,新版块模子现实性地引入了 DeepSeek Sparse Attention(一种稀少淡雅力机制),其权贵裁汰打算资源奢华并擢升推理效劳。
而收获于这一技能翻新,深度求索文牍其官方App、网页端、小表率均已同步更新为新模子,并全面下调API价钱,降幅在50%到75%不等。
值得淡雅的是,不同于前次发布 DeepSeek-V3.1版块时“犹抱琵琶半遮面”的景况,这次 V3.2 EXP 版块的发布,险些零时差引发数个国产芯片厂商——华为、寒武纪、海光等的“认领”。
2025年9月17日
登上《当然》!DeepSeek-R1造就措施发布
2025年9月17日,由DeepSeek团队共同完成、梁文锋担任通信作家的DeepSeek-R1推理模子臆测论文,登上海外顶级期刊《当然(Nature)》的封面。该期刊剪辑部直言:当今险些统共主流的大模子齐还莫得经过零丁同业评审,这一空缺“终于被DeepSeek荆棘”。
DeepSeek-R1包含一个在东说念主类监督下的深远造就阶段,以优化推理进程。梁文锋团队答复称,该模子使用了强化学习而非东说念主类示例来拓荒推理措施,减少了造就资本和复杂性。DeepSeek-R1在被展示优质的问题科罚案例后,会赢得一个模板来产生推理进程,即这一模子通过科罚问题赢得奖励,从而强化学习后果。团队回来说, 将来臆测不错聚焦优化奖励进程,以确保推理和任务适度更可靠。
开始:轮廓自证券时报、财联社、21世纪经济报说念及公开信息开云kaiyun中国官方网站