DeepSeek的蒸馏技术到底是啥?
股票学堂 2025-06-11 12:473522
很多人不太理解DS(DeepSeek)用的那个蒸馏技术到底是啥,我这里打个比方。
上课的时候老师讲了一道爆难的题目,全班除了某学神以外,其他人因为脑子的软硬件配置不足,都没搞懂。
回去后学神又琢磨了这个问题,在老师思路的基础上,简化了若干个参数和步骤,使其对大脑软硬件配置的要求下降,成功教会了全班大部分人。
学神做的这件事,就叫做蒸馏。
蒸馏并不一定是成功的,因为简化会损失部分信息,如果损失的是关键信息那整个系统就崩塌了。实际上全球几乎所有大模型都试图在做蒸馏,但效果都不太好,而DS可能是第一个效果良好接近原版的。
所以蒸馏的关键是哪些可以简化、哪些需要保留,DS是开源软件,并且发表了好几篇相关论文进行说明,所以目前全世界都在复制其算法,并且已经有好几家获得了成功。
这里顺便说一嘴,在全世界各个专业中,计算机相关的高档次研究成果几乎没有造假或者抄袭。注意这里说的是高档次,一般性的没人关注的不在此列。
原因很简单,因为期刊或者会议都会要求你提供源代码,如果是重大成果,全世界都会来试图复现。
同样一份源代码,或者同样一个算法,跑在世界上任何一台电脑上,结果都会是一样的。一个人跑出来和你不一样,可能是他有问题;大家都不一样,一定是你有问题。
而其它学科的成果往往是很难复现的,比方说生物、化学、社会等等,统计中中每一份样本都是独一无二的,谁都说不清到底是里面的什么成分影响了最终结果。所以即便全世界都没法复现你的结果,也不能说你就一定有问题。
所以我们可以理性讨论DS的创新到底有多大,但在有没有原创、有没有创新这件事上没啥好争的。
那肯定是有的啊。
来源:刘备教授
相关阅读
- 中报业绩增长概念股到底怎么炒?
- 刺激股价的3个主要原因
- 国庆旅游数据:消费市场的质变信号
- 为什么大家要做热点?
- 特朗普:即将征收半导体关税 可能高达300%
- 稳定币究竟是何方神圣?
- 大盘蓄势后期——兵不厌诈,主攻前的伪装!
- 波段操作4个硬技巧:低买高卖不再靠猜
- 解析分歧转一致逻辑,量价,大阳小阳的实战用法
- 人形机器人轻量化趋势下PEEK材料受热捧 多家上市公司透露业务新进展
- 从10万到10亿:揭秘“炒股养家”的暴利操作模式!
- 炒股炒的是预期,看懂什么是“背离”
- 业内:2025年第一批稀土开采、冶炼分离总量控制指标已下发
- 格局:做龙头为什么要格局
- 特朗普将签署行政命令 允许私募基金、地产、加密货币以及其他另类资产纳入401(K)退休帐户
- 炒股炒的是预期,看懂什么是“背离”
- 股票交易K线图的几个经典形态(技术分析必看)
- 短线连板高度被压制下的资金偏好详解
- 碳酸锂期货所有合约均触及涨停
- 巧妙利用预期差解锁龙头买卖点