AI的天要塌了,50美元训练的大模型横空出世2/7/2025 7:36:14 PM 来源:你们的中产先生 蒸馏大法好。 今天,AI行业突然传出一个爆论: 斯坦福用50美元就跑出了媲美DeepSeek的大模型。 我一开始是有点不相信的,之前即便是DeepSeek用600万美元训练大模型,都被认为是不可能,50美元,怎么可能? 但是后来我发现居然是真的。 主要找到两个信息: 1、跑出这个模型的人是李飞飞 李飞飞是业界公认的国内最顶尖的AI人员,号称AI教母,她16岁才去的美国,甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖,有她做背书,可信度大大提升。 2、我找到了这个大模型论文原文 ![]() ![]() 发在论文预印本网站arxiv上的(https://arxiv.org/html/2501.19393v1),那就更不可能有假了。 但我还是觉得震惊。 机翻了一下论文,终于了解了一个大概。 ![]() 这个模型叫S1,是怎么训练成功的呢? 先说结论: S1是用知识蒸馏的方式通过低成本训练出了推理能力。 再详细来说: S1本身是有一个大模型,名字就不说了,这个大模型的推理能力不太行,李飞飞团队是怎么做的呢? 蒸馏了1000条谷歌Gemini 2.0的数据,然后用16块H100 GPU、26分钟就训练出了推理能力。 当然,这个50美元只是云计算的费用,不包括购置显卡的硬件费用,因为硬件不是一次性使用,26分钟的使用摊薄费用也没必要。 接下来,由这个具备了推理能力的S1对原来的大模型进行监督微调,就这样之前的大模型瞬间有了灵魂脱胎换骨,直接可以媲美DeepSeek甚至是OpenAI。 我的理解就是: 推理能力是核心,一旦训练出来就一通百通。 这个研究其实跑出了一个新方向: 只要蒸馏的数据质量足够高,很低的成本就可以训练出高质量的推理能力,这简直把AI的天给翻了。 算力还是王道吗?知识蒸馏才是大法好啊。 现在我有点相信,DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。 这简直是开创了AI新时代。 以后小模型训练更方便了,甚至每个人都能训练自己的小模型了,信息平权的时代这么快就到了? OpenAI现在堵知识蒸馏的口子还来得及吗?要不然干脆放开付费调用吧。 笑。 就这样。
|
突发:大批中国芯片公司突然被台积电断供 2/9/2025 12:16:23 AM 裁员95%,Deep Seek的第一批受害者出现了 2/8/2025 8:52:20 PM AI的天要塌了,50美元训练的大模型横空出世 2/7/2025 7:36:14 PM 揭秘地球16万公里外 那潜藏危机的“百鸟齐鸣” 2/6/2025 11:10:47 PM 印度媒体加入对OpenAI聊天机器人ChatGPT的诉讼 2/6/2025 11:07:59 PM 机器人今后会变成啥样,二战后的论文里早就说了 2/6/2025 6:47:56 PM 曝华为新芯片性能 可达Nvidia H100六成 2/5/2025 8:16:19 PM DeepSeek引发震荡 正传递AI市场的一个“信号” 2/5/2025 8:07:12 PM 接连结盟 OpenAI与日本软银、韩国Kakao开展合作 2/4/2025 8:36:07 PM 日首相会见孙正义与奥尔特曼 坦言日本AI普及不足
2/4/2025 8:30:53 PM |