- A+
原文来源:少数派
![OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读](http://www.zhidnet.com/wp-content/uploads/2023/07/Fnu0jUAta58Zoc16QmWD5Fp4SsRX.png)
图片来源:由无界 AI 生成
那是前几天一个普通的上午。我正在日常搬砖,突然各路信息席卷而来:「赶紧的,GPT-4 模型构架泄露啦,国产大模型要再次超越啦!」
打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息到底有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。
鉴于目前「Fake News」满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。
▍来龙去脉
我信息挖掘的起点是 Hacker News 上分享的、通过 Thread Reader 提取的推文串(存档于 7 月 11 日)。点开一看,上来就是两句:
GPT-4's details are leaked.
It is over.
这标题党水平完全不逊色于国内。
众所周知,OpenAI 在发布 GPT-4 的同时打破了自己对 open 的承诺,没有透露任何权重或技术细节,被业界广泛批评。这大概就是博主为什么要用 It is over 这个梗来渲染「情节反转」的戏剧效果。
再看内容,正是 OpenAI 守口如瓶的 GPT-4 训练细节。这些信息前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊(原文比较晦涩,用了很多缩写和行话,一些会在后文解释):
- 模型参数量:1.8 万亿,比 GPT-3.5(1750 亿)大 10 倍左右。
- 模型层深:120 层。
- 模型构架:混合专家模型(MoE,解释见后文),一共 16 个「专家」,每个专家 1110 亿参数量。每次向前传递推理(生成一个 token 的输出)选择两个专家。
- 训练数据:共 13T(13 万亿个)token 的数据。文本数据被重复训练了 2 次,代码数据被重复训练了 4 次。这个数据其实挺重要的,后续具体分析。
- 并行策略:8 路张量并行 + 16 路管道并行。有多个位于不同数据中心的多个 GPU 集群同时训练,每个集群有 128 个 GPU。
- 预训练上下文:8K。32K 版本是在 8K 基础上微调的。
- 训练成本:在约 25000 张 A100 上,以大约 2.15e25 flops 的速率,持续训练 90 至 100 天。按照每张 A100 小时 1 美元,大约需要 6300 万美元。(如今可在约 55 天内使用约 8192 张 H100 完成,费用估算为 2150 万美元。)
问题是,这些信息是怎么弄来的,是否靠谱呢?
顺藤摸「瓜」,我又找到了这串推文的发布者——Yam Peleg。
![OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读](http://www.zhidnet.com/wp-content/uploads/2023/07/FlxoYYT0NUrwCMlJRc67YH2mde4B.png)
这老哥的账号虽然我没关注,但还真看过他以前的文章。他是以色列一个「创业公司」的 CEO(但成立有 15 年,可能再叫创业公司不太合适了);本人工程经历丰富,很懂大语言模型,曾经尝试反向破解过 GPT-4 和 ChatGPT 代码解释器。今年六月,OpenAI 成员访问以色列的时候,Peleg 还去参加座谈沟通了,并且还和 CEO Sam Altman 合影。
读这老哥的文章,我就禁不住想起来在以色列时候见过的一位学生联络员 Tom,随便说点啥都能给你搞得热血沸腾的。
![OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读](http://www.zhidnet.com/wp-content/uploads/2023/07/FpfWa49QKIxjhPLspITFdNT46Arv.png)
左起:Sam Altman、Yam Peleg(来源:@Yampeleg)
考虑到这老哥一直在研究 OpenAI,也认识 OpenAI 内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。
但等我晚上准备去仔细研读下他发的东西的时候,突然发现他把前面发的都删了。本来我以为是被 OpenAI 捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为 OpenAI 要求删除,而是因为他也是从一个付费专栏转述的,被人投诉侵犯了版权。
![OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读](http://www.zhidnet.com/wp-content/uploads/2023/07/Ftf8TsZ_obvw_mx4stwYx6OZGexD.png)
这篇原始来源是一个叫做 SemiAnalysis 的 Substack 专栏,他们稍早之前发了一篇题为 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE 的文章,放在付费墙后。
查了一下得知:
SemiAnalysis 是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计 IP 和战略的半导体供应链。该公司由 Dylan Patel 创办,一位有着多年半导体行业经验的分析师和工程师。Patel 曾在英特尔、AMD、高通等公司担任过从设计工程师到市场营销经理等的角色。
SemiAnalysis 的团队还包括多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如 AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计 IP 和战略的全方位的半导体供应链分析和咨询服务。
早些时候,SemiAnalysis 还发过一篇文章披露谷歌工程师在内部通信中说「我们没有护城河,但 OpenAI 也没有」(We Have No Moat, And Neither Does OpenAI),引起不小议论。这篇文章后面被证实为真。
这样看来,Dylan Patel 老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。
至于他们为啥这么急着让 Yam 老哥删推——因为这些「内部信息」确实价值不菲,订阅 SemiAnalysis 的付费文章,一年要 500 美元。Yam 老哥订阅的精英版更是要 1000 美元。
▍梳理分析
根据这个来龙去脉,我的看法是,这个传闻还是有一定的可信度的。以下则是我基于这些信息的一些分析,提出来供大家讨论。
私有模型的竞争将集中在并行能力上
根据此次传闻,目前如果要训练一个 GPT-4 竞品,按照使用约 8,192 个 H100 芯片来估算,以每小时 2 美元的价格,在约 55 天内可以完成预训练,成本约为 2150 万美元(1.5 亿人民币)。
这个成本对于目前波涛汹涌的 LLM 市场来说,真的不算大。国内目前的主要玩家都可以比较轻松地承担数次训练。所以,这次说真的,再过半年模型能力(起码参数规模)对标 GPT-4 可能真的不是吹牛。
如果训练成本不是问题,那么训练数据会不会成为问题呢?我认为也不会。传闻称,GPT-4 的训练数据共 13T(13 万亿个)token。作为对比,CommonCrawl 和 RefinedWeb 两个公开数据集都是 5T 个 token,传闻称,余下部分来源 Twitter、Reddit 和 YouTube;一些诉讼还主张 OpenAI 使用了来自 LibGen、SciHub 等「影子图书馆」的盗版数据。
因此,我认为这个数据规模并不是不可企及,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。
其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是 比较公开的。给足够的资源,半年时间应该都可以解决。
所以,最后剩下的门槛就是并行能力了。其实这次传闻里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的,这里我只能做些粗浅解释。
粗略地说,所谓并行问题,就是你有了大模型,如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?
并行处理的能力直接决定了用户体验。目前基于 GPT-3.5 的 ChatGPT 和 API 都比较流畅了,这是非常厉害的。这里大家可能会说,我体验的其他国产 LLM 或者 Claude 都比 GPT-3.5 还快啊。但是,大家没有考虑使用的量级问题,GPT-3.5 在这么高的并发下有这样的性能,其他的厂商如果匹配不了 OpenAI 的这个能力,也就没能力来抢 OpenAI 的市场。
所以,并行能力可能会成为各路 OpenAI 竞争对手的角逐重点之一。
GPT-5 的重点在于多模态
前面提到,传闻称 GPT-4 是由 16 个专家模型组成的「专家混合」(mixture of experts, MoE)模型。这里简单解释一下什么是「专家混合」,这是指将用户的「问题」划分成若干子问题,每个子问题交给一个较小的模型(也就是一个「专家」)去解决,然后通过一个「路由模型」进行选择和组合,再输出给用户。
传闻进一步称,GPT-4 的每个「专家」有 1110 亿参数量——相当于 GPT-3(这个和 Sam Altman 前期说的 GPT-4 参数甚至小于 GPT-3.5 相符),其中有 550 亿个参数是共享的。每次向前传递推理(生成一个 token 的输出)使用两个「专家」,事实上耗费的参数量约为 2800 亿。这个数字显著小于不用 MoE 所需的数量,也和前期很多学者预测的类似。
值得注意的是,传闻指出 GPT-4 训练所用的文本和代码数据都是被重复使用过的。再结合使用 MoE 构架的选择,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭,要么无限制增大数据量对 LLM 性能的提升已经非常有限了。
但是,无论是哪一种情况,GPT-5 想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据,换言之是一个「多模态」的模型。
问题在于,根据这次的传闻,OpenAI 目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,使用文本做输入进行预训练,然后使用约 2 万亿个 Token 进行微调。这种训练方式,明显无法充分利用已有的视频、图片以及音频数据。
所以,OpenAI 一直强调还没有训练 GPT-5,大概率是真话。在训练 GPT-5 之前,他们还得找到一个更好的多模态模型构架,让模型可以充分利用音视频数据。而只有能够利用这些优质的训练数据,GPT-5 才有可能获得足够的能力提升。(同时,如果 GPT-5 真的能够充分利用这些音视频数据的话,那不管是 AGI 还是 OpenAI 最近提出的「超智体」,似乎确实也没那么遥远了。)
OpenAI 可能是有意放出的本次传闻
这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。
我的理解是,OpenAI 很清楚 GPT-4 的护城河并不深;在如今这种热潮中,竞争对手迎头赶上也并不困难。并且如上分析,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始突破,OpenAI 被弯道超车的概率也是很大的。
所以,这也许是 OpenAI 的缓兵之计——我就给你们透露一些 GPT-4 的信息,让头部的玩家都先去做 GPT-4 的复刻工作,把 OpenAI 已经走过的路也再走一遍。
如果在这个过程中,OpenAI 给 GPT-5 的训练打好了基础,完成了多模态大模型的前期攻关,即使 GPT-4 已经被其他的大语言模型超越,OpenAI 也不慌了。个人认为,多模态很可能就是人卷人的最后一代了,再未来的模型开发和演进说不定就以 AGI 为主力了。也就是说,这次赢了,可能就赢到最后了。
本文是全系列中第153 / 156篇:chatGPT
- chatgpt是什么?可以提供哪些服务,用户该怎样使用chatgpt(附Chat GPT注册教程)
- ChatGPT:本地环境搭建chatgpt、调试运行、接口API调用
- 在微信上搭建ChatGpt机器人
- 微信接入ChatGPT,使用Node+ChatGPT+Wechaty做一个微信机器人
- ChatGPT版微信个人号搭建流程
- 做了第一个ChatGPT .NET API聊天库
- 当大厂程序员已开始用AI写代码 人类会被AIGC淘汰吗?
- 【基于OpenAI的ChatGPT】搭建属于自己的微信聊天机器人(附带注册英国手机号码方式)
- 基于ChatGPT的微信聊天机器人
- 使用OpenGPT(ChatGPT)搭建 QQ 机器人
- chatgpt对接微信全流程
- 2023最新的Chatgpt微信机器人搭建教程【附免注册chatgpt账号】
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作教程
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理【后续更新附加】
- 砸下677亿,微软盯上ChatGPT
- 他做了一个「ChatGPT 杀手」,a16z 抢着投
- ChatGPT:是平台的缪斯还是黑客的「MOSS」?
- 我用 ChatGPT 搞钱,月赚 10 万
- 一文读懂:有关ChatGPT的十个问题
- ChatGPT 创始人和他疯狂的 Worldcoin 实验
- ChatGPT爆火的冷思考:盈利难题与治理挑战
- 开局打爆谷歌,微软ChatGPT版必应亲测:强到发指!
- 八张数据图完整了解ChatGPT行业影响全景
- 昂贵的ChatGPT背后,国产GPU“掘金”路漫漫
- 观点:不要神化ChatGPT
- 别煽动焦虑了,ChatGPT还抢不动打工人的饭碗
- 最快月活过亿,但ChatGPT或终将被开源打败
- 朱嘉明:智能数字新时代,关于AIGC的13个关键问题
- 算力才是ChatGPT核心竞争力?AI芯片被推至聚光灯下
- 中美“狂飙”ChatGPT,一文读懂超20家科技巨头最新布局
- 阿里版ChatGPT已进入测试!中文聊天截图曝光,达摩院出品
- 生成式AI狂飙,中国版ChatGPT还有多远?
- 只见ChatGPT笑,不见元宇宙哭
- 谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜网友:退钱!
- 谷歌“仓促”迎接 AI 大战,机器人 Bard“掉链子”股价大跌
- 10个实用的 ChatGPT 免费扩展!
- ChatGPT爆红,AI大规模商用离我们还有多远?
- ChatGPT火了,区块链和元宇宙没人提了?
- 「用ChatGPT搞钱年入百万!」各路博主发布生财之道,网友回呛:答辩的搬运工
- 颠覆历史!「ChatGPT搜索引擎」发布,微软市值一夜飙涨5450亿
- 中国版ChatGPT项目“文心一言”将于3月面世,百度能否趁势“狂飙”?
- 同一个问题被问100遍,被“封神”的ChatGPT终于穿帮了
- AI搜索大战打响!微软官宣ChatGPT引入Bing 生成式AI能否帮助巨头走出泥潭?
- ChatGPT引爆新一轮科技军备赛
- 微软“核弹级”更新:ChatGPT亮相Bing搜索和浏览器,今天上线,免费使用
- 卖账号、赚打赏,他们用 ChatGPT 搞钱
- 盖茨再谈ChatGPT:AI能提高效率,但要考虑边界在哪
- OpenAI给科技行业敲响警钟,中国必须要有自主“大模型”
- 谷歌亲自下场,AI大战正式打响!
- 当你还在讨论分析ChatGPT,有人开始用它“搞钱”了
- ChatGPT杀疯了,两个月引爆千亿美金新赛道
- 谷歌慌了,超20亿投资ChatGPT竞品Anthropic对抗微软
- 狂飙的ChatGPT,为什么是OpenAI最先做出来?
- 欧盟委员会对 ChatGPT 的最新监管方向
- 小冰CEO李笛:“按ChatGPT模式做AI,我们一天成本要3亿”
- 国产ChatGPT扎堆,又是一场元宇宙式狂欢?
- ChatGPT开始被“疯狂吐槽”了
- 私募如何玩转ChatGPT?
- ChatGPT爆红、元宇宙过气:科技巨头为何总是喜新厌旧?
- 大厂火拼ChatGPT
- 麦肯锡:ChatGPT 等生成式 AI 技术将如何改变企业?
- ChatGPT 两个月引爆万亿新赛道,国内外有哪些 AI 玩家能突出重围?
- ChatGPT热度再升级,AIGC的投资人开始关注“文生图”了
- AIGC应用持续升温,将给普通人生活带来哪些改变?
- ChatGPT持续“高烧”,再走一遍元宇宙的老路
- 第一批因ChatGPT坐牢的人,已经上路了
- 给担心被ChatGPT取代的人:2023年我们必须学习的人工智能技能
- ChatGPT“狂飙”:风浪越大,鱼越贵
- 为了 ChatGPT,微软抛弃元宇宙?
- ChatGPT成科技圈的“新贵”,谁还记得元宇宙?
- ChatGPT反噬百度
- 给数字人装上ChatGPT ?多家公司这样回应
- 教程:如何创建一个 AI 元宇宙化身
- 不只是聊天机器人:一文梳理 ChatGPT 带来的真正影响
- 美国宾州大学教授体验 Bing AI 有感:生成式 AI 的改进速度超乎预料,但我们还没准备好
- 元宇宙规模化商用仍未落地,ChatGPT或难续写新故事
- ChatGPT来袭,元宇宙将迎新契机?
- 没有对标ChatGPT产品,苹果内部AI峰会被指更像“团建”
- OpenAI与AIGC:改变人类生产范式,通往“万物的摩尔定律”
- ChatGPT在一线城市火,元宇宙在二三线城市热
- 英伟达将AI雄心扩展到云端,黄仁勋:生成式AI带来“拐点”
- ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
- OpenAI造就硅谷新“黑帮”:ChatGPT爆火背后的神秘大佬、技术版图和资本故事
- 国内AI公司,靠ChatGPT逆袭?
- Meta推出先进大型语言模型,下一个ChatGPT不远了?
- 与周鸿祎“深聊”ChatGPT:它会不会产生与人类为敌的想法?
- ChatGPT狂欢背后:别让科技新概念昙花一现
- ChatGPT能让AI赛道“复苏”吗?
- 马斯克谋划建研究室开发ChatGPT竞争对手,自曝对AI感到焦虑
- ChatGPT获得“正经编制”,国际预科生写论文用它不算作弊!
- 知乎CEO周源:密切关注ChatGPT发展,AI能让内容更快推广
- ChatGPT之父撰文:《万物摩尔定律》出现,这场革命将创造惊人的财富
- 一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化
- 2.5亿美金,Salesforce设立史上规模最大AIGC风投基金
- AIGC如何成为元宇宙神助攻?
- ChatGPT 算力消耗惊人,能烧得起的中国公司寥寥无几
- 云巨头拥抱 AI:Salesforce 引入 ChatGPT
- GPT-4将在下周发布,必应日活破亿,谷歌还有招架之力吗?
- 揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元
- 科技巨头持续血拼:微软豪掷数亿造ChatGPT超算,谷歌加急测试Big Bard
- 想成为顶级 AI 绘画师?先让这 7 个平台帮你成为 Prompt 高手
- 解读美国版权局最新 AI 生成作品版权指南,版权之路依旧艰难
- 周鸿祎:GPT-4会掀起新的工业革命,国内追赶不应放弃核心技术研发
- 竞品还在追赶,OpenAI 用 GPT-4 飚赢自己
- GPT-4震撼空降,谷歌「紧追」微软有点难
- GPT-4来了!国内相关初创项目近30家,VC加紧奔赴AI淘金热
- GPT-4震惊四座,中国创业者激战“小模型”
- ChatGPT-4 本周降临:它将如何影响 Web3?
- 彻底颠覆 Office,微软发布 Copilot
- 从GPT-4、文心一言再到Copilot,AIGC的长期价值被逐渐确立
- 又一中文版ChatGPT!李开复宣布筹组AI新公司“Project Al 2.0”
- OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大
- 首发ChatGPT课、AI共创游戏设计,网易试图抢跑AIGC红利
- GPT-4如何引领科技前沿?盘点10大应用场景
- AI“春晚”英伟达又甩王炸!ChatGPT专用GPU来了 还要赋能芯片制造
- AI企业如何发展,“中国版chat GPT”给出了答案
- 百度被网暴,AI大模型“套皮”海外知名项目,百度首次回复:假的!
- 李彦宏:中国基本不会再出一个OpenAI,创业公司重做ChatGPT没多大意义
- ChatGPT“变现”在即,哪些法律风险不容忽视?
- OpenAI大动作!ChatGPT开始联网 一夜之间从工具进化成平台?
- 一文读懂 ChatGPT 插件功能:语言模型获取新信息的“眼睛和耳朵”
- ChatGPT这么牛,我们应该如何兼顾发展和治理?
- 动嘴就能写代码,GitHub 将 ChatGPT 引入 IDE,重磅发布 Copilot X!
- 生成式AI淘金热,谁能从中赚钱?
- 智慧法律时代来临!以 ChatGPT 为代表的新 AI 技术加速升级法律服务
- 疯狂三月:一场ChatGPT引发的千亿“钞”能力竞赛
- 紧急刹车:AI 军备竞赛升温,“喊停”公开信倏忽而至
- 叫停GPT-4后续AI大模型!马斯克、Bengio等人发出公开信,千人响应
- 多家AI企业坦言大模型尚处研制阶段,行业应用落地存在不确定性
- “得志”于 AIGC,商汤科技“失意”在持续亏损
- 自主完成任务的ChatGPT,Beyond ChatGPT
- 自主拆分任务的chatGPT版本autoGPT的用户前端化实现——agentGPT部署及配置全流程
- chatGPT本地化搭建服务,一键免费部署你的私人 ChatGPT 网页应用。
- 苹果禁用ChatGPT,为防机密泄露!大模型版Siri即将升级推出
- 第一代AIGC硬件悄然爆发
- 从战略高度重视ChatGPT引发的新一轮人工智能革命
- 好莱坞片酬最高的演员,投资了世界上最成功的 AI 公司
- 研究:ChatGPT带来生成式AI十年繁荣,2032年市场规模1.3万亿美元
- 大模型创业潮:狂飙 180 天
- 在未来城市中,AIGC会扮演怎样的角色?
- OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
- AI席卷华尔街:对冲基金部署ChatGPT,银行展开“军备竞赛” AI梦工厂 发布在 AIGC 1.4万
- 华为版ChatGPT将于7月初发布,名为“盘古Chat”
- 大模型落地,搜索先成卷王
- 困在网页里的ChatGPT,想在移动生态里突围
- ChatGPT和AI正如何改变播客行业?
- ChatGPT流量见顶,AI革命中道崩殂?或许是OpenAI在下一盘大棋
- OpenAI 内部力推,AI 代理真能成为互联网应用发展的下一个阶段吗?
- 自行车+ChatGPT主打“陪伴”?感觉哪里怪怪的
- 押注新浪潮!韩国目标成为全球第三大AI强国
- GPT-4 “炼丹”指南:MoE、参数量、训练成本和推理的秘密
- OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读
- 狙击 GPT-4 插件!谷歌 AI 助手 Bard 即将推出扩展程序,与微软的竞争进入白热化
- 谁拖了中国ChatGPT的后腿?
- 生成式AI这一年:从群雄乱战到生态确立,世界已被改变
- 我的微信
- 这是我的微信扫一扫
-
- 我的电报
- 这是我的电报扫一扫
-