可前世后来的许多研究都表明,其实GPT3有着很大的潜力,这些能力后来通过代码训练,指令微调和基于人类反馈的强化学习(也就是大名鼎鼎的RLHF)解锁,最终版本终于展现出了强大的威力,成为了ChatGPT。
这章没有结束,请点击下一页继续阅读!
“首先,我要做的就是先获得一个初始的GPT3,不过我现在很难做1750亿参数那么大,最多只能做到350亿参数左右。”
孟繁岐选择这个大小,是根据最新的P100显卡的显存深思熟虑之后的结果。
这里其实并不存在放不下放得下的问题,前世ChatGPT使用的A100显卡也就只有80G的显存,想放下1750亿参数那是痴人说梦。
孟繁岐有着一套拆分模型的招式,能够无限制地将庞大的模型拆分到不同的显卡上面。
理论上来说,只要显卡够多,他就能够无限制地训练更加庞大的模型。
如果100张可以训练100亿参数,那么张就能训练亿参数。
可理论终究是理论,同时调度过多的显卡是非常痛苦的事情。
单张显卡出状况,很有可能好几周的成果都会受到影响。
孟繁岐出于风险的控制,选择了350亿的大小,他有信心可以将最后的结果做得跟初版1750亿参数的ChatGPT相差无几。
获得最基础的GPT3模型并不困难,基础的模型结构一年半之前,孟繁岐就已经实现了许多。
庞大的人工智能模型只是最基础最核心结构的反复堆叠,并不需要从头仔细设计一个不同的版本。
就像是二阶魔方和三阶魔方的区别,基础的模块是那一个个小方块,二阶魔方拥有2x2x2一共8个方块,三阶魔方则有3x3x3,一共27个方块。
基本元素没有任何的改变,只是数量上变多了。
而这些参数的设置,除了最好是2的N次方之外,通常也没有什么特别的规矩和道理。
因此,只要单纯地将此前已经做过的GPT系列模型放大、加深,孟繁岐就已经获得了一个350亿左右参数的GPT3模型。
但想要将这个大小的模型给训练起来,那可就麻烦了。
“350亿参数的模型,参数本身、梯度、优化器的状态个个都是本身大小的好几倍。按理来说,每一台服务器都应当有TB级别的内存来存放这些状态。现在你们知道,我为什么特意要求英伟达将服务器内存再扩大好几倍了吧?”
显卡的显存是比较高难度的硬件技术问题,英伟达一时间也没法解决。
但服务器却是可以加装高速内存的。
在普通人的游戏主机上,通常都是2到4根内存条,一般一根8G或者16G的居多。
正常的用户,内存大都是8到32G,富有一点的,64乃至128,不得了了。
而孟繁岐则是为每一台服务器,直接配备了4个T的内存大小。
其规模令人瞠目结舌。
这特么的可是内存,不是硬盘啊!
内存只是一种临时存储设备,用于存储计算机正在使用的数据和程序。
硬盘才是用来永久存放数据和文件的设备。
“4T的内存...比我自己电脑的总硬盘量还大两倍...”
此时此刻,主流的笔记本一共可能才500G,自己组装的台式机也就1T的硬盘大小。
这一台的内存,就能装下8台中高端笔记本的所有数据,奢华的程度,不言而喻。
孟繁岐使用大量的高速内存,目的在于解决当今显卡的显存不足问题。
将绝大多数暂时不参与运算的数据和参数,从显卡移到内存上,需要的时候再从内存取回。
如此反复读写,需求次数太多,普通的硬盘速度太慢,孟繁岐直接上了内存级别的设备。
钞能力发动!
“训练启动,那就得几个月后见了。”孟繁岐为了这一刻已经持续收集了接近两年的高质量数据,上千亿词的训练数据,总规模已经接近两个T的大小。
“等到夏天,差不多应该可以完工,到时候还得专门针对中文优化一版,更适合华国宝宝体质的ChatGPT。”
前世中文数据的质量和数量都不大够,孟繁岐当然要弥补这个遗憾。
“算算时间,我也差不多要本科毕业了,这个ChatGPT,就当我的毕业设计成果吧。”