“层归一化就不会,因为均值和方差都是在样本自己里面进行计算。”
阿里克斯则注意到了注意力机制的写法似乎和平常有些不大一样:“自注意力机制我们大概都能理解,这里为什么是多头自注意力机制呢?”
“我们希望算法模型基于注意力机制这种东西关注比较重要的内容,但同时,在模型规模较大的情况,模型如果整体关注的东西太过单一也不是什么好事。”
“拥有一定长度的文本,对比图像来说可能比较重点的内容有很多,将注意力拆分为多组,不仅能够让模型关注到输入的不同部分,同时也更方便去做并行加速。”
......
谷歌大脑十位左右的研究员聚在这里,越讨论越觉得这方法不一般。
不仅宏观层面上多了方便并行、结构简洁、长距离关联能力强等特点,模型内部孟繁岐的各种实现那都是深思熟虑,非常直击要害的。
给人的感觉,就是千锤百炼打磨过很久。
“好家伙,你不是做图像类任务的吗?怎么在序列类型的数据上也这么厉害?”
在场的诸人都了解孟繁岐这一路的学术成果,千分类、检测、生成、人脸甚至前几周刚做的医疗方面,乃至于阿尔法围棋也算是另一种性质的图像。
而现在,这可是直接跨行做到语音和语言这方面来了。
关键是你来就来吧,怎么一来就掀大家桌子?
谷歌大脑这边的人倒还好,至少自己也积极参与了进来。
一群人聚在一起,研究的声势是浩浩荡荡,很快隔壁专门的语音组就听到了风声。
“卧槽?这小子怎么跑我们的领域来了?真是饶了我们吧...”
“都说图像,语言和推荐是三大主流方向,他怎么就盯上我们语音这个小领域了呢?我们这小庙可容不下你这尊大佛啊!”
“别提了,推荐广告组被这小子闹了一出,现在做出什么东西来领导都觉得不足为奇。出了业绩部门副总是舒服了,可底下小兵几年之内怕是升职加薪都没戏喽...”
偶然走漏的风声毕竟消息内容有点偏差,他们此刻还不知道,孟繁岐哪里是要去语音领域抢一小口饭吃。
他是要把整个序列类型的解答范式都给它直接统一了!