bert中容易忽略的细节问题 发表于 2021-03-23 更新于 2021-06-22 分类于 bert 阅读次数: 面试过程中往往遇到过一些bert中容易忽略的细节,本文做一个整理。 bert中的transformer block由multi-head self-attention + FFN结构构成,但是中间还有一个” intermediate layer “,即中间层。中间层将Attention-layer的hidden size扩大了4倍,然后再做一次非线性变换(激活函数),再将hidden size变回size。