0%

该文通过四种分类维度来划分目前已有的预训练模型。包括:

  • 「表征的类型」,即:学习到的表征是否是上下文感知的。

  • 「编码器结构」,如:LSTM、Transformer;

  • 「预训练任务类型」,如LM,MLM,PLM;

  • 「针对特定场景的拓展」,如跨语言预训练,知识增强,多模态预训练,模型压缩等。

阅读全文 »

训练和部署两个阶段对模型的要求是不同的。在训练阶段,我们希望模型可以从大量的、高度冗余的信息中学到数据的特征,此阶段对延迟和计算资源没有太严格的要求。但是如果模型要被部署到大量用户那里,对延迟和计算资源的限制就很高。因此,我们可以先训练一个大模型。这个大模型可以是很多独立模型的集成,也可以是单个的使用了Dropout等正则化方法的复杂模型。在大模型训练好之后,我们就可以使用一个称为“蒸馏”的训练过程,将大模型中的知识迁移到便于部署的小模型中。

阅读全文 »