β日記

機械学習や日記っぽいものを書きます

論文メモ⑤:Reducing Transformer Depth on Demand with Structured Dropout

機械学習論文

スポンサーリンク

論文の情報

Reducing Transformer Depth on Demand with Structured Dropout
論文リンク: https://arxiv.org/abs/1909.11556
被引用数(2021年8月時点): 142
採択日: 25 Sep 2019
リンク:https://ai-scholar.tech/articles/dropout/LayerDrop

一言まとめ

Dropoutは深層学習を用いる際にほぼ必ずと言っていいほど使われる技術である。Dropoutとは一般的にノード間の重みを無視することを指すが、本論文ではノード間の重みではなく層全体をDropout、すなわち無視する。今回対象のモデルとして非常にDeepなモデルであるTransformerを正規化させ、学習を安定化させた。

本論文は実験を多く行っている。結果を以下に示したが他にも多くの実験でTransformerにLayerDropを施すことでスコアが上昇した。

感想

層全体をDropoutするという発想は非常に面白かった。層をDropoutするのならば初めからなければ良いのでは？と思ったがそうではない。学習の過程でいらない層を識別し、Dropoutしてから再学習のような手法を取っているからだ。多くの実験で良いスコアを出しており、2019年に出された論文であるにも関わらず2021年最近の論文でLayerDropの文字を見ないのであまり使われていないのだろうか。見逃しているだけかもしれない。被引用数も多いので反響は大きかったと思う。

スポンサーリンク