論文メモ⑤:Reducing Transformer Depth on Demand with Structured Dropout
スポンサーリンク
論文の情報
- Reducing Transformer Depth on Demand with Structured Dropout
- 論文リンク: https://arxiv.org/abs/1909.11556
- 被引用数(2021年8月時点): 142
- 採択日: 25 Sep 2019
- リンク:https://ai-scholar.tech/articles/dropout/LayerDrop
一言まとめ
Dropoutは深層学習を用いる際にほぼ必ずと言っていいほど使われる技術である。Dropoutとは一般的にノード間の重みを無視することを指すが、本論文ではノード間の重みではなく層全体をDropout、すなわち無視する。今回対象のモデルとして非常にDeepなモデルであるTransformerを正規化させ、学習を安定化させた。
本論文は実験を多く行っている。結果を以下に示したが他にも多くの実験でTransformerにLayerDropを施すことでスコアが上昇した。
感想
層全体をDropoutするという発想は非常に面白かった。層をDropoutするのならば初めからなければ良いのでは?と思ったがそうではない。学習の過程でいらない層を識別し、Dropoutしてから再学習のような手法を取っているからだ。多くの実験で良いスコアを出しており、2019年に出された論文であるにも関わらず2021年最近の論文でLayerDropの文字を見ないのであまり使われていないのだろうか。見逃しているだけかもしれない。被引用数も多いので反響は大きかったと思う。