情報学部大学生のダラダラ日記

β日記

機械学習や日記っぽいものを書きます

論文メモ⑤:Reducing Transformer Depth on Demand with Structured Dropout

スポンサーリンク

論文の情報

一言まとめ

Dropoutは深層学習を用いる際にほぼ必ずと言っていいほど使われる技術である。Dropoutとは一般的にノード間の重みを無視することを指すが、本論文ではノード間の重みではなく層全体をDropout、すなわち無視する。今回対象のモデルとして非常にDeepなモデルであるTransformerを正規化させ、学習を安定化させた。

本論文は実験を多く行っている。結果を以下に示したが他にも多くの実験でTransformerにLayerDropを施すことでスコアが上昇した。

感想

層全体をDropoutするという発想は非常に面白かった。層をDropoutするのならば初めからなければ良いのでは?と思ったがそうではない。学習の過程でいらない層を識別し、Dropoutしてから再学習のような手法を取っているからだ。多くの実験で良いスコアを出しており、2019年に出された論文であるにも関わらず2021年最近の論文でLayerDropの文字を見ないのであまり使われていないのだろうか。見逃しているだけかもしれない。被引用数も多いので反響は大きかったと思う。

 

 

スポンサーリンク