ディープラーニングブログ

Mine is deeper than yours!

State-of-the-Art を達成したニューラル機械翻訳 2017 年

f:id:Ryobot:20171222202321p:plain

Ryobot です.

今週 5 日連続でニューラル機械翻訳の論文解説をやりました.
もとは NAIST の第1回ニューラルネットワーク勉強会の発表資料で,大幅に加筆してひとりアドベントカレンダー? に変貌しました.

今回紹介した論文は大規模な対訳コーパスにおける評価スコア上位 5 手法で,最先端のニューラル機械翻訳を網羅しています.

f:id:Ryobot:20171222202334p:plain

近年の傾向をまとめると

  • LSTM を使わず CNN 等の並列化が容易な手法を使う
  • 大規模コーパス + 巨大なモデル + 大量の GPU

というわけで厳しい世界ですね.

1日目 GNMT

Google翻訳の中身 GNMT です.
2016 年までのニューラル機械翻訳を最速で把握できる資料になっています.
NMT 初心者におすすめです.

2日目 MoE

MoE は最大 13 万のサブネットワーク (パラメータ数 1300 億!) を持つ超巨大ネットワークを条件付き計算で訓練した怪物です.
著者に深層学習のゴッドファーザー hinton と分散システムの生きる伝説 jeff dean が会している点でも注目を集めました.
ニューラルネットガチ勢におすすめです.

3日目 ConvS2S

CNN と LSTM 風ゲーティングのハイブリッド ConvS2S です.
GNMT より高性能かつ訓練も 5 倍高速です.

4日目 Transformer

「Attention Is All You Need」で有名な Transformer です.
LSTM も CNN も使わず Attention こそ最強だと証明した機械翻訳の現王者 (State-of-the-Art) です.
加法注意・内積注意・ソースターゲット注意・自己注意の違いをわかりやすく説明しています.
ニューラルネット界隈全員におすすめです.

5日目 SliceNet

巨大な ResNet の畳み込み層を分解しパラメータを削減した SliceNet です.
行列分解は今年の密かな流行りで,言語モデルの SOTA も巨大な LSTM 層を行列分解する手法も説明しています.

おわりに

「英語で似た記事を見たことないから英語に翻訳した方が良いよ」というアドバイスを海外の方から頂いたのでやってみます.

「論文解説ありがたいけど研究も進めてね」が発生したのでしばらく解説ネタはやりません.

それでは良いお年を〜!