ディープラーニングブログ

Mine is deeper than yours!

Deep Learning

OpenAIが発見したScaling Lawの秘密

OpenAIはGPT-3の次の研究を始めています. 世間がGPT-3のデモに湧き上がる中,OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました. Scaling Lawを一言で説明するなら「Transformerの性能はたった3つの変数のべき乗則に支配されている」というも…

GPT-3の衝撃

この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3はOpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretraine…

メンヘラちゃんと学ぶディープラーニング最新論文

メンヘラちゃんがディープラーニングの最新論文をバリバリ語ってくれるシリーズです.Twitterに投稿したスライドをまとめました.

逆翻訳は機械翻訳の錬金術師か?

逆翻訳 (Back-Translation) を用いた手法が驚くべき快挙を成し遂げました.機械翻訳の国際会議 WMT18 にて人手評価の1位を獲得し,機械翻訳のベンチマークでは以前の最高スコアが 29.8 なのに対しこの手法は 35.0 を達成しています.

教師なし学習は機械翻訳に魔法をかけるか?

つい先週,機械翻訳で驚くべき進展がありました.要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです.この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明…

State-of-the-Art を達成したニューラル機械翻訳 2017 年

Ryobot です. 今週 5 日連続でニューラル機械翻訳の論文解説をやりました. もとは NAIST の第1回ニューラルネットワーク勉強会の発表資料で,大幅に加筆してひとりアドベントカレンダー? に変貌しました. 今回紹介した論文は大規模な対訳コーパスにおけ…

論文解説 Depthwise Separable Convolution for Neural Machine Translation (SliceNet)

テンソル分解は 2017 年の密かなブームだったかもしれない.論文数は多くないが,テンソル分解を用いた手法が中規模言語モデル,大規模言語モデル,機械翻訳 (本紙),動作認識で軒並み SOTA を達成している.(中略) SliceNet は巨大な ResNet の畳み込み層を…

論文解説 Attention Is All You Need (Transformer)

本紙は RNN や CNN を使わず Attention のみ使用したニューラル機械翻訳 Transformer を提案している.わずかな訓練で圧倒的な State-of-the-Art を達成し,華麗にタイトル回収した.また注意を非常にシンプルな数式に一般化したうえで,加法注意・内積注意…

論文解説 Convolutional Sequence to Sequence Learning (ConvS2S)

ConvS2S は脱 RNN による系列方向の並列化という風潮を決定づけたニューラル機械翻訳の手法です.単語列の処理を LSTM から CNN に置き換え,GNMT より高性能かつ訓練も 5 倍高速を達成しています.LSTM はゲーティングが重要なので,この部分を抜き出した G…

論文解説 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE)

本紙は ICLR 2017 のポスターセッションでもっとも注目を集めた論文です.傍若無人なほど巨大な (Outrageously Large) 混合エキスパートと少数のエキスパートを選択するゲーティングネットワークを用意し,ゲーティングで選択した少数のエキスパートのみ順/…

論文解説 Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (GNMT)

Google 翻訳の中身である GNMT はニューラル機械翻訳の王道を征く手法である.GNMT はエンコーダとデコーダにそれぞれ 8 層の LSTM (エンコーダの 1 層目は双方向 LSTM) を使用し,注意と残差接続を取り入れたモデルである.データ並列とモデル並列,Wordpie…

対話モデルの訓練/評価フレームワーク ParlAI がすごい

対話モデルの訓練/評価フレームワーク ParlAI がすごい こんにちは,Ryobot です. 本稿では ParlAI の基本的な使用法やユーザーが独自に定義できるエージェントの実装方法を解説しました. 以下,PyTorch, Chainer, TensorFlow によるエージェントの実装例…

論文解説 Memory Networks (MemNN)

「メモリネットワーク」は代表的な記憶装置付きニューラルネットワークである. 本稿ではメモリモデル (記憶装置付きニューラルネットワーク) をいくつか概説し,論文 2 紙 (1) Memory Networks, (2) Towards AI-Complete Question Answering の理論的な記述…

DeepMind の深層学習ライブラリ Sonnet を早速試してみた

Sonnet は 4月 7日に公開されたばかりの DeepMind 謹製の深層学習ライブラリである.もともと DeepMind の社内で使用されていた TensorFlow のラッパーライブラリだったが,論文の実装を共有しやすくするためにオープンソースとして公開したようだ.Sonnet …

深層学習による自然言語処理 - RNN, LSTM, ニューラル機械翻訳の理論

本稿ではニューラルネットワーク,誤差逆伝播法,言語モデル,RNN,LSTM,ニューラル機械翻訳の一連の手法について数理的に解説する. 前編の目次 ニューラルネットワーク 順伝播 (Forwardpropagation) 逆伝播 (Backpropagation) リカレントニューラルネット…