ディープラーニングブログ

Mine is deeper than yours!

OpenAIが発見したScaling Lawの秘密

f:id:Ryobot:20210104061226p:plain f:id:Ryobot:20210104061232p:plain

OpenAIはGPT-3の次の研究を始めています.

世間がGPT-3のデモに湧き上がる中,OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました.

Scaling Lawを一言で説明するなら「Transformerの性能はたった3つの変数のべき乗則に支配されている」というものです.

Scaling Lawはそれ単体だけなら興味深い話で終わるかもしれません.実際に英語圏でもあまり話題にあがっていません.しかし,この法則の本当の凄さに気づいている研究者もいて,なぜ話題にならないのか困惑しています.

2本の論文は現時点での実験結果から2つの重大な可能性を示唆しています.

1つはScaling Lawの有効範囲には上限がない可能性です.つまり,理論上は3つの変数を上げ続ければTransformerの性能は無限に上がり続けることを意味します.

OpenAIはこの驚くべき可能性を検証するためにGPT-3を作成しました.

deeplearning.hatenablog.com

もう1つはScaling Lawがあらゆるドメインに適用される可能性です.

近年様々な分野でTransformerが利用され始めていますが,それらの分野でScaling Lawが働くなら多くの問題がどれだけお金を払えるかという問題に変わります.また,性能に対してスケーリングが優勢なると,既存のベンチマーク・SOTA技術・評価方法は無意味になります.

OpenAIは現在この可能性を検証中です.じきにGPT-4として結果が公表されると思います.

The best models of 2021 will make the best models of 2020 look dull and simple-minded by comparison. Written by Ilya Sutskever (chief scientist of OpenAI).

簡単な概要を紹介します.

第一の論文が明らかにした法則はとてもシンプルです.

Transformer (言語モデル) の性能はパラメータ数N・データセットサイズD・計算予算Cを変数としたシンプルなべき乗則 (Power Law)1 に従うというものです.例えば,他の2変数がボトルネックにならない場合,パラメータ数を2倍にすると性能は2のべき乗倍になります.Transformerの深さ・幅・ヘッド数は最小限の影響しかありません.

こちらが実験結果です.横軸が変数,縦軸がモデルのLossです.Lossが低いほどパープレキシティ2が低く性能が高いです.被っていて見づらいですが黒線はScaling Lawの理論値です.

f:id:Ryobot:20210103024811p:plain

べき関数は両対数プロットで直線になる性質があります.綺麗な直線を描いてますね.

重力やクーロン力べき乗則に支配されているように,Transformerの性能がたった3つの変数のべき乗則に支配されているという事実は興味深いです.

そして重要なことに,現時点でScaling Lawの有効範囲には上限が見当たらず,性能に限界が存在しない可能性があります.この驚くべき可能性はAGIの開発を目指すOpenAIが5億円の開発費 (人件費を含めば15億円) を投じて1750億パラメータのGTP-3の作成に着手する動機として十分でした.

こちらが結果です.黄色線が1750億パラメータのGPT-3のLossです.

f:id:Ryobot:20210103024804p:plain

第一の論文より2桁多いパラメータ数でもScaling Lawが適用され続けています.黄色線が点線の理論値にギリギリ到達していないのは収束前に予算の5億円を使い果たしたからですが,20億円を課金して黄色線を延長していけば点線に接するくらいのカーブを描いています.

第二の論文は画像・動画・マルチモーダル・数式といったドメインのTransformer (自己回帰生成モデル) にもScaling Lawが適用されることを明らかにしました.画像と動画はFlickrから収集した1億件のキャプション付きデータセットを利用しています.マルチモーダルはテキストと画像のモダリティ変換です.

こちらが実験結果です.縦軸は情報理論に基づく削減可能なLoss3です.

f:id:Ryobot:20210103024818p:plain

すべてのドメインでScaling Lawが適用されることがわかります.

Webにはテキストだけでなく膨大な数の画像と動画が存在するので,様々なドメインでGPT-3のような高性能モデルを作成できる可能性を示唆しています4

それだけで終わりません.同じ計算予算では最適なモデルサイズはすべてのドメインで共通であることも発見しました.

f:id:Ryobot:20210104232227p:plain

他にも有益な情報が書かれていますが,ここでは少しだけピックアップします.読み飛ばして構いません.

  • 訓練セットと異なる分布のテキストで性能を評価 (=ゼロショット) すると,一定のペナルティが生じますがScaling Lawが適用されます
  • モデルが大きいほどサンプル効率が上がるため,同じ性能に到達するのに必要なステップ数とデータポイント数は減少します
  • 同じ計算予算では小さなモデルを収束するまで訓練するより,想定より大きいモデルを収束前に訓練をやめる方が性能が高いです
  • Transformerに比べてLSTMは構造的なボトルネックを抱えるため,コンテキストが長くなるとScaling Lawが適用されなくなります (おそらくCNNも)
  • 下流タスクのスクラッチ訓練では過学習を起こす場合でも,ファインチューニングではScaling Lawが適用されます

現在までの研究を時系列順に並べるとこうなります.

f:id:Ryobot:20210105091423p:plain

GPT-4はScaling Law第二の論文のスケールアップになる可能性が高いです.テキストの言語モデルからマルチモーダルの生成モデルにフォーカスを広げ,スケーリングとベンチマークの性能の関係性を深掘りすると思います.

最近のOpenAIはTransformerのスケーリングを事業の中心にしようと考えている節があります.

OpenAIには120人の従業員がいますが,論文一覧の発表数を数えると2018年に30本,19年に16本,20年に8本と減少傾向で,Scaling LawとGPT-3の共著者はかなり多いです.また,チーフサイエンティストのIlya SutskeverはスケーリングがAGIを実現する鍵だと主張しています.彼は2012年にAlexNet,2014年にSeq2Seqを発明した人物です.

参考文献:

  • Scaling Laws for Neural Language Models (Jared Kaplan, Sam McCandlish et al., 2020-01-23)
  • Scaling Laws for Autoregressive Generative Modeling (Tom Henighan, Jared Kaplan, Mor Katz et al., 2020-10-28)
  • Language Models are Few-Shot Learners (Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah et al., 2020-05-28)

  1. xを変数,aとkを定数とすると,べき関数はf(x)=axk,指数関数はf(x)=akxです

  2. パープレキシティは言語モデルの評価メトリックで,値が低いほど生成文が流暢です.言語モデルで使用する交差エントロピー損失はパープレキシティを最適化する関数です

  3. 情報理論的解釈では交差エントロピー損失は「データ分布のエントロピーL∞」と「データ分布とモデル分布の間のカルバック・ライブラー情報量D_KL」の和です.L∞は削減不可能な定数で,D_KLはモデルを訓練して削減可能なLossです

  4. 画像と動画の実験は低解像度のVQ-VAEに留まっていますが,VQ-VAE-2のような方法で容易に高解像度化できます