Local blog for Japanese speaking developers
Tensor2Tensor ライブラリでディープ ラーニング研究を加速化
2017年7月10日月曜日
この記事は Google Brain チーム上級科学研究者、Łukasz Kaiser
による Google Research Blog の記事 "
Accelerating Deep Learning Research with the Tensor2Tensor Library
" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。
ディープ ラーニング(DL)によって、
機械翻訳
、
音声認識
、
物体検知
など、数多くの便利なテクノロジーが急速に発展しています。研究コミュニティでは、作者がオープンソース化したコードを見つけてその成果を利用し、さらに高度なディープ ラーニングに発展させることができるようになっています。ただし、こういった DL システムのほとんどは、技術的に大きな労力を伴う特殊な設定が利用されており、特定の問題やアーキテクチャにしか効果がない場合もあります。そのため、新しい実験を行って結果を比較するのは困難です。
そこで本日(*原文公開当時)、TensorFlow でディープ ラーニング モデルのトレーニングを行うオープンソース システムの
Tensor2Tensor
(T2T)をリリースします。T2T は、翻訳、解析、イメージのキャプション生成など、さまざまな分野の ML に応用できる最新のモデルの作成をサポートし、いろいろなアイデアを以前よりもはるかに早く試すことができるようにするものです。このリリースには、データセットとモデルのライブラリや、DL 研究に弾みをつけることができる最新の論文(
Attention Is All You Need
、
Depthwise Separable Convolutions for Neural Machine Translation
、
One Model to Learn Them All
)に掲載された優れたモデルも含まれています。
翻訳モデル
トレーニング時間
BLEU(基準点との差)
Transformer
(T2T)
8 GPU で 3 日間
28.4(+7.8)
SliceNet
(T2T)
32 GPU で 6 日間
26.1(+5.5)
GNMT + Mixture of Experts
64 GPU で 1 日間
26.0(+5.4)
ConvS2S
1 GPU で 18 日間
25.1(+4.5)
GNMT
96 GPU で 1 日間
24.6(+4.0)
ByteNet
32 GPU で 8 日間
23.8(+3.2)
MOSES
(フレーズベースの基準点)
該当せず
20.6(+0.0)
標準 WMT 英独翻訳タスクの BLEU スコア(高いほどよい)
T2T を機械翻訳タスクに適用した例を上に示します。この表からわかるように、2 種類の T2T モデル(SliceNet と Transformer)がこれまでのベストの成果だった
GNMT+MoE
を超えています。標準
GNMT
モデルは、基準となる
フレーズベースの翻訳
システムである MOSES を 4 点上回っていますが、最高の T2T モデルである Transformer はそれをさらに 3.8 点上回っています。注目すべきは、T2T では以前の最新技術による結果を 1 日あたり 1 つの GPU で実現することに近づいている点です。小さな Transformer モデル(上には記載されていません)は、1 つの GPU で 1 日トレーニングを行っただけで、BLEU スコア 24.9 点を達成しています。つまり、GPU があれば、誰でも優れた翻訳モデルを利用できます。詳しい
手順
は
github レポジトリ
をご覧ください。
モジュール式のマルチタスク トレーニング
T2T ライブラリは、おなじみの TensorFlow ツールを使って構築されており、ディープ ラーニング システムに必要なデータセット、モデル アーキテクチャ、オプティマイザー、学習率減衰スキーム、ハイパーパラメータなど、さまざまなパーツが定義されています。特に重要なのは、こういったすべてのパーツ間で標準インターフェースの利用が強制されていること、さらに現在の ML のベスト プラクティスが実装されていることです。そのため、任意のデータセット、モデル、オプティマイザー、ハイパーパラメータ セットを選んでトレーニングを実行し、その成果を確認できます。アーキテクチャはモジュール化されているので、入力データと予測結果となる出力をつなぐパーツはすべてテンソル変換機能です。モデル アーキテクチャのアイデアが新たに浮かんだ場合でも、設定全体を置き換える必要はありません。埋め込んだパーツや損失などはすべてそのまま使うことができるので、テンソルを入力として受け取りテンソルを返す独自の機能でモデル本体を置き換えるだけで済みます。
これが T2T の柔軟さを実現しています。トレーニングが特定のモデルやデータセットに固定されることはありません。使い方はとても簡単で、有名な
LSTM Sequence to Sequence モデル
などのアーキテクチャでも
数十行のコード
で定義できます。また、別のドメインの複数のタスクで 1 つのモデルをトレーニングすることもできます。究極的には、1 つのモデルに対してすべてのデータセットを使って同時にトレーニングすることも可能です。そのようにトレーニングを行った
MultiModel
(T2T に含まれています)は、ImageNet(イメージ分類)、
MS COCO
(イメージのキャプション生成)、
WSJ
(音声認識)、
WMT
(翻訳)、
Penn Treebank
解析コーパスと合わせてトレーニングを行った場合でも、多くのタスクで優れた結果を残しています。単一のモデルでこういったすべてのタスクを同時に行えることが証明できたのは初めてです。
ベスト プラクティスの組み込み
この初回リリースでは、研究コミュニティで広く利用されているさまざまなデータセットを生成するスクリプト
1
、いくつかのモデル
2
、さまざまなハイパーパラメータ設定、その他の重要なポイントがうまく動作するように実装されたものが提供されています。ここですべてを紹介するのは困難ですが、T2T でモデルを実行する場合は、適切なシーケンスのパディング、対応する交差エントロピー損失、Adam オプティマイザー用に適切にチューニングされたパラメータ、アダプティブ バッチング、同期分散トレーニング、適切にチューニングされたイメージデータ拡張、ラベルのスムージング、最適な動作を提供するさまざまなハイパーパラメータ設定などを無償で使うことができます。上で説明したような翻訳で優れた結果を出す最新技術も含まれており、そこからもよい結果が得られるかもしれません。
例として、英語の文を解析して文法的な構文木で表現するタスクを考えてみましょう。この問題はすでに何十年にもわたって研究されており、多大な労力をかけて多くの方法が生み出されています。これは
シーケンス変換問題
としてニューラル ネットワークで解決することもできますが、それには多くのチューニングが必要でした。T2T を使うと、わずか数日で
解析データセット生成ツール
を追加できるので、この問題のトレーニングを行う変換モデルに集中することができます。これはうれしい驚きでしたが、わずか 1 週間でよい結果が得られました。
解析モデル
F1 スコア(高いほどよい)
Transformer
(T2T)
91.3
Dyer など
91.7
Zhu など
90.4
Socher など
90.4
Vinyals & Kaiser など
88.3
標準テストセット、WSJ セクション 23 の解析 F1 スコア。Penn Treebank WSJ トレーニング セットのみでトレーニングしたモデルで比較。詳しい結果は
論文
を参照。
Tensor2Tensor に貢献する
既存のモデルやデータセットを使うだけでなく、Tensor2Tensor に独自のモデルを定義したり、独自のデータセットを追加するのも簡単です。同梱されているモデルは多くの NLP タスクで優れた動作をするはずなので、データセットを追加するだけで興味深い結果が得られるでしょう。T2T がモジュール化されたことによって、独自のモデルを提供して、さまざまなタスクで動作を確認することも非常に簡単になりました。このように、コミュニティ全体がベースラインとなるライブラリによる恩恵を受け、ディープ ラーニングの研究を加速することができます。早速
github レポジトリ
にアクセスして新しいモデルを試し、皆さんのモデルでコミュニティに参加してください。
謝辞
Tensor2Tensor
をリリースできたのは、多くのエンジニアや研究者の皆さんと幅広く共同作業ができたおかげです。ここで、貢献していただいた主なチームにお礼を申し上げます(アルファベット順)。
Samy Bengio、Eugene Brevdo、Francois Chollet、Aidan N. Gomez、Stephan Gouws、Llion Jones、Łukasz Kaiser、Nal Kalchbrenner、Niki Parmar、Ryan Sepassi、Noam Shazeer、Jakob Uszkoreit、Ashish Vaswani
1
イメージ分類(MNIST、CIFAR-10、CIFAR-100、ImageNet)、イメージのキャプション生成(MS COCO)、翻訳(英独と英仏を含む複数言語 WMT)、言語モデリング(LM1B)、解析(Penn Treebank)、自然言語推論(SNLI)、音声認識(TIMIT)、アルゴリズム問題(逆転、加算、乗算から代数まで、10 以上のタスク)などに利用できる多数のデータセットが含まれています。今後さらに追加される予定で、皆さんのデータセットも歓迎します。
↩
2
LSTM Sequence to Sequence RNN、分割可能なものを含む畳み込みネットワーク(例: Xception)、ByteNet や Neural GPU などの最新研究モデルのほか、レポジトリのアップデートが精力的に行われている本投稿で紹介した最新モデルなどが含まれています。
↩
Reviewed by
Kaz Sato - Staff Developer Advocate, Google Cloud
コメントを投稿
ラベル
#DevFest16
1
#DevFest17
1
#hack4jp
3
A/B Testing
1
A4A
4
Actions on Google
10
Addy Osmani
1
ADK
2
AdMob
31
Ads
15
AdWords API
1
Agency
1
AIY
2
AIY Vision Kit
1
ALPN
1
AMP
57
AMP Cache
4
AMP for Email
1
AMP Story
2
amp-bind
1
AMPHTML Ads
1
Analytics
9
Andorid
10
Android
270
Android Auto
1
Android Design Support Library
1
Android Developer Story
4
Android Go
1
Android N
18
Android O
12
Android P
2
Android Pay
1
Android Security Year in Review
1
Android Studio
26
Android Support Library
4
Android Things
11
Android TV
10
Android Vitals
1
Android Wear
29
androidmarket
3
Angular
1
Angular 2
2
AngularJS
2
API
24
APIExpert
45
apk
2
app engine
23
App Indexing
7
App Invites
6
App Maker
1
AppCompat
2
Apps Script
11
aprilfool
4
AR
1
Architecture Components
4
ARCore
1
ArtTech
1
Associate Android Developer Certificate
1
Audio
6
Auth Code
1
Authentication
8
AuthSub
2
Autotrack
2
Awareness API
1
Beacons
6
BigQuery
9
Billing
1
BLE
4
Blink
1
Blockly
1
blogger
1
Brillo
1
Brotli
2
Budou
1
Calendar
3
Cardboard
4
Career
1
Case Study
1
Certificate
2
chrome
92
Chrome Custom Tab
1
Chrome Dev Summit
1
chrome extension
4
Chrome for Android
2
Chrome for iOS
2
Chrome OS
2
Chromebook
3
Chromecast
7
chromewebstore
6
Chromium
5
CLI
1
ClientLogin
3
Closure Compiler
1
Cloud
16
Cloud Firestore
2
Cloud Functions
8
Cloud Next
2
Cloud PubSub
1
Cloud Storage
1
Cloud Test Lab
2
CocoaPods
1
codejam
5
codelab
3
compute engine
3
Context
1
Crash Reporting
2
Crashlytics
1
Dart
2
DataCenter
1
Daydream
4
Deep Learning
2
Demo Party
1
Design Sprint
3
DesignBytes
1
DevArt
3
DevBytes
6
Developer
14
Developer Console
4
Developer Preview
6
Developer Relations
2
DevFest
7
DevFestX
3
devtools
3
Dialogflow
1
DirectShare
1
Doodle
1
DoubleClick
4
Doze モード
1
drive
2
Dynamic Links
3
EarlGrey
1
Easter Egg
1
ECMAScript 2015
1
Eddystone
4
egypt
1
English
2
ES2015
1
ES2016
1
ES6
2
ES7
1
Firebase
93
Firebase Admin SDK
6
Firebase Analytics
9
Firebase Auth
4
Firebase Cloud Messaging
7
Firebase Crashlytics
2
Firebase Database
5
Firebase Libraries
1
Firebase Notifications
1
Firebase Performance
2
Firebase Remote Config
5
Flash
1
Flutter
1
font
3
fraud
1
G Suite
15
game
20
Game Developers Conference 2018
1
Gboard
1
GCP
1
GDD11JP
56
GDD2010JP
23
GDE
2
GDG
14
GDG Cloud
1
Geo
45
Gingerbread
1
GLIDE
5
Gmail
3
Gmail API
2
Go
1
golang
5
goo.gl
1
Google
5
Google Analytics
2
Google API
1
Google Apps
11
Google Apps Script
4
Google Assistant
7
Google Assistant SDK
1
Google Cast
8
Google Cloud
4
Google Cloud INSIDE Games & Apps
3
Google Cloud Messaging
10
Google Cloud Platform
9
Google Code-in
1
Google Developer Experts
2
Google Developers Academy
1
Google Developers live
5
Google Developers Summit
1
Google Drive
6
Google Fit
2
Google for Mobile
2
Google for Work
1
Google I/O
7
Google Maps
51
Google Pay
1
Google Play
58
Google Play Console
4
Google Play Game Services
9
Google Play Instant
1
Google Play Services
21
Google Plus
14
Google Search
6
Google Sheets API
3
Google Sign-In
12
Google Slides API
5
Google Summer of Code
1
Google Tag Manager
1
Google Trust Services
1
Google+
2
Googleapps
10
GoogleGames
1
GoogleI/O
28
GoogleLabs
1
GoogleTV
1
Gradle
1
gRPC
2
GTUG
5
GWT
2
hack4jp
2
hackathon
6
Hosting
3
HTML5
17
HTML5Rocks
1
HTTP/2
5
HTTPS
9
ID Token
1
Identity
14
Identity Toolkit
1
Ignite
4
IME
11
Indie Games Festival 2018
1
Inevitable ja Night
9
Instant Apps
5
intern
2
Invites
1
iOS
19
IoT
4
IPv6
1
Issue Tracker
2
Japanese Input
1
JavaScript
7
K-12
1
Key Transparency
1
Knowledge Graph
1
l10n
8
LINE
1
Lollipop
10
Machine Learning
8
Marshmallow
10
Material
1
Material Design
24
MDL
1
MDN
1
MIDI
2
Mobile
12
Mobile Bootcamp
4
Mobile Sites certification
1
Mobile Vision
3
mod_pagespeed
1
monetize
3
Mozc
15
Music
1
NativeDriver
2
NativeScript
1
ndk
3
Nearby
5
Nexus
2
Nexus S
1
NFC
1
Node.js
3
Noto CJK
1
NPAPI
2
NPN
1
oauth
11
OpenGL
4
OpenID
3
OpenID Connect
4
OpenSocial
1
opensource
16
Optimization
1
Payment
4
People API
2
Performance
10
PersonFinder
1
Physical Web
3
Place Picker
1
Play Billing Library
1
Player Analytics
4
Playtime 2017
1
Policy
3
Polymer
7
Progressive Web Apps
13
project hosting
1
Promise
1
Promo code
1
Protocol Buffers
1
PRPL
1
publicdata
1
Push API
1
Push Notification
3
PWA
1
Python
2
QUIC
1
RAIL
1
React
1
React Native
2
Realtime Database
9
reCaptcha
1
Redux
1
Remote Config
3
Remote Display API
1
Resonance Audio
1
Rewarded Video Ads
2
Runtime Permission
1
Sample Code
2
Santa Tracker
1
schema.org
1
secur
1
security
38
Service Worker
3
SHA-1
1
sketchup
1
SmartLock for Passwords
4
social
4
SPDY
3
speak2tweet
1
Spreadsheet
3
startup
3
Storage
2
streetview
3
Study Jams
3
Swift
1
SwiftShader
1
Symantec
1
Task
4
Team Drive
1
techtalk
12
TensorFlow
9
TensorFlow Lite
2
TensorFlow Object Detection API
1
test
4
Test Lab
5
ToS
1
Transliteration
1
Twitter
1
Udacity
19
Unity
3
UX
2
V8
2
VP9
1
VR
10
Vulkan
2
Watch Face
2
wave
2
Wear OS
1
Weave
1
Web
13
Web Animations
1
Web Components
5
Web Manifest
1
WebAssembly
2
WebGL
1
WebMusic
5
WTM
3
Xcode
1
YouTube
15
YouTube API
1
インタビュー
1
コードサンプル
1
プライバシー
1
言論の自由
1
節電
3
東日本大震災
9
日本語入力
41
ブログ アーカイブ
2018
4
3
2
1
2017
12
11
10
9
8
7
6
5
4
3
2
1
2016
12
11
10
9
8
7
6
5
4
3
2
1
2015
12
11
10
9
8
7
6
5
4
3
2
2014
12
11
10
9
8
7
6
5
4
3
2
1
2013
12
11
10
9
8
7
6
5
4
3
2
1
2012
12
11
10
9
8
7
6
5
4
3
2
1
2011
12
11
10
9
8
7
6
5
4
3
2
1
2010
12
11
Feed
Google
on
Follow @googledevjp
"プロダクトに関するご意見は
プロダクトフォーラム
にお願いします"