ディープ ラーニングでプロレベルの写真を生成する
2017年7月31日月曜日
この記事は 機械知覚ソフトウェア エンジニア、Hui Fang による Google Research Blog の記事 "Using Deep Learning to Create Professional-Level Photographs" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。
機械学習(ML)は、目標が明確に定まる用途で数多くの優れた成果を残しています。正解かどうかの答えが存在するタスクでは学習プロセスが比較的容易になり、目標を達成しやすくなります。たとえば、イメージ内の物体を正確に特定したり、ある言語から別の言語に適切に翻訳したりといったタスクです。しかし、結果の客観的評価が難しい分野もあります。たとえば、写真が美しいかどうかは美的感覚によって決まります。これは非常に主観的な概念です。
ML による主観的概念の学習を追求するため、Google はアートコンテンツを生成する ディープ ラーニング システム ...Read More
機械学習(ML)は、目標が明確に定まる用途で数多くの優れた成果を残しています。正解かどうかの答えが存在するタスクでは学習プロセスが比較的容易になり、目標を達成しやすくなります。たとえば、イメージ内の物体を正確に特定したり、ある言語から別の言語に適切に翻訳したりといったタスクです。しかし、結果の客観的評価が難しい分野もあります。たとえば、写真が美しいかどうかは美的感覚によって決まります。これは非常に主観的な概念です。
![]() |
カナダ、ジャスパー国立公園のプロ級の(?)写真 |
この記事は 機械知覚ソフトウェア エンジニア、Hui Fang による Google Research Blog の記事 "Using Deep Learning to Create Professional-Level Photographs" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。
機械学習(ML)は、目標が明確に定まる用途で数多くの優れた成果を残しています。正解かどうかの答えが存在するタスクでは学習プロセスが比較的容易になり、目標を達成しやすくなります。たとえば、イメージ内の物体を正確に特定したり、ある言語から別の言語に適切に翻訳したりといったタスクです。しかし、結果の客観的評価が難しい分野もあります。たとえば、写真が美しいかどうかは美的感覚によって決まります。これは非常に主観的な概念です。
ML による主観的概念の学習を追求するため、Google はアートコンテンツを生成するディープ ラーニング システムの試験版を公開しました。このシステムは、プロの写真家のやり方をまねています。Google ストリートビューのパノラマの景色を見て回って最高の構図を探し、さまざまな後処理を実行して「美しい」イメージを作成します。このいわば仮想の写真家は、アルプス、カナダのバンフやジャスパー国立公園、カリフォルニアのビッグサーやヨセミテ国立公園など、4 万以上のパノラマを旅し、とても印象的な写真を生成して帰ってきました。その中には、プロの写真家からプロ級の品質に近いという評価を受けたものもあります。
モデルのトレーニング
「美しさ」は、 AVA などのデータセットを使ってモデル化できます。しかし、単純にこれを使って写真を加工しようとしても、写真の彩度が上がりすぎるなど、美しさのいずれかの側面が失われることもしばしばです。一方で、教師あり学習によって美しさのさまざまな側面を適切に学習させるには、ラベル付けされたデータセットが必要になるでしょう。これは収集が難しいものです。
私たちのアプローチは、プロ品質の写真のみを集めるというものです。これには、加工前後のイメージのペアや追加のラベルは含まれていません。そして、「美しさ」を自動的に複数の側面に分割し、いくつかのイメージ操作を組み合わせて生成したネガティブ サンプルと合わせて、それぞれの美しさの側面を個別に学習させます。これらのイメージ操作を準「直交」として保持することにより、写真の構図、彩度や HDR レベル、ライティングのドラマチックさを高速かつ分割可能な操作で最適化し、写真の質を高めることができます。
従来のイメージ フィルタは、彩度や HDR の詳細、構図に関するネガティブ トレーニング サンプルを生成するために使用しました。さらに、ドラマチック マスクという特殊な操作も導入しています。これは、ドラマチック ライティングの概念の学習と合わせて作成したものです。ネガティブ サンプルは、プロの写真にいくつかのイメージ フィルタを適用し、明度をランダムに変えて見栄えを悪くすることによって生成しました。トレーニングには、Generative Adversarial Network(GAN)を使用しています。これは、生成モデルでネガティブ サンプルのライティングを修正するマスクを生成しつつ、識別モデルで加工した写真と実際のプロの写真を見分けようとするものです。ドラマチック マスクは、ビネットのような形が決まったフィルタとは違い、写真の内容を考慮して明度を調整します。GAN のトレーニングでは競い合うようにして学習が進むため、その課程でさまざまなバリエーションの写真が提案されることになります。トレーニングの詳細については、論文をご覧ください。
結果
以下に、このシステムが Google ストリートビューから生成したいくつかの写真を紹介します。トレーニングされた「美しさ」のフィルタを適用することによって、感動的な作品が生まれていることがおわかりいただけるでしょう(本投稿の最初に掲載したイメージも含まれています)。
プロによる評価
このアルゴリズムがどの程度成功したかを見極めるため、「チューリング テスト」のような実験を行いました。生成した写真を質の異なる他の写真と混ぜて何名かのプロの写真家に見せ、それぞれの質を点数で評価してもらいました。各評価の意味は以下のとおりです。
今後の作業
ストリートビューのパノラマは、このプロジェクトの実験材料となりました。いつの日か、皆さんが現実の世界でよい写真をとる際に、この技術が役立つことになるかもしれません。生成した写真の中から、私たちが気に入った写真を集めたショーケースも作成しています。お好みの写真を見つけたら、クリックしてみてください。その近辺のストリートビューのパノラマが表示されます。もしその時あなたがカメラを持っていたら、同じように撮影していたでしょうか?
謝辞
本作品は、Google Research の機械知覚チームの Hui Fang と Meng Zhang によるものです。Inception ネットワークを利用して AVA 点数の予測を行った Vahid Kazemi に感謝いたします。また、Google ストリートビュー パノラマの処理をサポートしてくれた Sagarika Chalasani、Nick Beato、Bryan Klingner、Rupert Breheny にも感謝いたします。有用なレビューやコメントをいただいた Peyman Milanfar、Tomas Izo、Christian Szegedy、Jon Barron、Sergey Ioffe にも感謝いたします。匿名のプロの写真家の皆さんにも、この場を借りてお礼を申し上げます。
機械学習(ML)は、目標が明確に定まる用途で数多くの優れた成果を残しています。正解かどうかの答えが存在するタスクでは学習プロセスが比較的容易になり、目標を達成しやすくなります。たとえば、イメージ内の物体を正確に特定したり、ある言語から別の言語に適切に翻訳したりといったタスクです。しかし、結果の客観的評価が難しい分野もあります。たとえば、写真が美しいかどうかは美的感覚によって決まります。これは非常に主観的な概念です。
![]() |
カナダ、ジャスパー国立公園のプロ級の(?)写真 |
モデルのトレーニング
「美しさ」は、 AVA などのデータセットを使ってモデル化できます。しかし、単純にこれを使って写真を加工しようとしても、写真の彩度が上がりすぎるなど、美しさのいずれかの側面が失われることもしばしばです。一方で、教師あり学習によって美しさのさまざまな側面を適切に学習させるには、ラベル付けされたデータセットが必要になるでしょう。これは収集が難しいものです。
私たちのアプローチは、プロ品質の写真のみを集めるというものです。これには、加工前後のイメージのペアや追加のラベルは含まれていません。そして、「美しさ」を自動的に複数の側面に分割し、いくつかのイメージ操作を組み合わせて生成したネガティブ サンプルと合わせて、それぞれの美しさの側面を個別に学習させます。これらのイメージ操作を準「直交」として保持することにより、写真の構図、彩度や HDR レベル、ライティングのドラマチックさを高速かつ分割可能な操作で最適化し、写真の質を高めることができます。
![]() |
パノラマ写真(a)をトリミングし(b)、彩度と HDR 強度を調整し(c)、ドラマチック マスクを適用する(d)。それぞれのステップは学習した美的感覚の側面の 1 つに沿って実行される。 |
結果
以下に、このシステムが Google ストリートビューから生成したいくつかの写真を紹介します。トレーニングされた「美しさ」のフィルタを適用することによって、感動的な作品が生まれていることがおわかりいただけるでしょう(本投稿の最初に掲載したイメージも含まれています)。
![]() |
カナダ、ジャスパー国立公園 |
![]() |
スイス、インターラーケン |
![]() |
イタリア、オロビエ・ベルガマスケ公園 |
![]() |
カナダ、ジャスパー国立公園 |
このアルゴリズムがどの程度成功したかを見極めるため、「チューリング テスト」のような実験を行いました。生成した写真を質の異なる他の写真と混ぜて何名かのプロの写真家に見せ、それぞれの質を点数で評価してもらいました。各評価の意味は以下のとおりです。
- 1: 構図やライティングなどを考えず、ただ撮影しただけ。
- 2: 写真の経験がない一般の人にしてはよい写真。ただし、芸術的に卓越した点は認められない。
- 3: セミプロ級。明らかに芸術的側面が見受けられる優れた写真。このまま行けばプロの写真家になれる。
- 4: プロ級。
![]() |
写真の予測点数とプロの写真家による評価点数 |
ストリートビューのパノラマは、このプロジェクトの実験材料となりました。いつの日か、皆さんが現実の世界でよい写真をとる際に、この技術が役立つことになるかもしれません。生成した写真の中から、私たちが気に入った写真を集めたショーケースも作成しています。お好みの写真を見つけたら、クリックしてみてください。その近辺のストリートビューのパノラマが表示されます。もしその時あなたがカメラを持っていたら、同じように撮影していたでしょうか?
謝辞
本作品は、Google Research の機械知覚チームの Hui Fang と Meng Zhang によるものです。Inception ネットワークを利用して AVA 点数の予測を行った Vahid Kazemi に感謝いたします。また、Google ストリートビュー パノラマの処理をサポートしてくれた Sagarika Chalasani、Nick Beato、Bryan Klingner、Rupert Breheny にも感謝いたします。有用なレビューやコメントをいただいた Peyman Milanfar、Tomas Izo、Christian Szegedy、Jon Barron、Sergey Ioffe にも感謝いたします。匿名のプロの写真家の皆さんにも、この場を借りてお礼を申し上げます。