Gemini 1.5 Flash と Pro 、Live API、そして Veo 2 が Gemini API に登場
今年の Cloud Next にて、開発者の皆さんが Google の AI を活用して未来を形作るよう支援するための、新しいアップデートと機能を発表できることを大変嬉しく思います。最新の Gemini 2.5 「思考モデル」、リアルタイム インタラクションを実現する Live API の新たな進歩、そして高品質な動画生成のための Veo 2 の一般提供開始に至るまで、今週発表された Google AI Studio の Gemini API 関連の主なアップデートをご紹介します。
Gemini 2.5 で構築する
先日、Google は最も高性能な AI モデルである Gemini 2.5 Pro (英語) を発表しました。これは、応答する前に推論する思考モデルの能力を示すものです。これまでで最も高度なコーディング モデルである Gemini 2.5 Pro は、視覚的に魅力的なウェブアプリの作成や、エージェント型プログラミング アプリケーションの開発に優れています。
つい先週、Gemini 2.5 Pro は、Google AI Studio の Gemini API を通じて開発者の皆さんにもご利用いただけるようになり、エンタープライズのお客様向けには Vertex AI (英語) でも利用可能になりました。
そして、 2025 年 4 月 9 日 (現地時間) には Gemini 2.5 Flash を発表しました。この人気の高い主力モデルの進化版は、思考能力を取り入れながら、低レイテンシーとコスト効率を維持します。
これは、すべての Gemini モデルが状況に応じて柔軟に思考できるようにするという Google のビジョンにおける重要なステップです。Gemini 2.5 モデルで構築することで、より高性能なエージェントが可能になります。
マルチエージェント システムの管理だけでなく、 100 万トークンの入力コンテキスト ウィンドウを活用したコード アシスタントやコードベース全体の生成推論を加速することが可能となり、アプリケーション向けの新たな事例が生まれるでしょう。
Veo 2 が本番環境に対応
Veo 2 が Gemini API で本番環境に対応しました。Veo 2 は、単純な指示から複雑な指示まで対応でき、幅広い視覚スタイルで現実世界の物理法則をシミュレートできます。Veo 2 により、開発者の皆さんはテキストと画像の両方のプロンプトから、アプリケーション内で直接、高品質な動画を生成できます。
その一例として Wolf Games は、パーソナライズされたインタラクティブなストーリー ゲームを作成する生成型ゲーミング プラットフォームを構築しています。Veo 2 を使用することで、Wolf Games はダイナミックで映画のような体験を構築でき、動画のリアリズム、モーションの精度、カメラ制御が大幅な向上がみられました。Wolf Games では、ビジュアルを望みどおりに仕上げるために必要な反復作業が 60% 以上削減され、制作時間が大幅に短縮されたことで、クリエイティブなビジョンをより迅速に実現しました。
Veo 2 は本日より、Google AI Studio の Gemini API で利用可能です。
動画生成機能を備えたインタラクティブなアプリケーションを構築してみませんか? Veo 2 のドキュメント、プロンプト ガイド、そして入門ガイドとして cookbook をご覧ください。Vertex AI のエンタープライズ グレードの生成メディア(音声や音楽など、他のモダリティも含む)の詳細については、こちら (英語) をご覧ください。
Gemini モデル向け Live API: プレビュー版の新機能
ダイナミックでリアルタイムなインタラクションは、次世代の AI アプリケーションにとって不可欠です。Gemini モデル向け Live API がこの度プレビュー版となり、開発者の皆さんは大幅に高いレート制限で、より強力でスケーラブルなアプリケーションの構築とテストを開始できます。Google AI Studio の Gemini API と Vertex AI で最新の機能をお試しください。
Live API を使用すると、開発者の皆さんはストリーミングされる音声、動画、テキストを低レイテンシーで処理するアプリケーションやエージェントを構築できます。これは、人間のような自然な会話の生成、ライブ会議への参加、リアルタイムでの状況モニタリングに最適です。
2024 年 12 月の実験的リリース以来、私たちは多くの開発者の皆様からのフィードバックをいただき、 一般公開に向けて要望の多かった機能を追加しました。
2 つの新しい音声オプションを備え、さらに 30 の言語を新規サポート
設定可能な音声区間検出 (VAD) にカスタム VAD ソリューションが利用できる柔軟性を追加
スライディング コンテキスト ウィンドウによる実質的に無限のセッションのサポート
その他多数の機能はこちら
Live API は、強力なツール連携機能(検索、コード実行、関数呼び出し)を備えているため、Gemini 2.0 Flash のようなモデルを、高度にインタラクティブなアプリケーションで活用する上で理想的な選択肢となります。
今すぐ構築しよう
今回のアップデートが開発者コミュニティにもたらす可能性に、私たちはとても期待しています。Gemini 2.5 による、より強力な思考能力、Live API によるリアルタイム インタラクション、そして Veo 2 による動画生成。これらの進化を通して、皆さんがこれからどのようなものを構築されるのか、心待ちにしています!
Posted by Tamao Imura - Google Developer Marketing Manager, Japan