Google DeepMind、高精度画像生成モデル「Nano Banana Pro」を発表 Introducing Nano Banana Pro
- Google DeepMindはGemini 3 Proを基盤とする画像生成・編集モデル「Nano Banana Pro」を発表した。
- テキスト描画やインフォグラフィック生成、複数画像の合成、4K解像度出力に対応し、Geminiアプリや各種APIで利用可能となる。
English summary
- Introducing Nano Banana Pro
Google DeepMindは、Gemini 3 Proを基盤とする新しい画像生成・編集モデル「Nano Banana Pro」を発表した。8月に公開された「Nano Banana」(Gemini 2.5 Flash Image)の上位版にあたり、ビジュアル制作の品質と制御性を大きく引き上げる位置づけとなる。
最大の特徴は、画像内のテキストを高精度に描画できる点にある。従来の拡散モデルが苦手としてきた長文や多言語の文字、注釈付きの図表を扱えるようになり、ポスター、図解、インフォグラフィック、モックアップといった「文字を含むビジュアル」を一枚のプロンプトから生成しやすくなったとされる。Gemini 3 Proの推論能力を取り込むことで、レシピ図や教育用資料のように構造化された情報を視覚化する用途にも対応する。
編集機能も強化された。最大14枚の画像を入力として参照し、最大5人の人物の一貫性を保ったまま合成・配置できる。ライティングの変更、被写界深度の調整、カラーグレーディング、画角の変更など、写真編集に近い操作を自然言語で指示できる点が訴求されている。出力は2K・4K解像度に対応し、印刷物や大判表示にも耐えうる解像度を確保する。
Google DeepMindはGemini 3 Proを基盤とする画像生成・編集モデル「Nano Banana Pro」を発表した。
提供面では、消費者向けにGeminiアプリ、Google検索のAI Mode、NotebookLM、Google広告のAsset Studioなどで段階展開され、開発者向けにはGemini API、Google AI Studio、Vertex AI、Antigravityで利用できる。生成画像にはSynthIDの不可視ウォーターマークが埋め込まれ、Geminiアプリ内ではC2PA準拠の来歴情報の確認も可能と説明されている。
背景として、画像生成分野ではOpenAIのGPT Image 1やBlack Forest LabsのFLUX、Midjourney、Adobe Fireflyなどが文字描画と編集精度を競っており、Googleは基盤LLMの推論力と画像モデルを密結合する方向で差別化を図っているとみられる。AI生成物の真正性を巡る議論が強まる中、SynthIDとC2PAを併用する姿勢は、企業利用やジャーナリズム領域への浸透を意識したものと考えられる。
Google DeepMind has introduced Nano Banana Pro, a new image generation and editing model built on top of Gemini 3 Pro. It is positioned as a higher-end successor to the original Nano Banana (Gemini 2.5 Flash Image) released in August, aimed at users who need stronger control, fidelity and reasoning in visual output.
The headline improvement is text rendering inside images. Diffusion-style models have historically struggled with legible long-form text, multilingual characters and annotated diagrams. Nano Banana Pro is presented as substantially better at producing posters, infographics, diagrams, recipe cards, mockups and educational visuals where typography and layout matter as much as the imagery itself. By inheriting reasoning from Gemini 3 Pro, the model can also turn structured prompts or knowledge-heavy briefs into coherent visual explanations rather than purely decorative outputs.
Editing capabilities have likewise been expanded. The model accepts up to 14 reference images and can keep up to five people consistent across a composition, which is meaningful for brand work, character-driven storytelling and product scenes. Users can adjust lighting, depth of field, color grading, camera angle and focus through natural language, edging closer to a conversational Photoshop-style workflow. Outputs are available at 2K and 4K resolution, making the model more practical for print and large-format use cases that previous Gemini image models could not comfortably serve.
Distribution is broad from day one. On the consumer side, Nano Banana Pro is rolling out in the Gemini app, Google Search's AI Mode, NotebookLM and Google Ads' Asset Studio. For developers and enterprises, it is available through the Gemini API, Google AI Studio, Vertex AI and the Antigravity agent platform. Google says all generated images carry an invisible SynthID watermark, and that users of the Gemini app can additionally inspect C2PA provenance metadata to verify origin.
In the wider landscape, image generation has become a competitive arena where OpenAI's GPT Image 1, Black Forest Labs' FLUX family, Midjourney and Adobe Firefly are each pushing on text fidelity, editability and commercial safety. Google's distinct angle appears to be tight coupling between a frontier reasoning LLM and the image model, which may help with prompts that require world knowledge, charts or factual layouts rather than pure aesthetics. The combination of SynthID and C2PA is also notable: as concerns around synthetic media intensify ahead of further elections and enterprise deployments, provenance signals are becoming a baseline expectation rather than a differentiator, and Google seems to be aligning its rollout accordingly.
It remains to be seen how Nano Banana Pro will be priced relative to the standard Nano Banana tier and how its quality compares in independent evaluations, particularly for non-Latin scripts and dense infographics. Still, the release suggests that Google intends to make image generation a first-class capability of the Gemini 3 generation rather than a side feature, and to push it into surfaces — Search, Ads, NotebookLM — where reach is arguably as important as raw model quality.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (deepmind.google) をご確認ください。