
今天凌晨,Google 正式提出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image(又名 nano banana)。
据官方介绍,Gemini 2.5 Flash Image 的主要特点包括下面几点:
- 充分保持角色的一致性:它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。
- 基于提示的图片编辑:允许用户通过简单的自然语言指令,对图片进行精准的局部修改 。
- 利用 Gemini 的现实世界知识:模型可借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。
- 多幅图像融合:可以将一张图片中的物体「放」进另一张图片的场景里,整个过程只需一条提示指令就能完成。
性能表现上,Gemini 2.5 Flash Image 在多项基准测试上均为第一名,超越 OpenAI ChatGPT 4o(GPT Image 1 high)、Qwen Image Edit 等模型。
关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱。
目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。
|