
Генерация изображений с помощью генеративного ИИ стала массовым инструментом для частных пользователей и бизнеса. Такие системы позволяют быстро создавать нужные изображения без специальных навыков дизайна и значительно ускоряют задачи, которые раньше занимали много времени.
За последние годы появилось несколько продвинутых продуктов для генерации изображений, включая Stable Diffusion, Midjourney, DALL·E и Imagen. Недавно Google представил модель Gemini 2.5 Flash Image, также называемую nano-banana, что заметно расширило возможности в этой области.
Модель nano-banana поддерживает реалистичную генерацию, смешивание нескольких изображений, сохранение согласованности персонажей и редактирование по детализированным описаниям. Она даёт пользователю больше контроля по сравнению с предыдущими решениями и позволяет выполнять целевые преобразования изображений.
В статье показаны примеры использования модели через веб-интерфейс Google AI Studio и через Gemini API в среде Python. Демонстрации иллюстрируют основные возможности: создание, редактирование, перенос стиля и комбинирование изображений.
Для работы с моделью требуется аккаунт Google и доступ к Google AI Studio, а также ключ API для использования Gemini API; ключ выдается в рамках платного тарифа, бесплатного уровня нет. Для запуска примеров на Python используется библиотека Google Generative AI (google-genai), которую нужно установить в окружение.
В интерфейсе AI Studio нужно выбрать модель gemini-2.5-flash-image-preview и начать чат или сессию генерации. При формулировке подсказок авторы советуют описывать сцену повествовательно, а не перечислять отдельные ключевые слова, — это обычно даёт более точный результат.
В качестве примера приведён запрос для генерации фотореалистичного крупного плана индонезийской мастерицы батика: руки, покрытые воском, рисуют мотив на индиговой ткани кантином; она сидит за деревянным столом на веранде, за ней размытые склады ткани и кадки с красками; утренний свет подчёркивает линии воска и текстуру тика; съёмка эквивалентна объективу 85 мм при f/2 для мягкого отделения фона. Запрос задаёт фокус на тактильности, внимании к деталям и гордости за ремесло.
В статье также приводится пример кода на Python, который использует клиент genai и модель gemini-2.5-flash-image-preview для генерации изображения по такому текстовому описанию. Код демонстрирует отправку запроса к модели и получение бинарных данных изображения для дальнейшего сохранения или отображения.
Помимо генерации, nano-banana эффективно выполняет редактирование изображений по текстовым инструкциям. В одном примере к исходному портрету добавили тонкие читающие очки так, чтобы отражения и посадка выглядели естественно, не закрывая глаза, и модель выполнила эту задачу, сохранив общую композицию.
Также показано тестирование согласованности персонажа: по образцу было сгенерировано новое изображение той же мастерицы, смотрящей в камеру и с лёгкой улыбкой, при сохранении ключевых признаков внешности и обстановки. При более значительной смене ситуации модель смогла перенести ту же личность в другой сюжет, например при показе готовой ткани, выставленной к камере.
Модель поддерживает перенос стиля: фотосцену можно преобразовать в акварельную работу с текстурой бумаги, мягкими лессировками и характером краски, при этом сохранив позу и композицию исходного кадра. Такой подход позволяет создавать тематически связанные вариации с разной художественной обработкой.
При комбинировании изображений (image fusion) можно добавлять объекты из одного изображения в другое, например переместить соломенную шляпу с одного снимка на голову персонажа в другом кадре. В примере отмечено, что для наилучшего результата рекомендуется использовать не более трёх входных изображений — большее количество может снизить качество вывода.
В целом модель особенно удобна, когда у пользователя есть исходные фотографии, которые нужно видоизменять или тиражировать с сохранением внешности и стиля. Для получения желаемого результата часто требуется несколько итераций и корректировок подсказок.
Gemini 2.5 Flash Image (nano-banana) представляет собой мощную систему генерации и редактирования изображений с расширенными возможностями по сравнению с предыдущими моделями. Рассмотренные примеры показывают, как с её помощью можно создавать реалистичные сцены, редактировать детали, сохранять консистентность персонажей и применять художественные трансформации.
Автор материала — Cornellius Yudha Wijaya, менеджер по аналитике данных и автор публикаций по Python, машинному обучению и прикладному использованию ИИ, работающий в Allianz Indonesia.


Комментариев