Nano-Banana от Google открыл новую эру генерации изображений

Nano-Banana от Google открыл новую эру генерации изображений


97
20 поделились, 97 баллы

Генерация изображений с помощью генеративного ИИ стала массовым инструментом для частных пользователей и бизнеса. Такие системы позволяют быстро создавать нужные изображения без специальных навыков дизайна и значительно ускоряют задачи, которые раньше занимали много времени.

За последние годы появилось несколько продвинутых продуктов для генерации изображений, включая Stable Diffusion, Midjourney, DALL·E и Imagen. Недавно Google представил модель Gemini 2.5 Flash Image, также называемую nano-banana, что заметно расширило возможности в этой области.

Модель nano-banana поддерживает реалистичную генерацию, смешивание нескольких изображений, сохранение согласованности персонажей и редактирование по детализированным описаниям. Она даёт пользователю больше контроля по сравнению с предыдущими решениями и позволяет выполнять целевые преобразования изображений.

В статье показаны примеры использования модели через веб-интерфейс Google AI Studio и через Gemini API в среде Python. Демонстрации иллюстрируют основные возможности: создание, редактирование, перенос стиля и комбинирование изображений.

Для работы с моделью требуется аккаунт Google и доступ к Google AI Studio, а также ключ API для использования Gemini API; ключ выдается в рамках платного тарифа, бесплатного уровня нет. Для запуска примеров на Python используется библиотека Google Generative AI (google-genai), которую нужно установить в окружение.

В интерфейсе AI Studio нужно выбрать модель gemini-2.5-flash-image-preview и начать чат или сессию генерации. При формулировке подсказок авторы советуют описывать сцену повествовательно, а не перечислять отдельные ключевые слова, — это обычно даёт более точный результат.

В качестве примера приведён запрос для генерации фотореалистичного крупного плана индонезийской мастерицы батика: руки, покрытые воском, рисуют мотив на индиговой ткани кантином; она сидит за деревянным столом на веранде, за ней размытые склады ткани и кадки с красками; утренний свет подчёркивает линии воска и текстуру тика; съёмка эквивалентна объективу 85 мм при f/2 для мягкого отделения фона. Запрос задаёт фокус на тактильности, внимании к деталям и гордости за ремесло.

В статье также приводится пример кода на Python, который использует клиент genai и модель gemini-2.5-flash-image-preview для генерации изображения по такому текстовому описанию. Код демонстрирует отправку запроса к модели и получение бинарных данных изображения для дальнейшего сохранения или отображения.

Помимо генерации, nano-banana эффективно выполняет редактирование изображений по текстовым инструкциям. В одном примере к исходному портрету добавили тонкие читающие очки так, чтобы отражения и посадка выглядели естественно, не закрывая глаза, и модель выполнила эту задачу, сохранив общую композицию.

Также показано тестирование согласованности персонажа: по образцу было сгенерировано новое изображение той же мастерицы, смотрящей в камеру и с лёгкой улыбкой, при сохранении ключевых признаков внешности и обстановки. При более значительной смене ситуации модель смогла перенести ту же личность в другой сюжет, например при показе готовой ткани, выставленной к камере.

Модель поддерживает перенос стиля: фотосцену можно преобразовать в акварельную работу с текстурой бумаги, мягкими лессировками и характером краски, при этом сохранив позу и композицию исходного кадра. Такой подход позволяет создавать тематически связанные вариации с разной художественной обработкой.

При комбинировании изображений (image fusion) можно добавлять объекты из одного изображения в другое, например переместить соломенную шляпу с одного снимка на голову персонажа в другом кадре. В примере отмечено, что для наилучшего результата рекомендуется использовать не более трёх входных изображений — большее количество может снизить качество вывода.

В целом модель особенно удобна, когда у пользователя есть исходные фотографии, которые нужно видоизменять или тиражировать с сохранением внешности и стиля. Для получения желаемого результата часто требуется несколько итераций и корректировок подсказок.

Gemini 2.5 Flash Image (nano-banana) представляет собой мощную систему генерации и редактирования изображений с расширенными возможностями по сравнению с предыдущими моделями. Рассмотренные примеры показывают, как с её помощью можно создавать реалистичные сцены, редактировать детали, сохранять консистентность персонажей и применять художественные трансформации.

Автор материала — Cornellius Yudha Wijaya, менеджер по аналитике данных и автор публикаций по Python, машинному обучению и прикладному использованию ИИ, работающий в Allianz Indonesia.


Понравилось? Поделитесь с друзьями!

97
20 поделились, 97 баллы

Какова ваша реакция?

Чего? Чего?
6
Чего?
Плачу Плачу
3
Плачу
Прикол Прикол
2
Прикол
Ого Ого
1
Ого
Злой Злой
10
Злой
Ржака Ржака
9
Ржака
Ух, ты! Ух, ты!
8
Ух, ты!
Ужас Ужас
6
Ужас
Супер Супер
3
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend