Google Veo-3 подделывает видео операций, но лишён медзнаний

Google Veo-3 подделывает видео операций, но лишён медзнаний


100
20 поделились, 100 баллы

Группа исследователей протестировала последнюю видеомодель Google, Veo-3, на реальных хирургических съёмках и выявила разрыв между правдоподобной визуальной подачей и реальным пониманием медицинских действий. Для оценки была создана выборка SurgVeo, в которую вошли 50 видеозаписей операций на брюшной полости и головном мозге.

Модель получила одну кадровую картинку и должна была предсказать развитие операции на следующие восемь секунд. Итоги оценивали четыре опытных хирурга по четырём критериям: визуальная правдоподобность, работа инструментов, реакция тканей и смысл выполняемых действий с клинической точки зрения.

Вeo-3 генерировал кадры, которые на первый взгляд выглядели реалистично — некоторые эксперты отметили высокое качество изображения. Однако при проверке медицинской корректности видеоролики быстро теряли смысл и демонстрировали системные ошибки.

В тестах на абдоминальных операциях визуальная правдоподобность через одну секунду получила 3,72 из 5. При этом оценка за манипуляцию инструментом составила 1,78, за реакцию ткани — 1,64, а за хирургическую логику — 1,61, что указывает на неспособность модели воссоздать реальные оперативные последовательности.

Для нейрохирургических съёмок проблемы оказались ещё серьёзнее. Точность работы инструментов снизилась до 2,77 по сравнению с 3,36 для абдоминальных операций, а оценка хирургической логики падала до 1,13 на отметке в восемь секунд.

Анализ типов ошибок показал, что более 93% сбоев связаны с медицинской логикой: модель изобретала инструменты, придумывала невозможные реакции тканей или выполняла клинически бессмысленные действия. Ошибки, вызванные низким качеством изображения, встречались значительно реже — 6,2% в абдоминальных и 2,8% в нейрохирургических треках.

Исследователи также проверяли, улучшится ли поведение модели при дополнительном контексте, например при указании типа операции или её фаз. Эти меры не привели к стабильному или заметному улучшению, и команда делает вывод, что ключевая проблема — неспособность модели корректно обрабатывать и понимать медицинскую информацию.

Результаты показывают, что современные видеомодели пока далеки от подлинного медицинского понимания. Хотя такие системы могут генерировать внешне правдоподобные сцены, им не хватает знаний и причинно-следственной логики, необходимых для безопасных клинических решений.

Это создаёт важные риски при использовании синтетических видеоматериалов в медицинском обучении или для обучения роботов: правдоподобные, но ошибочные ролики могут привести к усвоению неправильных приёмов. Подходы, в которых видеосгенерированные данные применяют для обучения роботов в общих задачах, не устраняют этих рисков в сфере здравоохранения.

Авторы планируют опубликовать бенчмарк SurgVeo в открытом доступе на GitHub, чтобы дать возможность другим командам протестировать и улучшить свои модели. По их мнению, открытое тестирование поможет более точно оценивать и сокращать медицинские ошибки в моделях.

При этом текстовые модели ИИ уже демонстрируют заметный прогресс в медицинских приложениях. В одном из исследований система Microsoft MAI Diagnostic Orchestrator показала в сложных случаях диагностическую точность, в четыре раза превышающую показатели опытных терапевтов, хотя в самой работе авторы отмечали методологические ограничения исследования.


Понравилось? Поделитесь с друзьями!

100
20 поделились, 100 баллы

Какова ваша реакция?

Чего? Чего?
1
Чего?
Плачу Плачу
8
Плачу
Прикол Прикол
7
Прикол
Ого Ого
6
Ого
Злой Злой
5
Злой
Ржака Ржака
4
Ржака
Ух, ты! Ух, ты!
3
Ух, ты!
Ужас Ужас
1
Ужас
Супер Супер
8
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend