5 месяцев назад 5 месяцев назад

Google Veo-3 подделывает видео операций, но лишён медзнаний

Опубликовано: Admin 5 месяцев назад5 месяцев назад

112Просмотров

Группа исследователей протестировала последнюю видеомодель Google, Veo-3, на реальных хирургических съёмках и выявила разрыв между правдоподобной визуальной подачей и реальным пониманием медицинских действий. Для оценки была создана выборка SurgVeo, в которую вошли 50 видеозаписей операций на брюшной полости и головном мозге.

Модель получила одну кадровую картинку и должна была предсказать развитие операции на следующие восемь секунд. Итоги оценивали четыре опытных хирурга по четырём критериям: визуальная правдоподобность, работа инструментов, реакция тканей и смысл выполняемых действий с клинической точки зрения.

Вeo-3 генерировал кадры, которые на первый взгляд выглядели реалистично — некоторые эксперты отметили высокое качество изображения. Однако при проверке медицинской корректности видеоролики быстро теряли смысл и демонстрировали системные ошибки.

В тестах на абдоминальных операциях визуальная правдоподобность через одну секунду получила 3,72 из 5. При этом оценка за манипуляцию инструментом составила 1,78, за реакцию ткани — 1,64, а за хирургическую логику — 1,61, что указывает на неспособность модели воссоздать реальные оперативные последовательности.

Для нейрохирургических съёмок проблемы оказались ещё серьёзнее. Точность работы инструментов снизилась до 2,77 по сравнению с 3,36 для абдоминальных операций, а оценка хирургической логики падала до 1,13 на отметке в восемь секунд.

Анализ типов ошибок показал, что более 93% сбоев связаны с медицинской логикой: модель изобретала инструменты, придумывала невозможные реакции тканей или выполняла клинически бессмысленные действия. Ошибки, вызванные низким качеством изображения, встречались значительно реже — 6,2% в абдоминальных и 2,8% в нейрохирургических треках.

Исследователи также проверяли, улучшится ли поведение модели при дополнительном контексте, например при указании типа операции или её фаз. Эти меры не привели к стабильному или заметному улучшению, и команда делает вывод, что ключевая проблема — неспособность модели корректно обрабатывать и понимать медицинскую информацию.

Результаты показывают, что современные видеомодели пока далеки от подлинного медицинского понимания. Хотя такие системы могут генерировать внешне правдоподобные сцены, им не хватает знаний и причинно-следственной логики, необходимых для безопасных клинических решений.

Это создаёт важные риски при использовании синтетических видеоматериалов в медицинском обучении или для обучения роботов: правдоподобные, но ошибочные ролики могут привести к усвоению неправильных приёмов. Подходы, в которых видеосгенерированные данные применяют для обучения роботов в общих задачах, не устраняют этих рисков в сфере здравоохранения.

Авторы планируют опубликовать бенчмарк SurgVeo в открытом доступе на GitHub, чтобы дать возможность другим командам протестировать и улучшить свои модели. По их мнению, открытое тестирование поможет более точно оценивать и сокращать медицинские ошибки в моделях.

При этом текстовые модели ИИ уже демонстрируют заметный прогресс в медицинских приложениях. В одном из исследований система Microsoft MAI Diagnostic Orchestrator показала в сложных случаях диагностическую точность, в четыре раза превышающую показатели опытных терапевтов, хотя в самой работе авторы отмечали методологические ограничения исследования.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.