
Группа исследователей протестировала последнюю видеомодель Google, Veo-3, на реальных хирургических съёмках и выявила разрыв между правдоподобной визуальной подачей и реальным пониманием медицинских действий. Для оценки была создана выборка SurgVeo, в которую вошли 50 видеозаписей операций на брюшной полости и головном мозге.
Модель получила одну кадровую картинку и должна была предсказать развитие операции на следующие восемь секунд. Итоги оценивали четыре опытных хирурга по четырём критериям: визуальная правдоподобность, работа инструментов, реакция тканей и смысл выполняемых действий с клинической точки зрения.
Вeo-3 генерировал кадры, которые на первый взгляд выглядели реалистично — некоторые эксперты отметили высокое качество изображения. Однако при проверке медицинской корректности видеоролики быстро теряли смысл и демонстрировали системные ошибки.
В тестах на абдоминальных операциях визуальная правдоподобность через одну секунду получила 3,72 из 5. При этом оценка за манипуляцию инструментом составила 1,78, за реакцию ткани — 1,64, а за хирургическую логику — 1,61, что указывает на неспособность модели воссоздать реальные оперативные последовательности.
Для нейрохирургических съёмок проблемы оказались ещё серьёзнее. Точность работы инструментов снизилась до 2,77 по сравнению с 3,36 для абдоминальных операций, а оценка хирургической логики падала до 1,13 на отметке в восемь секунд.
Анализ типов ошибок показал, что более 93% сбоев связаны с медицинской логикой: модель изобретала инструменты, придумывала невозможные реакции тканей или выполняла клинически бессмысленные действия. Ошибки, вызванные низким качеством изображения, встречались значительно реже — 6,2% в абдоминальных и 2,8% в нейрохирургических треках.
Исследователи также проверяли, улучшится ли поведение модели при дополнительном контексте, например при указании типа операции или её фаз. Эти меры не привели к стабильному или заметному улучшению, и команда делает вывод, что ключевая проблема — неспособность модели корректно обрабатывать и понимать медицинскую информацию.
Результаты показывают, что современные видеомодели пока далеки от подлинного медицинского понимания. Хотя такие системы могут генерировать внешне правдоподобные сцены, им не хватает знаний и причинно-следственной логики, необходимых для безопасных клинических решений.
Это создаёт важные риски при использовании синтетических видеоматериалов в медицинском обучении или для обучения роботов: правдоподобные, но ошибочные ролики могут привести к усвоению неправильных приёмов. Подходы, в которых видеосгенерированные данные применяют для обучения роботов в общих задачах, не устраняют этих рисков в сфере здравоохранения.
Авторы планируют опубликовать бенчмарк SurgVeo в открытом доступе на GitHub, чтобы дать возможность другим командам протестировать и улучшить свои модели. По их мнению, открытое тестирование поможет более точно оценивать и сокращать медицинские ошибки в моделях.
При этом текстовые модели ИИ уже демонстрируют заметный прогресс в медицинских приложениях. В одном из исследований система Microsoft MAI Diagnostic Orchestrator показала в сложных случаях диагностическую точность, в четыре раза превышающую показатели опытных терапевтов, хотя в самой работе авторы отмечали методологические ограничения исследования.


Комментариев