3 месяца назад 3 месяца назад

Японский ИИ мгновенно описывает видимое и воображаемое

Опубликовано: Admin 3 месяца назад3 месяца назад

115Просмотров

Что если мозг мог бы тихо и автоматически составлять текстовые описания того, что видит или вспоминает человек, без какого-либо движения мышц?

Такую идею реализует подход под названием «mind‑captioning», разработанный Томоясу Хорикавой в Лаборатории коммуникационных наук NTT в Японии. Это не телепатия и не мгновенный перевод мыслей в слова, но концепция меняет представление о возможностях неинвазивных нейротехнологий.

Методика основана на измерениях активности мозга с помощью функциональной магнитно-резонансной томографии (фМРТ). Участники лежат в сканере и просматривают тысячи коротких бесшумных видеоклипов, например человека, открывающего дверь, велосипед у стены или собаку, потягивающуюся в солнечной комнате.

По каждому измерению мозговой активности сопоставляются абстрактные семантические признаки, извлечённые из текстовых описаний этих видео с помощью заранее обученной языковой модели. Вместо того чтобы пытаться восстановить смысл нейронных паттернов «с нуля», декодер выравнивает их с богатым лингвистическим пространством, которое уже понимает ИИ.

После установления такого соответствия система начинает с пустой фразы, а затем маскированная языковая модель многократно уточняет её. На каждом шаге слова слегка меняются так, чтобы смысловой профиль получаемого предложения совпадал с сигнатурой мозговой активности участника. По мере итераций набор слов преобразуется в связное и порой довольно конкретное предложение.

Например, клип с мужчиной, бегущим по пляжу, превращается в фразу о человеке, бегущем у моря. Воспоминание о коте, забирающемся на стол, может быть восстановлено как текст, описывающий действие, предметы и контекст, а не просто набор ключевых слов.

Одно из любопытных свойств метода — его работоспособность при исключении традиционных языковых областей мозга. Если убрать из анализа области, ассоциируемые с речью, модель всё равно генерирует связные описания. Это указывает на то, что семантическая информация распределена шире, чем предполагают классические учебники, и может храниться в формах, доступных для сопоставления ИИ без привлечения механизмов, ответственных за говорение или письмо.

По результатам эксперимента, при генерации предложений для новых видео, не использованных в обучении, система помогала правильно выбрать оригинальный клип из списка из 100 вариантов примерно в половине случаев. При тестах воспоминания — когда участники мысленно вспоминали увиденное — точность у некоторых подходила к 40 процентам. Для области, где «выше случайности» часто означает лишь несколько процентов, такие результаты представляют собой важный шаг хотя бы потому, что показывают возможность восстановления глубокой визуальной семантики из шумных косвенных данных фМРТ.

Возможные применения очевидны и вызывают этические вопросы. Для людей, неспособных говорить из‑за паралича или афазии, развитие метода может приблизить голосовой заменитель мыслей, позволяя выражать намерения без движений.

В то же время у подхода есть заметные ограничения: он требует часов персонализированных данных мозга, дорогих сканеров и строго контролируемых стимулов, и он не умеет декодировать случайные мысли, приватные воспоминания или незакреплённые грёзы. Это подчёркивает необходимость обсуждения юридических и этических границ использования подобных технологий.

В целом mind‑captioning стоит рассматривать как предварительную демонстрацию того, как современные языковые модели могут связать биологические сигналы и язык. Исследование показывает путь, по которому устройства будущего могут научиться не только реагировать на то, что мы печатаем или говорим, но и интерпретировать то, что мы визуализируем внутри.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.