По мнению пользователей, эти 7 AI-чатботов лучше ChatGPT

По мнению пользователей, эти 7 AI-чатботов лучше ChatGPT


94
20 поделились, 94 баллы

ChatGPT не изобрёл чат‑ботов, но сделал их массовыми. Запуск версии 3.5 в ноябре 2022 года стал поворотным моментом для генеративного ИИ, и в считанные месяцы сервис набрал более 100 миллионов ежемесячных активных пользователей.

После этого на рынок быстро вышли конкуренты: Google с моделями Gemini, Anthropic с Claude и Meta с LLaMA. Тем не менее в недавнем исследовании Humaine, проведённом компанией Prolific, ChatGPT занял лишь восьмое место, уступив нескольким версиям Gemini, двум моделям DeepSeek, Grok и французскому боту Mistral.

Исследование показало, что пользователи ценят не только правильность ответа, но и способность бота понимать собеседника, сохранять нить диалога, формулировать понятную информацию и действовать честно и безопасно.

В рейтинге Humaine в десятку лучших вошли, среди прочих, Gemini 2.5 Pro, DeepSeek v3, Magistral Medium от Mistral, Grok 4 и Grok 3, а также другие версии Gemini и DeepSeek. Оценки ставились участниками в парах: пользователи вели многоповоротные беседы с двумя анонимными моделями и выбирали, какая показалась лучше.

Модели оценивались по четырём основным критериям. Первый — качество выполнения задач и способность рассуждать; второй — плавность взаимодействия и адаптивность в многоходовой беседе; третий — стиль подачи информации и понятность; четвёртый — доверие, этичность и безопасность ответов.

Методика Humaine базировалась на парных сравнениях и большой выборке: изначально в исследовании было примерно 20 000 участников, затем почти 25 000. Победа приносила 1 балл, ничья 0,5; всего в конкурсе участвовало 28 моделей, максимальный возможный балл для одной модели был 27, а среднее значение — около 13,5.

В таблице также указывался объём сравнений для каждой модели: у всех участников выборки число парных оценок варьировалось примерно от 1 400 до 2 300, у лидера Gemini 2.5 Pro на тот момент было около 1 846 таких сравнений.

Исследование стремилось учесть разнообразие аудитории: участники представляли разные возрастные группы и демографические характеристики в Великобритании и США. Наиболее заметные различия в восприятии моделей наблюдались между поколениями, хотя это не меняло общую картину лидеров.

Почему же ChatGPT не оказался выше в этом рейтинге, несмотря на свою популярность? По данным, приведённым в материале, ChatGPT остаётся крупнейшим по объёму использования, но лидерство по числу пользователей и взаимодействий не всегда совпадает с предпочтениями респондентов в анонимных парных сравнениях.

Google занял первое место с моделью Gemini 2.5 Pro, которая получила высокие оценки по нескольким показателям и оказалась стабильным победителем в разных демографических группах. Версия Gemini 2.5 была представлена в марте 2025 года, а профессиональная сборка стала доступна с июня; новая версия позиционировалась как модель для решения более сложных задач.

На втором месте оказались две модели китайской компании DeepSeek: v3 и R1 заняли верхние строчки рейтинга. DeepSeek привлёк внимание в начале 2025 года как массово скачиваемое приложение, а в исследовании он показал сильные результаты по стилю коммуникации и был особенно популярен у пользователей старших возрастных групп.

Третью позицию заняла менее известная французская компания Mistral с моделью Magistral Medium. У Mistral в исследовании были две версии; Magistral Medium показала высокую адаптивность и естественность диалога, тогда как более лёгкая версия оказалась значительно ниже в таблице.

Модели Grok от компании xAI заняли четвёртое и пятое места. Ранние противоречия вокруг Grok, связанные с неприемлемыми ответами, по состоянию на исследование во многом были устранены; в результате модель получила высокие оценки по доверию и вовлечённости пользователей, а трафик и длительность сессий у Grok продемонстрировали заметный рост.

Некоторые известные игроки выступили хуже, чем ожидалось: один из конкурентов оказался в одиннадцатом месте, а продукты Meta на основе Llama расположились в нижней половине списка. В списке ниже по рейтингу также присутствовали менее раскрученные разработчики, что указывает на различия в качестве среди множества предложений на рынке.

Авторы исследования подчёркивают, что результаты обновляются по мере появления новых версий моделей, а Humaine дополняет другие виды тестов, фокусируясь на взаимодействии с человеком и субъективных качествах диалога. Это не отменяет задачных бенчмарков, но показывает, что в анонимных сравнениях главным игроком быть необязательно.

Организаторы проекта также присуждали специальные награды по категориям: одна из моделей OpenAI получила приз в номинации за проактивность, тогда как лидер рейтинга получил несколько других категориальных отличий.


Понравилось? Поделитесь с друзьями!

94
20 поделились, 94 баллы

Какова ваша реакция?

Чего? Чего?
1
Чего?
Плачу Плачу
8
Плачу
Прикол Прикол
7
Прикол
Ого Ого
6
Ого
Злой Злой
5
Злой
Ржака Ржака
4
Ржака
Ух, ты! Ух, ты!
3
Ух, ты!
Ужас Ужас
1
Ужас
Супер Супер
8
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend