3 месяца назад 3 месяца назад

По мнению пользователей, эти 7 AI-чатботов лучше ChatGPT

Опубликовано: Admin 3 месяца назад3 месяца назад

104Просмотра

ChatGPT не изобрёл чат‑ботов, но сделал их массовыми. Запуск версии 3.5 в ноябре 2022 года стал поворотным моментом для генеративного ИИ, и в считанные месяцы сервис набрал более 100 миллионов ежемесячных активных пользователей.

После этого на рынок быстро вышли конкуренты: Google с моделями Gemini, Anthropic с Claude и Meta с LLaMA. Тем не менее в недавнем исследовании Humaine, проведённом компанией Prolific, ChatGPT занял лишь восьмое место, уступив нескольким версиям Gemini, двум моделям DeepSeek, Grok и французскому боту Mistral.

Исследование показало, что пользователи ценят не только правильность ответа, но и способность бота понимать собеседника, сохранять нить диалога, формулировать понятную информацию и действовать честно и безопасно.

В рейтинге Humaine в десятку лучших вошли, среди прочих, Gemini 2.5 Pro, DeepSeek v3, Magistral Medium от Mistral, Grok 4 и Grok 3, а также другие версии Gemini и DeepSeek. Оценки ставились участниками в парах: пользователи вели многоповоротные беседы с двумя анонимными моделями и выбирали, какая показалась лучше.

Модели оценивались по четырём основным критериям. Первый — качество выполнения задач и способность рассуждать; второй — плавность взаимодействия и адаптивность в многоходовой беседе; третий — стиль подачи информации и понятность; четвёртый — доверие, этичность и безопасность ответов.

Методика Humaine базировалась на парных сравнениях и большой выборке: изначально в исследовании было примерно 20 000 участников, затем почти 25 000. Победа приносила 1 балл, ничья 0,5; всего в конкурсе участвовало 28 моделей, максимальный возможный балл для одной модели был 27, а среднее значение — около 13,5.

В таблице также указывался объём сравнений для каждой модели: у всех участников выборки число парных оценок варьировалось примерно от 1 400 до 2 300, у лидера Gemini 2.5 Pro на тот момент было около 1 846 таких сравнений.

Исследование стремилось учесть разнообразие аудитории: участники представляли разные возрастные группы и демографические характеристики в Великобритании и США. Наиболее заметные различия в восприятии моделей наблюдались между поколениями, хотя это не меняло общую картину лидеров.

Почему же ChatGPT не оказался выше в этом рейтинге, несмотря на свою популярность? По данным, приведённым в материале, ChatGPT остаётся крупнейшим по объёму использования, но лидерство по числу пользователей и взаимодействий не всегда совпадает с предпочтениями респондентов в анонимных парных сравнениях.

Google занял первое место с моделью Gemini 2.5 Pro, которая получила высокие оценки по нескольким показателям и оказалась стабильным победителем в разных демографических группах. Версия Gemini 2.5 была представлена в марте 2025 года, а профессиональная сборка стала доступна с июня; новая версия позиционировалась как модель для решения более сложных задач.

На втором месте оказались две модели китайской компании DeepSeek: v3 и R1 заняли верхние строчки рейтинга. DeepSeek привлёк внимание в начале 2025 года как массово скачиваемое приложение, а в исследовании он показал сильные результаты по стилю коммуникации и был особенно популярен у пользователей старших возрастных групп.

Третью позицию заняла менее известная французская компания Mistral с моделью Magistral Medium. У Mistral в исследовании были две версии; Magistral Medium показала высокую адаптивность и естественность диалога, тогда как более лёгкая версия оказалась значительно ниже в таблице.

Модели Grok от компании xAI заняли четвёртое и пятое места. Ранние противоречия вокруг Grok, связанные с неприемлемыми ответами, по состоянию на исследование во многом были устранены; в результате модель получила высокие оценки по доверию и вовлечённости пользователей, а трафик и длительность сессий у Grok продемонстрировали заметный рост.

Некоторые известные игроки выступили хуже, чем ожидалось: один из конкурентов оказался в одиннадцатом месте, а продукты Meta на основе Llama расположились в нижней половине списка. В списке ниже по рейтингу также присутствовали менее раскрученные разработчики, что указывает на различия в качестве среди множества предложений на рынке.

Авторы исследования подчёркивают, что результаты обновляются по мере появления новых версий моделей, а Humaine дополняет другие виды тестов, фокусируясь на взаимодействии с человеком и субъективных качествах диалога. Это не отменяет задачных бенчмарков, но показывает, что в анонимных сравнениях главным игроком быть необязательно.

Организаторы проекта также присуждали специальные награды по категориям: одна из моделей OpenAI получила приз в номинации за проактивность, тогда как лидер рейтинга получил несколько других категориальных отличий.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.