Главный релиз этого года - ChatGPT 5

8 августа 2025, 05:21

Главный релиз этого года - ChatGPT 5

GPT-5 представляет собой унифицированную систему, состоящую из нескольких моделей, которыми управляет маршрутизатор в реальном времени. Этот маршрутизатор выбирает наиболее подходящую модель на основе типа, сложности, потребностей в инструментах и явных намерений пользователя.

По версии OpenAI таблица соответствия:

GPT-4o-mini -> GPT-5-main-mini

GPT-4o -> GPT-5-main

GPT-4.1-nano -> GPT-5-thinking-nano

OpenAI o4-mini -> GPT-5-thinking-mini

OpenAI o3 -> GPT-5-thinking

OpenAI o3 Pro -> GPT-5-thinking-pro.

Производительность GPT-5 была повышена в трёх наиболее распространенных областях использования ChatGPT: написание текстов, кодирование и здравоохранение в соответствии с презентацией и техническим описанием, однако ключевой акцент, как видится, совсем в другом.

Еще нет независимых расширенных тестов, а я НЕ жду особого прорыва, но прогресс в другом снижение галлюцинаций, повышение стабильности и точности ответов.

Отобразил главный слайд презентации это стабильность LLM на траектории расширения контекстного окна. Один из важнейших параметров, который даже OpenAI не акцентировали.

Суть заключается в том, что чем шире контекстное окно, тем всегда ниже стабильность модель проявляется забывчивость, точность и качество ответов снижается. Модель не удерживает все нужные детали в рабочем фокусе, может пропустить важные факты или перепутать их. При увеличении длины текста модель вынуждена сжимать и обобщать информацию, теряя детали.

По тестам видно, что GPT-4.1 nano на ширине контекстного окна всего 256 тыс токенов демонстрирует точность ниже 25% - это катастрофа, т.е. минимум 3 из 4 утверждений чистой фейк. Для GPT-4.1 примерно каждое второй утверждение мусор и это относится к передовым моделям o3, которые уже на 128 тыс токенов заваливаются в непрерывный фейкодром - непрекращающиеся поток бреда и галлюцинаций.

GPT-5 по тестам совсем иначе до 64 тыс токенов точность близка к 100%, проседает до 96-97% на 128 тыс и выше 90% на 256 тыс. Вот это фундаментальный прорыв.

Я сделаю акцент на GPT-5-thinking - углублённое рассуждение с внутренней цепочкой размышлений (Chain of Thought).

По внутренним тестам OpenAI: у GPT-5-thinking частота галлюцинаций на 65% ниже, чем у OpenAI o3, а для ответов с 1 крупной фактической ошибкой GPT-5-thinking имеет на 78% меньше ошибок, чем у o3.

В тестах LongFact и FActScore GPT-5-thinking допускает в 5 раз меньше ошибок, чем o3 (и с включённым, и с выключенным браузингом). Значительно меньше симуляций ответа и выдумывании.

В тестах с невозможными задачами (поломанные инструменты, неполные данные) GPT-5-thinking реже выдумывает ответы и чаще признаёт невозможность решения.

По тестам на честность:

Coding Deception (обман в кодовых задачах): (-64%) у GPT-5-thinking к o3;

Browsing Broken Tools (выдумывание при сбое инструмента): (-82%);

CharXiv Missing Image (ответы без картинки): (-90%);

Реальная доля обманчивых ответов (CoT-мониторинг): снизилась с 4.8% у o3 до 2.1% или (-56%);

Снижение угодничества (sycophancy): (-73%).

В сравнении с o3 (предыдущая флагманская модель):

ИИ рефлексия. Более длинная и структурированная CoT, с многошаговой проверкой, разными стратегиями решения. Модель учится думать дольше и пробовать разные подходы внутри CoT перед формированием ответа.

Контроль ошибок. Больше проверок собственных гипотез и стратегии поиска ошибок.

Акцент на честности. Снижение обмана, признание невозможности решения.

Меньше угодничества/конформизма. Модель реже поддакивает пользователю.

Более тщательное следование внутренним и пользовательским инструкциям.

Также признаки улучшения междисциплинарного понимания и взаимодействия, когда LLM работает с разными типами знаний и данных плюс оптимизация под сложные запросы и понимание скрытого контекста.

Контекстное окно расширено, как минимум, до 256 тыс токенов.

GPT-5 доступна всем бесплатно на офсайте OpenAI с ограниченными лимитами и с расширенными лимитами для платных подписчиков, также в агрегаторах Syntx, Perplexity.

Источник: Telegram-канал "Spydell_finance"

Главный релиз этого года - ChatGPT 5

Популярные новости за сутки