Главный релиз этого года - ChatGPT 5
Главный релиз этого года - ChatGPT 5
GPT-5 представляет собой унифицированную систему, состоящую из нескольких моделей, которыми управляет маршрутизатор в реальном времени. Этот маршрутизатор выбирает наиболее подходящую модель на основе типа, сложности, потребностей в инструментах и явных намерений пользователя.
По версии OpenAI таблица соответствия:
GPT-4o-mini -> GPT-5-main-mini
GPT-4o -> GPT-5-main
GPT-4.1-nano -> GPT-5-thinking-nano
OpenAI o4-mini -> GPT-5-thinking-mini
OpenAI o3 -> GPT-5-thinking
OpenAI o3 Pro -> GPT-5-thinking-pro.
Производительность GPT-5 была повышена в трёх наиболее распространенных областях использования ChatGPT: написание текстов, кодирование и здравоохранение в соответствии с презентацией и техническим описанием, однако ключевой акцент, как видится, совсем в другом.
Еще нет независимых расширенных тестов, а я НЕ жду особого прорыва, но прогресс в другом снижение галлюцинаций, повышение стабильности и точности ответов.
Отобразил главный слайд презентации это стабильность LLM на траектории расширения контекстного окна. Один из важнейших параметров, который даже OpenAI не акцентировали.
Суть заключается в том, что чем шире контекстное окно, тем всегда ниже стабильность модель проявляется забывчивость, точность и качество ответов снижается. Модель не удерживает все нужные детали в рабочем фокусе, может пропустить важные факты или перепутать их. При увеличении длины текста модель вынуждена сжимать и обобщать информацию, теряя детали.
По тестам видно, что GPT-4.1 nano на ширине контекстного окна всего 256 тыс токенов демонстрирует точность ниже 25% - это катастрофа, т.е. минимум 3 из 4 утверждений чистой фейк. Для GPT-4.1 примерно каждое второй утверждение мусор и это относится к передовым моделям o3, которые уже на 128 тыс токенов заваливаются в непрерывный фейкодром - непрекращающиеся поток бреда и галлюцинаций.
GPT-5 по тестам совсем иначе до 64 тыс токенов точность близка к 100%, проседает до 96-97% на 128 тыс и выше 90% на 256 тыс. Вот это фундаментальный прорыв.
Я сделаю акцент на GPT-5-thinking - углублённое рассуждение с внутренней цепочкой размышлений (Chain of Thought).
По внутренним тестам OpenAI: у GPT-5-thinking частота галлюцинаций на 65% ниже, чем у OpenAI o3, а для ответов с 1 крупной фактической ошибкой GPT-5-thinking имеет на 78% меньше ошибок, чем у o3.
В тестах LongFact и FActScore GPT-5-thinking допускает в 5 раз меньше ошибок, чем o3 (и с включённым, и с выключенным браузингом). Значительно меньше симуляций ответа и выдумывании.
В тестах с невозможными задачами (поломанные инструменты, неполные данные) GPT-5-thinking реже выдумывает ответы и чаще признаёт невозможность решения.
По тестам на честность:
Coding Deception (обман в кодовых задачах): (-64%) у GPT-5-thinking к o3;
Browsing Broken Tools (выдумывание при сбое инструмента): (-82%);
CharXiv Missing Image (ответы без картинки): (-90%);
Реальная доля обманчивых ответов (CoT-мониторинг): снизилась с 4.8% у o3 до 2.1% или (-56%);
Снижение угодничества (sycophancy): (-73%).
В сравнении с o3 (предыдущая флагманская модель):
ИИ рефлексия. Более длинная и структурированная CoT, с многошаговой проверкой, разными стратегиями решения. Модель учится думать дольше и пробовать разные подходы внутри CoT перед формированием ответа.
Контроль ошибок. Больше проверок собственных гипотез и стратегии поиска ошибок.
Акцент на честности. Снижение обмана, признание невозможности решения.
Меньше угодничества/конформизма. Модель реже поддакивает пользователю.
Более тщательное следование внутренним и пользовательским инструкциям.
Также признаки улучшения междисциплинарного понимания и взаимодействия, когда LLM работает с разными типами знаний и данных плюс оптимизация под сложные запросы и понимание скрытого контекста.
Контекстное окно расширено, как минимум, до 256 тыс токенов.
GPT-5 доступна всем бесплатно на офсайте OpenAI с ограниченными лимитами и с расширенными лимитами для платных подписчиков, также в агрегаторах Syntx, Perplexity.