Главный релиз этого года - ChatGPT 5

Главный релиз этого года - ChatGPT 5

Главный релиз этого года - ChatGPT 5

GPT-5 представляет собой унифицированную систему, состоящую из нескольких моделей, которыми управляет маршрутизатор в реальном времени. Этот маршрутизатор выбирает наиболее подходящую модель на основе типа, сложности, потребностей в инструментах и явных намерений пользователя.

По версии OpenAI таблица соответствия:

• GPT-4o-mini -> GPT-5-main-mini

• GPT-4o -> GPT-5-main

• GPT-4.1-nano -> GPT-5-thinking-nano

• OpenAI o4-mini -> GPT-5-thinking-mini

• OpenAI o3 -> GPT-5-thinking

• OpenAI o3 Pro -> GPT-5-thinking-pro.

Производительность GPT-5 была повышена в трёх наиболее распространенных областях использования ChatGPT: написание текстов, кодирование и здравоохранение в соответствии с презентацией и техническим описанием, однако ключевой акцент, как видится, совсем в другом.

Еще нет независимых расширенных тестов, а я НЕ жду особого прорыва, но прогресс в другом – снижение галлюцинаций, повышение стабильности и точности ответов.

Отобразил главный слайд презентации – это стабильность LLM на траектории расширения контекстного окна. Один из важнейших параметров, который даже OpenAI не акцентировали.

Суть заключается в том, что чем шире контекстное окно, тем всегда ниже стабильность – модель проявляется «забывчивость», точность и качество ответов снижается. Модель не удерживает все нужные детали в рабочем фокусе, может пропустить важные факты или перепутать их. При увеличении длины текста модель вынуждена сжимать и обобщать информацию, теряя детали.

По тестам видно, что GPT-4.1 nano на ширине контекстного окна всего 256 тыс токенов демонстрирует точность ниже 25% - это катастрофа, т.е. минимум 3 из 4 утверждений – чистой фейк. Для GPT-4.1 – примерно каждое второй утверждение – мусор и это относится к передовым моделям o3, которые уже на 128 тыс токенов заваливаются в непрерывный «фейкодром» - непрекращающиеся поток бреда и галлюцинаций.

GPT-5 по тестам совсем иначе – до 64 тыс токенов точность близка к 100%, проседает до 96-97% на 128 тыс и выше 90% на 256 тыс. Вот это фундаментальный прорыв.

Я сделаю акцент на GPT-5-thinking - углублённое рассуждение с внутренней цепочкой размышлений (Chain of Thought).

По внутренним тестам OpenAI: у GPT-5-thinking частота галлюцинаций на 65% ниже, чем у OpenAI o3, а для ответов с 1 крупной фактической ошибкой GPT-5-thinking имеет на 78% меньше ошибок, чем у o3.

В тестах LongFact и FActScore GPT-5-thinking допускает в 5 раз меньше ошибок, чем o3 (и с включённым, и с выключенным браузингом). Значительно меньше симуляций ответа и выдумывании.

В тестах с невозможными задачами (поломанные инструменты, неполные данные) GPT-5-thinking реже выдумывает ответы и чаще признаёт невозможность решения.

По тестам на честность:

• Coding Deception (обман в кодовых задачах): (-64%) у GPT-5-thinking к o3;

• Browsing Broken Tools (выдумывание при сбое инструмента): (-82%);

• CharXiv Missing Image (ответы без картинки): (-90%);

• Реальная доля обманчивых ответов (CoT-мониторинг): снизилась с 4.8% у o3 до 2.1% или (-56%);

• Снижение угодничества (sycophancy): (-73%).

В сравнении с o3 (предыдущая флагманская модель):

ИИ рефлексия. Более длинная и структурированная CoT, с многошаговой проверкой, разными стратегиями решения. Модель учится думать дольше и пробовать разные подходы внутри CoT перед формированием ответа.

Контроль ошибок. Больше проверок собственных гипотез и стратегии поиска ошибок.

Акцент на честности. Снижение обмана, признание невозможности решения.

Меньше угодничества/конформизма. Модель реже «поддакивает» пользователю.

Более тщательное следование внутренним и пользовательским инструкциям.

Также признаки улучшения междисциплинарного понимания и взаимодействия, когда LLM работает с разными типами знаний и данных плюс оптимизация под сложные запросы и понимание скрытого контекста.

Контекстное окно расширено, как минимум, до 256 тыс токенов.

GPT-5 доступна всем бесплатно на офсайте OpenAI с ограниченными лимитами и с расширенными лимитами для платных подписчиков, также в агрегаторах Syntx, Perplexity.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей