Траектория развития LLMs. 13 ноября был представлен ChatGPT 5.1, 17 ноября представлен Grok 4.1, а 18 ноября представили Gemini 3 PRO (на очереди Claude Opus 4.5, но цикл обновления в 2025 завершен, в следующие 4-5 месяцев...

Траектория развития LLMs

13 ноября был представлен ChatGPT 5.1, 17 ноября представлен Grok 4.1, а 18 ноября представили Gemini 3 PRO (на очереди Claude Opus 4.5, но цикл обновления в 2025 завершен, в следующие 4-5 месяцев громких релизов не будет).

От OpenAI инновации косметические (чуть быстрее и производительнее, немного эффективнее и стабильнее), но без прорыва (больше на уровне оптимизации внутренних алгоритмов).

Grok 4.1 – акцент на эмоциональном интеллекте, творческом функционале, более нативная и человекоподобная подача, минимизация цензуры, уменьшение галлюцинаций примерно в 3 раза, скорость обработки актуальных данных из соцсетей и новостей.

Gemini 3 PRO – анонсирована, как прорывная модель (формально в лидерах по всем ключевым бенчмаркам), которая по заявлениям Google:

Лучше понимает контекст – способен улавливать глубину и нюансы, будь то восприятие тонких намёков в творческой идее или анализ накладывающихся друг на друга слоёв сложной проблемы.

Значительный прогресс в сложном мультимодальном понимании (неоднозначные градиенты восприятия в фото и видео), т.е. способен лучше читать эскизы с руки.

Существенный прогресс в агентных режимах и абстрактном понимании. По Gemini 3 после тестов надо сделать более полный обзор.

Как развиваются LLMs?

2023 год – активное расширение контекстного окна без акцента на стабильности и точности ответов, первичное внедрение мультимодальности (на первом этапе только картинки и текст), углубление знаний по широкой выборке данных в рамках закона масштабирования, первая итерация тонкой настройки LLMs через отдельные с инструкциями GPT, внедренные OpenAI в ноябре 2023.

2024 год – длинный контекст, как эффективное рабочее пространство, расширение мультимодальности до полноценной поддержки файлов, реалтайм видео, сложных фото и эффективной транскрипции аудио, внедрение полноценных поисковых движков (полный доступ к сети), первое появление рассуждающих моделей в сентябре с релизом o1-preview и полноценным развертыванием в декабре, внедрение памяти LLMs по всей истории чатов для более персонализированных ответов.

2025 год – активное расширение агентных режимов и экспериментальных инструментов/плагинов для точной калибровки, настройки LLMs (инструментальная интеграция), внедрение внешних источников данных (MCP), появление режима «глубокого исследования», чистка моделей от галлюцинаций и работа над стабильностью по всему диапазону контекстного окна, акцент на точности следованию инструкциям, фокус на безопасности модели, акцент на эмоциональном интеллекте и тонкой настройки тональности диалога, повышение управляемости моделей.

Таким образом, от размера контекста и количества параметров в 2023 перешли к расширенной мультимодальности и рассуждающим моделям с WEB доступом в 2024 и далее в 2025 внедрение агентных режимов с доступом к внешним источникам с акцентом на стабильность, точность и безопасность.

От простого текстового чатбота в 2023 к мультимодальным ИИ помощникам в 2024 и попытка имитации ИИ агентов с расширенной автономностью и глубоким исследованием в 2025.

Куда пойдет ИИ индустрия в 2026 и далее (по моему мнению)?

Расширение контекста уже невозможно (в августе объяснял почему), все доступные источники данных обработали (модели умнее не станут, а глупее – легко при обучении на синтетических данных), экспансия количества параметров экономически неэффективна и уничтожит экономику LLMs (параметров сильно выше не будет), а мультимодальность довели практически до совершенства, как и сетевые функции.

Инфраструктурное развертывание в бизнесе. Попытки глубокой интеграции ИИ в корпоративные, бизнес решения через узкоспециализированные ИИ агенты с тонкой калибровкой параметров под конкретные задачи (часто локальные), работа над стабильностью и точностью, снижение галлюцинаций с одновременным расширением количества доступных внешних источников данных в контуре регуляторных ограничений, цензуры и безопасности.

Тренд на гибкость, адаптивность, персонализированность, способности следованию инструкциям и далее попытка развертывания мультиагентных режимов.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей