Способен ли ИИ делать научные открытия?

Способен ли ИИ делать научные открытия?

Некоторое разочарования от ChatGPT-5 – не такие, как от провальной GPT-4.5, но ожидал явно большего (обзор будет после более масштабного тестирования).

Тут снова на философские рассуждения потянуло.

Во-первых, современные ГИИ в принципе не приспособлены к серьезной исследовательской работе.

Заявленное контекстное окно – ничего не значит, это номинальные показатели. Реальные или эффективные показатели те, в рамках которых модель показывает высокую стабильность и точность, как минимум на уровне 99%.

Для большинства флагманских моделей – это реальное контекстное окно шириной 20-30 тыс токенов. После 50к идет «завал» стабильности с резкой эскалацией «бредо-генератора». На 100к токенов – это сплошной фейкодром.

Мои не самые сложные проекты требует контекстного окна около 30-40 млн токенов, что на 3 порядка или в 1000 раз больше существующих лучших LLM при необходимой минимальной точности 99.9% на всей глубине данных. Нет уверенности, что подобная точность будет достигнута в обозримой перспективе.

Критически низкая точность генерации ответов от LLM приводит к тому, что производительность не растет, а катастрофически снижается, т.к. вместо помощи от ИИ приходится отсеивать «закладки» от LLM в виде фейковых интеграций в, казалось бы, целостные тексты, расчеты.

Во-вторых, нет адекватного критерия истинности.

"Истинность" для ИИ - это то, что чаще всего встречается в обученных данных как последовательный паттерн. Например, если в миллионах источников написано, что Земля круглая, модель с высокой вероятностью выдаст это как факт.

Критерий "истины" в ИИ - это то, что лучше всего соответствует контексту запроса и обученным паттернам, а если данные противоречивые, вероятность ошибочного выбора резко возрастает.

"Истина" в ИИ - это консенсус источников, а не универсальная правда. Соответственно, чем меньше выборка в знаниях или в источниках запрашиваемой темы – тем ниже точность. Чем более редкая тема, тем выше уровень галлюцинаций или бреда.

Иначе говоря, чем более хайповая тема – тем потенциально выше точность ответа.

Научные исследования как раз отличаются тем, что предполагают новизну и низкий коэффициент медийного покрытия.

Сейчас LLM могут выступать, как «справочное бюро» на основе уже изученных, сформулированных алгоритмов, теорией, концепций, но не способны генерировать собственные концепции, т.к. для этого необходимо иметь высокоразвитое междисциплинарное взаимодействие знаний, понимать причиноследственные связи, физику/логику динамических процессов в условиях противоречивых данных с несформированной иерархией.

Иначе говоря, LLM может описывать процессы, т.к. эрудирован в тысячи раз лучше, чем самый прокаченный человек, но не способен выстраивать иерархию приоритетов и динамические связи, т.к. не понимает меру и глубину сочетания процессов и объектов.

LLM показывает хорошие результаты там, где можно корректно оценить верность пути размышлений (математика, физика, программирование), т.е. где работают непротиворечивые валидаторы (верно/неверно) и где повторяемость опытов приводит к одному и тому же результату в условиях стерильной замкнутой среды (теоретическая физика, но НЕ реальный мир).

Но, как только LLM выходит за границы формализуемых критериев, сразу слетают в утиль.

При этом даже в строгой математической логике результаты очень плохие. Например, на вопрос «Приведи мне подробную декомпозицию структуры инфляции в США за июнь 2025 по оценке PCE, используя широкое представление категорий. Оцени вклад каждой категории в формирование инфляции» ни одна топовая LLM не дала правильного ответа.

А на простой запрос «получить годовую динамику выручки компаний в индексе Dow30 за 2кв25» было получено от 40 до 80% ошибок.

Первые впечатления весьма странные. ChatGPT-5 с данными работает намного хуже, чем любая из ранее представленных флагманских моделей, даже o3, но возможно, это временно.

Прогресс пока слабый, к сожалению. Чуда опять не произошло.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей