Способны ли современные LLMs принести пользу в реальных рабочих проектах?
Способны ли современные LLMs принести пользу в реальных рабочих проектах?
Однозначно да, но все зависит от типа и формата проекта. Не буду углубляться в теорию и технические термины, а сразу расскажу, помогают ли LLMs в собственных проектах?
Эффект крайне неравномерен, сильно фрагментирован и нестабилен.
Оценка эффективности предельно прозрачна совокупные ресурсы и время, затраченные на финализацию определенной задачи с использованием LLMs или без LLMs.
Например, какой бюджет токенов нужно консолидировать и сколько времени затратить на формализацию задачи, ожидание выполнения и фактчекинг с использованием LLMs и сколько ресурсов и времени уходит без LLMs.
В какой точки конструкция рассыпается? Главное и фундаментальное препятствие затраты на верификацию результата.
Опыт использования комбинации самых мощных на сегодняшний день LLMs показывает, что они способны выдавать визуально блистательные (оформленные, как солидные академические и консалтинговые исследования) с очень правдоподобным (на первый взгляд) наполнением результаты.
Первый и беглый взгляд показывает превосходная работа, но при верификации все начинает рассыпаться, а именно:
Неверная развесовка факторов, параметров и искаженная иерархия приоритетов, что почти всегда ломает всю архитектуру проекта.
Неравномерная контекстная развертка, когда одни направления могут быть избыточно подробно описаны, а другие, наоборот, необоснованно поверхностно.
Концептуальные пробелы неполное раскрытие вопросов и факторов, не учет множества обстоятельств.
Неверная декомпозиция задачи на составляющие элементы и неверное задание векторов исследования.
Очень частые ошибки в фактуре, как случайные, так и намеренные, когда модели галлюцинируют, выдумывая факты.
Неверная консолидация источников информации. Часто решается принудительным ограничением контекстного пространства / источников информации.
Очень часто сломанный стиль повествования, что требует глубокого рерайта.
Что получается на практике? LLMs генерируют огромное количество лонгридов, но на проверку, верификацию, переосмысление и рерайт которых уходит неприемлемое количество времени, сильно превышающее время на самостоятельное исследование.
Как это происходит на практике?
1. Формализация запроса с подробной проработкой техзадания для учета всех факторов, обстоятельств, требуемых векторов исследования и стиля повествования 10% времени
2. Наполнение моделей контекстом внутренний готовый набор данных, спектр внешних источников 5% времени.
3. Ожидание генерации ответа (часто может идти десятки минут) сразу в нескольких моделях 4% времени.
4. Правки по ходу выполнения 3% времени.
5. Сведение результатов 3-5 LLMs в единую матрицу для концептуального наслоения 13% времени.
6. Очень длительный процесс верификации полученного ответа примерно 65% всего времени, а часто еще больше.
Таким образом, постановка задачи примерно 15% времени, генерация ответа 7%, сверка результатов 13%, а проверка и контроль 65%.
Слабое звено проверка и верификация, которые поглощают основные ресурсы.
На моем опыте, комбинация самых мощных LLMs приводит не к росту производительности, а к радикальному снижению. Насколько? Примерно в 5 раз.
Ту работу, которую можно делать самостоятельно за час, с использованием ИИ займет примерно в 5 раз больше времени и это в наиболее оптимизированном сценарии использования.
В моем классе задач, при моем опыте, накопленных знаниях и навыках, LLMs ухудшают работу, а не улучшают и речь идет о существенно, иногда кратном ухудшении.
Это не значит, что LLMs плохи или бесперспективны для определенного спектра задач. Ни в коем случае. В будущем я приведу спектр и категории задач, где LLMs наиболее эффективны.
Я лишь описываю собственный опыт, но при всем этом я остаюсь техно-оптимистом, т.е. верю в то, что технологии будут улучшаться, захватывая все больше ранее нерешенных задач.
Причем значительный класс задач так и остается принципиально неразрешимым с использованием ИИ (об этом в других материалах).