Проблема качества данных в ИИ
Экспансия ИИ на архитектуре трансформер за счет стратегии наращивания вычислительных мощностей – исчерпала себя.
Архитектурные ограничения: квадратичная сложность при расширении контекстного окна, низкая стабильность и точность на всей ширине контекстного окна (особенно в середине) и «вшитый ген» гарантированных галлюцинаций, отсутствие долговременной памяти, неспособность к истинному причинно-следственному мышлению, невозможность самообучения и самоэволюции.
Экономическая ограничения:
закон убывающей отдачи сделал дальнейшее масштабирование неэффективным в условиях астрономических инвестиций в оборудование и запредельных операционных расходов (электроэнергия и персонал).
Ограничения данных: исчерпание высококачественных человеческих данных и экзистенциальная угроза «коллапса моделей» из-за рекурсивного обучения на синтетическом контенте подрывают саму основу для будущего развития.
Проблема данных – комплексная. Поскольку простое увеличение моделей упирается в пределы, в ближайшие годы акцент сместится на улучшение качества данных, а не только количества.
Как говорится, дерьмо на входе – дерьмо на выходе или иначе GIGO. LLMs не имеют механизма преобразования плохих данных в хорошие (и не может отделять одно от другого), но зато имеют особенность искажения хороших данных в плохие.
Интернет завален чуть менее, чем полностью разнородным низкокачественным контентом, что снижает эффективность моделей.
Высококачественные данные — это точные, разнообразные, релевантные наборы без дубликатов или предвзятостей из надежных источников (мировая научная, техническая и художественная литература, академические публикации, рецензируемые журналы, официальные отчеты, конференции и презентации компаний и ведущих национальных и международных агентств и т.д.).
Доступ к качественным данным ограничен лицензиями, авторскими правами и часто жестко блокируется индексация сайтов роботами.
Корреляционные связи в трансформерах реализуются через механизмы внимания, которые вычисляют веса корреляций между токенами на основе скалярных произведений, что эффективно в анализе паттернов.
Многократное доминирование токсичных данных может создавать сильные, но искаженные корреляции, смещая представления об истинности.
Модель видит миллионы повторяющихся паттернов, делая связи прочнее на треш данных, заглушая качественные данные.
Сейчас становится понятно, что кормить ИИ всеми подряд интернет-текстами далее неэффективно: много дублей, ошибок, идиотизма и мусора.
Компании будут инвестировать в очистку и обогащение датасетов: удаление заведомо ложной или токсичной информации, балансировка представленных точек зрения, добавление проверенных фактов из надежных источников.
На этапе обучения можно устанавливать развесовку данных, но нет эффективного механизма сопоставления и модерации всего многообразия контента, повышая риски проникновения и доминирования треш-данных.
ИИ компании практически достигли предела сбора человеческих данных. Переход на синтетические данные порождает серьезную экзистенциальную угрозу для самого ИИ — коллапс моделей. Это явление возникает, когда модели начинают рекурсивно обучаться на данных, сгенерированных их предшественниками.
Проблема заключается в том, что любой сгенерированный ИИ набор данных является несовершенным, сглаженным приближением к реальности. Он неизбежно теряет часть разнообразия и нюансов, присутствующих в исходных человеческих данных. Когда следующее поколение моделей обучается на этом суррогате, оно еще больше сужает и искажает картину мира.
Потеря разнообразия: модели начинают «забывать хвосты» распределения — редкие, нестандартные и новые идеи, события и стили, которые были в оригинальных данных, но не попали в сгенерированные.
Накопление ошибок: любые ошибки, смещения или «галлюцинации» предыдущей модели закрепляются и усиливаются в следующей.
В итоге модели начинают генерировать бессмысленный, повторяющийся или фактически неверный контент.
Вижу тренд в специализированных агентах по узким направлениях на качественных данных, а не универсальные модели.