Визуально-языковые модели (VLM) и физический ИИ
Intel заявляет, что современные промышленные VLM в 140 раз больше моделей двухлетней давности и растущий спрос компаний пытается абсорбировать через различные продуктовые решения.
Где применяется и может применяться VLM?
Промышленная автоматизация и контроль качества: VLM используются для визуальной инспекции, где система не просто ищет дефекты по шаблону, а «понимает» контекст изделия, воспринимает среду и управляет механизмами в реальном времени без необходимости выгрузки данных в облако.
VLM особенно полезна там, где дефекты редко повторяются в точном соответствии с предыдущим опытом (для этого на протяжении последних 40-50 лет созданы множество систем автоматического контроля качества). Обычная модель хорошо ловит известные классы дефектов.
VLM лучше подходит для ситуаций, где нужно рассуждение: «это допустимое отклонение или нарушение стандарта?», «какой пункт инструкции нарушен?», «нужно ли останавливать линию?».
Автономная робототехника: Интеграция VLM в стационарные манипуляторы, автономные мобильные роботы (AMR) и гуманоидные системы. Эти системы требуют высокой плотности локальных вычислений для обработки визуальных данных и принятия решений «на лету». Данное направление следует рассмотреть более детально в серии материалов не только применительно к Intel, но как и отдельное технологическое направление.
Умные города и Edge-аналитика: Переход от простых систем видеонаблюдения к глубокой аналитике видеопотоков. Не сплошной поток видео-файла, а интеллектуальная платформа для поиска паттернов, сценариев и условий. Например, «найди эпизоды с по указанному сценарию», «составь хронологию инцидента», «покажи все случаи, когда человек вошел в запретную зону» и тысячи других сценариев.
Это особенно важно для предприятий, складов, ритейла, транспортной инфраструктуры (дорожная сеть, аэропорты, порты, вокзалы), объектов энергетики и муниципальной инфраструктуры и т.д.
Например, оперативное выявление повреждения дорог, знаков, светофоров, ограждений, автоматическая фиксация нарушений правил дорожного движения, опасных и/или потенциально аварийных инцидентов, объяснение заторов, аварий, конфликтов потоков с целью оптимизации транспортных потоков.
Самый показательный пример - Smart Traffic Intersection Agent. Intel описывает его как edge-агента на перекрестке, который использует SceneScape и VLM, чтобы давать данные не только о том, что происходит, но и почему. Система отслеживает количество машин, определяет тип трафика и пытается объяснить причину аварийности.
Это не только в транспорте, а в любой сфере бизнеса или государственного контроля.
Безопасность на производстве. Например, человек вошел в опасную зону, оператор без каски / очков / перчаток, погрузчик движется в зоне пешеходов, рабочий выполняет процедуру не по регламенту, есть дым, искры, перегрев, утечка, нестандартное поведение оборудования и другие сценарии.
Основное преимущество VLM в том, что учитывает сцену целиком: объекты, отношения, действия, текстовые инструкции, историю событий, понимает естетсвенный (человеческий язык), а не набор процедур и команд, может быть удобным интерпретатором и планировщиком (потенциально) при интеграции в агентные системы.
Из очевидных ограничений: стоимость инференса, высокие задержки, пока еще низкая надежность, проблемы в валидации, высокая концентрация галлюцинаций, приватность и ограничения в интеграции. Часть проблем решается, но некоторые являются архитектурными и структурными проблемами, не решаемые через оптимизацию.
Стратегия Intel строится на обеспечении «бесшовности» между локальными вычислениями и облаком (Hybrid AI), а также на предоставлении аппаратного фундамента для инференса (логического вывода).
Пока продуктовая линейка на раннем этапе разработок и внедрения, но это то направление, где Intel хочет / пытается участвовать.





































