Компьютерное зрение — это область искусственного интеллекта, которая позволяет машинам получать смысловую информацию из визуальных данных: изображений и видео. С помощью технологий компьютерного зрения системы могут не просто «видеть» пиксели, но и понимать содержание кадра, распознавать объекты на изображении, отслеживать их движение и на основе этого анализа принимать решения.
В основе современных алгоритмов компьютерного зрения лежат методы машинного обучения, в частности глубокое обучение на основе нейронных сетей.
Задачи компьютерного зрения выходят за рамки простой обработки изображений (например, улучшения качества картинки). Основные задачи также включают распознавание лиц, обнаружение и классификацию объектов на изображении, анализ сцен и работу с трёхмерными данными (например, облака точек, полученные с лазерных локаторов).
Ранние алгоритмы компьютерного зрения работали поэтапно: сначала извлекали признаки из изображений (края, текстуры, формы), затем анализировали их взаимосвязи и сопоставляли с «выученными» паттернами. Но сегодня они обучаются извлекать иерархию признаков автоматически и одновременно прямо из пикселей изображения.
Некоторые продвинутые модели компьютерного зрения позволяют не только идентифицировать статичные объекты, но и предсказывать их поведение — например, траекторию движения пешехода или изменение позы человека.
Технология находит применение в самых разных сферах: от контроля качества на производстве до управления безопасностью транспортных средств с помощью автопилотов. Она может работать в реальном времени, поэтому компьютерное зрение используется повсеместно — от медицинской диагностики до интерактивных AR-приложений.