7 лекций и 2 курса по компьютерному зрению
Компьютерное зрение – это область глубокого обучения, которая стремительно набирает популярность. С помощью компьютерного зрения можно узнать, какой объект (человек, машина, собака) и куда переместился, сгенерировать новое изображение (дизайн одежды, иллюстрацию к тексту, пейзаж) и многое другое.
Отслеживание перемещений людей по нескольким камерам
Первое изображение сгенерировано нейросетью DALL-E 2 по тексту “An astronaut riding a horse in a photorealistic style”. Второе — нейросетью Imagen по тексту “A dragon fruit wearing karate belt in the snow”
В компьютерном зрении выделяют три основных задачи:
  • классификацию – определить, что на картинке;
  • детекцию – не только определить класс, но и указать рамку объекта;
  • сегментацию – найти все пиксели объекта.
Классификация изображений подробно рассмотрена во многих видео и курсах – найти хороший контент не составит труда. А вот посмотреть что-то толковое по двум другим задачам гораздо сложнее. Поэтому я собрала несколько персональных рекомендаций.
Детекция и сегментация
Познакомиться с задачей детекции вам помогут лекции «Методы одностадийной детекции» и «Методы двустадийной детекции». Также могу посоветовать лекцию «Сегментация» о второй задаче. Эти лекции Михаила Романова выложены в 2021 году, в них не охвачены современные state-of-the-art модели, но базовое понимание материала они дадут.
Прекрасные лекции читает Сергей Николенко в СПбГУ – по ссылке вы найдёте целый плейлист о глубоком обучении. Также задачи детекции и сегментации рассматривались на воркшопе по созданию контента топовой конференции по компьютерному зрению CVPR: в лекции исследователя Aditya Ramesh из OpenAI, который работал над Dall-E и Dall-E 2, и лекции сотрудника Google Brain Chitwan Saharia о нейросети Imagen.

Генерация изображений
Также к компьютерному зрению относится и генерация изображений. Если раньше, в 2016–2020 годах были популярны модели состязательной архитектуры (Generative Adversarial Networks), которым посвящен замечательный курс на Coursera, то сейчас изображения генерируют с помощью диффузионных моделей (вот свежая лекция из курса Сергея Николенко). Например, нашумевшие DALL-E 2 и Imagen обучены с помощью принципа диффузии. Об этом тоже рассказывали авторы в лекциях, которые я привела выше.
Если интересует что-то более популярное, могу посоветовать лекцию Татьяны Шавриной «Может ли ИИ написать картину?» и дискуссию с ней же о создании картин искусственным интеллектом.
Об этом и многом другом я рассказываю в своем курсе лекций «Обработка и генерация изображений» на магистерской программе «Глубокое обучение и генеративный искусственный интеллект».


Валерия Ефимова, преподаватель курса «Обработка и генерация изображений» магистерской программы «Глубокое обучение и генеративный искусственный интеллект»