Дайджест актуальных научных исследований в сфере искусственного интеллекта

Дайджест актуальных научных исследований в сфере искусственного интеллекта

Ушедший год поистине стал годом LLM [Large Language Model — большая языковая модель. — Прим. ред]. Исследователи опубликовали тысячи работ, посвященных этой теме, и в целом можно сказать, что LLM стала синонимом AI. Мы проанализировали большой пул научных статей и постарались выделить наиболее интересные тренды.

1

Увеличение контекстного окна

Из-за успешности LLM в формате чатов, исследователи предприняли много попыток адаптировать их и для других задач работы с текстом. Однако большим камнем преткновения стал размер контекстного окна, поэтому одна из важных тем этого года — методы его увеличения [1, 2, 3, 4, 5, 6, 7, 8].
2

Публикация открытых датасетов, моделей и фреймворков для обучения

Большинство данных, на которых обучаются успешные коммерческие модели, закрыты для других исследователей. В ответ на это были выпущены работы, посвященные публикации открытых датасетов [9, 10, 11, 12, 13, 14, 15, 16, 17, 18]. Также ученые представили несколько открытых моделей и фреймворков для обучения, важным вопросом стало доверие к моделям [19, 20, 21, 22, 23].

Особенно интересно это наблюдать на фоне выхода статьи Stealing Part of a Production Language Model [24], где описано, как вполне дешево украли веса опубликованных GPT моделей. Да, пока лишь одного слоя, но исследователи хотели продемонстрировать саму возможность такой атаки.
3

Сокращение расходов на обучение моделей

В ушедшем году исследователи всерьез взялись за стоимость обучения моделей и стали разрабатывать варианты сокращения расходов. Например, они проанализировали разные методы обучения и выявили, что после части из них некоторые слои моделей не несут особой значимости. Дополнительное внимание исследователи обратили на методики дистилляции и прунинга [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36].
4

Развитие компактных AI-моделей

Развитие получили и более компактные модели искусственного интеллекта. Они, например, актуальны для решения задач интернета вещей, когда параметры итогового устройства не позволяют разместить на нем современные LLM модели [37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50].
5

Улучшение качества моделей

Однако не стоит думать, что современные LLM уже достигли всех необходимых характеристик (кроме нужного размера контекстного окна) и осталось лишь сжать их, чтобы разместить на небольшом устройстве. Продолжили развиваться методы улучшения качества, в том числе прямые конкуренты трансформеров [51, 52, 53, 54, 55].

Особое внимание исследователей получил метод Mixture of Experts (MoE) [56, 57, 58, 59, 60, 61, 62, 63], который за один 2024 год уже успел породить несколько интересных вариаций [64, 65, 66]. Если кратко, то MoE предполагает наличие нескольких «экспертов» (специализированных нейросетей), обученных для конкретных задач, и маршрутизатора, который для каждого запроса определяет подходящих экспертов. Таким образом, мы получаем расширяемую под новые доменные области архитектуру, сокращая при этом стоимость вычисления ответа, так как в последних вариациях отвечают не все эксперты, а выбранные маршрутизатором.

Помимо этого заслуживают внимания и методы улучшения качества на основе давно существующих решений, например методы построения цепочки рассуждения, самокорректировка модели, и, естественно, методы борьбы с забывчивостью моделей [67, 68, 69, 70, 71, 72, 73, 74].
6

Ускорение и оптимизация моделей

В ушедшем году продолжились исследования по ускорению и оптимизации LLM моделей. Исследователи сосредоточили свое внимание на разработке методов оптимизации на уровне алгоритмов. Мы рекомендуем познакомиться с этими работами, потому что описанные техники могут быть вам полезны уже сейчас [75, 76, 77, 78].
7

Появление Kolmogorov-Arnold Networks (KAN)

Также стоит обратить внимание на работы, связанные с KAN. Kolmogorov-Arnold Networks — это принципиально новая архитектура нейросетей, в основе которой лежит теорема советских математиков Андрея Колмогорова и Владимира Арнольда. В этой архитектуре процесс обучения переключается с подбора весов к подбору функций активации, что в свою очередь позволит описывать более сложные функциональные зависимости при меньшем числе нейронов. Хотя пока интерес к KAN больше теоретический, и перед исследователями стоит еще множество проблем (например, масштабируемость и скорость обучения), возникновение нового фундаментального подхода, возможно, в будущем приведет к появлению конкурентов для современных архитектур [79, 80, 81, 82].
8

Развитие мультимодальных методов

Большее внимание исследователей получили и мультимодальные методы: несмотря на поднятые выше проблемы, все же есть запрос на более общие модели, умеющие решать задачи сразу и с текстом, и с медиа, в том числе с персонализацией под пользователя [83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95].

В прошлом году были опубликованы несколько любопытных работ для бенчмаркинга мультимодальных моделей [96, 97]. Также появились исследования, связанные с методами оркестрации нескольких LLM моделей [98, 99].
9

Детальные обзоры популярных методов и инструментов

Сфера искусственного интеллекта (и LLM в частности) продолжает привлекать все больше новых специалистов. Поэтому мы хотим обратить внимание начинающих исследователей на обзорные статьи и работы, посвященные более глубокому изучению используемых методов и инструментов [100, 101, 102, 103, 104, 105, 106].
10

Появление новых сфер применения LLM

Теперь не только дизайнеры и писатели должны бояться, что нейронки могут отобрать у них работу. Современные LLM модели научились генерировать новые идеи для исследований, проводить эксперименты и формулировать выводы, как настоящие ученые [107], а также обрабатывать данные на уровне Kaggle Grandmaster [108]. А еще в LLM добавили возможность управления вашим ПК [109, 110, 111]. Жутковато, не правда ли?

P. S. Ах, да, OpenAI выпустили статью о GPT-4o — GPT-4o System Card.

В будущем мы можем увидеть сокращение разрыва между открытыми и проприетарными моделями. Сообщество прилагает большие усилия, чтобы не только сделать данные доступными, но и догнать коммерческие модели по эффективности (используя и те же архитектуры, и исследуя другие подходы).Наибольшее внимание в ушедшем году привлек метод Mixture of experts. Мы полагаем, что в будущем будет больше работ с применением данного подхода: как в чистом виде, так и его объединение с Mamba, KAN или Griffin.
Развитие SLM, вопрос компактности моделей и возможности обучения языковых моделей на более доступном железе волнуют исследователей не меньше, чем размер контекстного окна. В остальном же стоит отметить, что мы все больше двигаемся в сторону мультимодальных моделей, и это драйвит развитие и альтернативных методов, и попыток сократить стоимость и ресурсы для обучения.

Если хотите стать профи в сфере AI, обратите внимание на совместную магистратуру ИТМО и Napoleon IT «Искусственный интеллект».

Авторы дайджеста:
Тимур Салимов — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Владислав Горбунов — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, Head of ML
Лев Коваленко — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Сергей Сабалевский — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Кристина Желнова — ГазпромБанк, директор по разработке ML моделей
Эмиль Шакиров — SberDevices, руководитель Alignment GigaChat
Даниил Смирнов — SberDevices, старший специалист

Статьи, на которые мы ссылались: