Улучшение качества моделей
Однако не стоит думать, что современные LLM уже достигли всех необходимых характеристик (кроме нужного размера контекстного окна) и осталось лишь сжать их, чтобы разместить на небольшом устройстве. Продолжили развиваться методы улучшения качества, в том числе прямые конкуренты трансформеров [
51,
52,
53,
54,
55].
Особое внимание исследователей получил метод Mixture of Experts (MoE) [
56,
57,
58,
59,
60,
61,
62,
63], который за один 2024 год уже успел породить несколько интересных вариаций [
64,
65,
66]. Если кратко, то MoE предполагает наличие нескольких «экспертов» (специализированных нейросетей), обученных для конкретных задач, и маршрутизатора, который для каждого запроса определяет подходящих экспертов. Таким образом, мы получаем расширяемую под новые доменные области архитектуру, сокращая при этом стоимость вычисления ответа, так как в последних вариациях отвечают не все эксперты, а выбранные маршрутизатором.
Помимо этого заслуживают внимания и методы улучшения качества на основе давно существующих решений, например методы построения цепочки рассуждения, самокорректировка модели, и, естественно, методы борьбы с забывчивостью моделей [
67,
68,
69,
70,
71,
72,
73,
74].