Дайджест актуальных научных исследований в сфере искусственного интеллекта
Ушедший год поистине стал годом LLM [Large Language Model — большая языковая модель. — Прим. ред]. Исследователи опубликовали тысячи работ, посвященных этой теме, и в целом можно сказать, что LLM стала синонимом AI. Мы проанализировали большой пул научных статей и постарались выделить наиболее интересные тренды.
  • 1
    Увеличение контекстного окна
    Из-за успешности LLM в формате чатов, исследователи предприняли много попыток адаптировать их и для других задач работы с текстом. Однако большим камнем преткновения стал размер контекстного окна, поэтому одна из важных тем этого года — методы его увеличения [1, 2, 3, 4, 5, 6, 7, 8].
  • 2
    Публикация открытых датасетов, моделей и фреймворков для обучения
    Большинство данных, на которых обучаются успешные коммерческие модели, закрыты для других исследователей. В ответ на это были выпущены работы, посвященные публикации открытых датасетов [9, 10, 11, 12, 13, 14, 15, 16, 17, 18]. Также ученые представили несколько открытых моделей и фреймворков для обучения, важным вопросом стало доверие к моделям [19, 20, 21, 22, 23].

    Особенно интересно это наблюдать на фоне выхода статьи Stealing Part of a Production Language Model [24], где описано, как вполне дешево украли веса опубликованных GPT моделей. Да, пока лишь одного слоя, но исследователи хотели продемонстрировать саму возможность такой атаки.
  • 3
    Сокращение расходов на обучение моделей
    В ушедшем году исследователи всерьез взялись за стоимость обучения моделей и стали разрабатывать варианты сокращения расходов. Например, они проанализировали разные методы обучения и выявили, что после части из них некоторые слои моделей не несут особой значимости. Дополнительное внимание исследователи обратили на методики дистилляции и прунинга [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36].
  • 4
    Развитие компактных AI-моделей
    Развитие получили и более компактные модели искусственного интеллекта. Они, например, актуальны для решения задач интернета вещей, когда параметры итогового устройства не позволяют разместить на нем современные LLM модели [37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50].
  • 5
    Улучшение качества моделей
    Однако не стоит думать, что современные LLM уже достигли всех необходимых характеристик (кроме нужного размера контекстного окна) и осталось лишь сжать их, чтобы разместить на небольшом устройстве. Продолжили развиваться методы улучшения качества, в том числе прямые конкуренты трансформеров [51, 52, 53, 54, 55].

    Особое внимание исследователей получил метод Mixture of Experts (MoE) [56, 57, 58, 59, 60, 61, 62, 63], который за один 2024 год уже успел породить несколько интересных вариаций [64, 65, 66]. Если кратко, то MoE предполагает наличие нескольких «экспертов» (специализированных нейросетей), обученных для конкретных задач, и маршрутизатора, который для каждого запроса определяет подходящих экспертов. Таким образом, мы получаем расширяемую под новые доменные области архитектуру, сокращая при этом стоимость вычисления ответа, так как в последних вариациях отвечают не все эксперты, а выбранные маршрутизатором.

    Помимо этого заслуживают внимания и методы улучшения качества на основе давно существующих решений, например методы построения цепочки рассуждения, самокорректировка модели, и, естественно, методы борьбы с забывчивостью моделей [67, 68, 69, 70, 71, 72, 73, 74].
  • 6
    Ускорение и оптимизация моделей
    В ушедшем году продолжились исследования по ускорению и оптимизации LLM моделей. Исследователи сосредоточили свое внимание на разработке методов оптимизации на уровне алгоритмов. Мы рекомендуем познакомиться с этими работами, потому что описанные техники могут быть вам полезны уже сейчас [75, 76, 77, 78].
  • 7
    Появление Kolmogorov-Arnold Networks (KAN)
    Также стоит обратить внимание на работы, связанные с KAN. Kolmogorov-Arnold Networks — это принципиально новая архитектура нейросетей, в основе которой лежит теорема советских математиков Андрея Колмогорова и Владимира Арнольда. В этой архитектуре процесс обучения переключается с подбора весов к подбору функций активации, что в свою очередь позволит описывать более сложные функциональные зависимости при меньшем числе нейронов. Хотя пока интерес к KAN больше теоретический, и перед исследователями стоит еще множество проблем (например, масштабируемость и скорость обучения), возникновение нового фундаментального подхода, возможно, в будущем приведет к появлению конкурентов для современных архитектур [79, 80, 81, 82].
  • 8
    Развитие мультимодальных методов
    Большее внимание исследователей получили и мультимодальные методы: несмотря на поднятые выше проблемы, все же есть запрос на более общие модели, умеющие решать задачи сразу и с текстом, и с медиа, в том числе с персонализацией под пользователя [83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95].

    В прошлом году были опубликованы несколько любопытных работ для бенчмаркинга мультимодальных моделей [96, 97]. Также появились исследования, связанные с методами оркестрации нескольких LLM моделей [98, 99].
  • 9
    Детальные обзоры популярных методов и инструментов
    Сфера искусственного интеллекта (и LLM в частности) продолжает привлекать все больше новых специалистов. Поэтому мы хотим обратить внимание начинающих исследователей на обзорные статьи и работы, посвященные более глубокому изучению используемых методов и инструментов [100, 101, 102, 103, 104, 105, 106].
  • 10
    Появление новых сфер применения LLM
    Теперь не только дизайнеры и писатели должны бояться, что нейронки могут отобрать у них работу. Современные LLM модели научились генерировать новые идеи для исследований, проводить эксперименты и формулировать выводы, как настоящие ученые [107], а также обрабатывать данные на уровне Kaggle Grandmaster [108]. А еще в LLM добавили возможность управления вашим ПК [109, 110, 111]. Жутковато, не правда ли?
P. S. Ах, да, OpenAI выпустили статью о GPT-4o — GPT-4o System Card.

В будущем мы можем увидеть сокращение разрыва между открытыми и проприетарными моделями. Сообщество прилагает большие усилия, чтобы не только сделать данные доступными, но и догнать коммерческие модели по эффективности (используя и те же архитектуры, и исследуя другие подходы).Наибольшее внимание в ушедшем году привлек метод Mixture of experts. Мы полагаем, что в будущем будет больше работ с применением данного подхода: как в чистом виде, так и его объединение с Mamba, KAN или Griffin.
Развитие SLM, вопрос компактности моделей и возможности обучения языковых моделей на более доступном железе волнуют исследователей не меньше, чем размер контекстного окна. В остальном же стоит отметить, что мы все больше двигаемся в сторону мультимодальных моделей, и это драйвит развитие и альтернативных методов, и попыток сократить стоимость и ресурсы для обучения.

Если хотите стать профи в сфере AI, обратите внимание на совместную магистратуру ИТМО и Napoleon IT «Искусственный интеллект».


Авторы дайджеста:
Тимур Салимов — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Владислав Горбунов — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, Head of ML
Лев Коваленко — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Сергей Сабалевский — Институт прикладных компьютерных наук ИТМО / AI Talent Hub, ML Researcher
Кристина Желнова — ГазпромБанк, директор по разработке ML моделей
Эмиль Шакиров — SberDevices, руководитель Alignment GigaChat
Даниил Смирнов — SberDevices, старший специалист


Статьи, на которые мы ссылались:
  1. Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
  2. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
  3. Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length
  4. Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
  5. Writing in the Margins: Better Inference Pattern for Long Context Retrieval
  6. LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models
  7. RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval
  8. A Controlled Study on Long Context Extension and Generalization in LLMs
  9. Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning
  10. Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
  11. BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline
  12. WildChat: 1M ChatGPT Interaction Logs in the Wild
  13. Scaling Synthetic Data Creation with 1,000,000,000 Personas
  14. $\nabla2$DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
  15. Instruction Pre-Training: Language Models are Supervised Multitask Learners
  16. OpenHermes-2.5
  17. Nectar
  18. Orca
  19. TrustLLM: Trustworthiness in Large Language Models
  20. OLMo: Accelerating the Science of Language Models
  21. OpenELM: An Efficient Language Model Family with Open Training and Inference Framework
  22. The Llama 3 Herd of Models
  23. LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models
  24. Stealing Part of a Production Language Model
  25. Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
  26. ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
  27. The Unreasonable Ineffectiveness of the Deeper Layers
  28. Rho-1: Not All Tokens Are What You Need
  29. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
  30. BitNet a4.8: 4-bit Activations for 1-bit LLMs
  31. GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
  32. Your Transformer is Secretly Linear
  33. What Matters in Transformers? Not All Attention is Needed
  34. Addition is All You Need for Energy-efficient Language Models
  35. Direct Preference Knowledge Distillation for Large Language Models
  36. LLM Pruning and Distillation in Practice: The Minitron Approach
  37. Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
  38. Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
  39. TinyLlama: An Open-Source Small Language Model
  40. LinFusion: 1 GPU, 1 Minute, 16K Image
  41. LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
  42. HARE: HumAn pRiors, a key to small language model Efficiency
  43. Adam-mini: Use Fewer Learning Rates To Gain More
  44. Squid: Long Context as a New Modality for Energy-Efficient On-Device Language Models
  45. Octo-planner: On-device Language Model for Planner-Action Agents
  46. MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
  47. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
  48. Inheritune: Training Smaller Yet More Attentive Language Models
  49. Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
  50. A Survey of Small Language Models
  51. Jamba: A Hybrid Transformer-Mamba Language Model
  52. The Mamba in the Llama: Distilling and Accelerating Hybrid Models
  53. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
  54. Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
  55. RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
  56. Mixtral of Experts
  57. Multi-Head Mixture-of-Experts
  58. A Closer Look into Mixture-of-Experts in Large Language Models
  59. Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
  60. Aria: An Open Multimodal Native Mixture-of-Experts Model
  61. OLMoE: Open Mixture-of-Experts Language Models
  62. Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
  63. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
  64. Mixture-of-Agents Enhances Large Language Model Capabilities
  65. MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
  66. Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
  67. Self-Rewarding Language Models
  68. Self-Discover: Large Language Models Self-Compose Reasoning Structures
  69. Chain-of-Thought Reasoning Without Prompting
  70. Learn Your Reference Model for Real Good Alignment
  71. LoRA Learns Less and Forgets Less
  72. Training Language Models to Self-Correct via Reinforcement Learning
  73. Neural Network Parameter Diffusion
  74. Differential Transformer
  75. New Solutions on LLM Acceleration, Optimization, and Application
  76. Break the Sequential Dependency of LLM Inference Using Lookahead Decoding
  77. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
  78. Linear Transformers with Learnable Kernel Functions are Better In-Context Models
  79. KAN: Kolmogorov-Arnold Networks
  80. Kolmogorov-Arnold Transformer
  81. KAN or MLP: A Fairer Comparison
  82. KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting?
  83. Visual Instruction Tuning
  84. LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
  85. Chameleon: Mixed-Modal Early-Fusion Foundation Models
  86. Depth Anything V2
  87. Emu3: Next-Token Prediction is All You Need
  88. MIO: A Foundation Model on Multimodal Tokens
  89. xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
  90. Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
  91. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  92. Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
  93. Building and better understanding vision-language models: insights and future directions
  94. Personalized Visual Instruction Tuning
  95. Vision language models are blind
  96. MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
  97. CLEAR: Character Unlearning in Textual and Visual Modalities
  98. Octopus v4: Graph of language models
  99. Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
  100. The Prompt Report: A Systematic Survey of Prompting Techniques
  101. Internal Consistency and Self-Feedback in Large Language Models: A Survey
  102. Transformer Explainer: Interactive Learning of Text-Generative Models
  103. Controllable Text Generation for Large Language Models: A Survey
  104. Attention Heads of Large Language Models: A Survey
  105. Towards a Unified View of Preference Learning for Large Language Models: A Survey
  106. LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
  107. The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
  108. Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
  109. Developing a computer use model
  110. ScreenAgent: A Vision Language Model-driven Computer Control Agent
  111. Anthropic Computer Use Demo