Обзор по большим языковым моделям (LLM)

В этом выпуске дайджеста представлен ряд новых больших языковых моделей (LLM), появившихся с начала 2024 года. После общего сравнения метрик на основных бенчмарках мы рассмотрели подробнее несколько ключевых инноваций, в частности, архитектуры Mixture of Experts (MoE), 1.58 bit LLM и мультимодальные подходы. Также отмечены особенности моделей, работающих с русским языком. Вторая часть дайджеста касается новых эффективных способов дообучения LLM (RAFT, ReFT). В завершении мы сделали обзор 4 основных шаблонов проектирования агентов для повышения качества работы языковых моделей в различных комплексных задачах. Ссылка на презентацию