Флагманская языковая модель на 550 млрд параметров (55 млрд активных при каждом выводе) с гибридной архитектурой LatentMoE (Mamba-2 + MoE + Attention), контекстом до 1 млн токенов и настраиваемым режимом рассуждений. Модель обеспечивает рекордную пропускную способность инференса — до ~6× выше, чем у сравнимых открытых LLM, — при точности на уровне лучших мировых аналогов, что делает её оптимальным выбором для сложных агентных задач, длинноконтекстного анализа и высоконагруженных сценариев enterprise уровня.
Уникальная модель в линейке Gemma 4 с единой (Unified) архитектурой без энкодеров: визуальные и аудиоданные подаются напрямую в decoder-only трансформер через линейные проекции (и легкий embedder для изображений), что существенно устраняет задержку энкодинга и позволяет качественно обрабатывать все модальности. При размере всего 12B параметров модель подходит для запуска на ноутбуках с 16 ГБ VRAM и демонстрирует результаты, сопоставимые с моделью 26B MoE, на бенчмарках рассуждения, кодинга и мультимодального понимания.
Это первая открытая модель генерации изображений от Ideogram. Это передовая базовая модель, обученная с нуля, а не усовершенствованная версия какой-либо существующей модели.
Унифицированная мультимодальная модель (Unified Multimodal Modeling), разработанная для демонстрации унифицированного подхода к пониманию, генерации и редактированию изображений и видео в рамках относительно небольшой модели и ограниченного вычислительного бюджета.
Передовая MoE-модель на 1.6 трлн параметров (49 млрд активных), способная сверхэффективно обрабатывать контекст до 1 миллиона токенов благодаря инновационной гибридной архитектуре внимания – CSA+HCA. Модель уверенно лидирующие позиции по математике, программированию и агентным задачам, поддерживает три настраиваемых режима рассуждения («non-think», «think high», «think max») и потребляет почти в 10 раз меньше памяти KV-кэша по сравнению с предыдущими флагманами deepseek.
Открытая MoE‑модель из семейства DeepSeek V4, насчитывающая 284 млрд общих параметров при 13 млрд активных на токен и поддерживающая контекст до 1 млн токенов. Благодаря гибридному вниманию CSA + HCA она достигает экстремальной эффективности на сверхдлинных последовательностях. Модель демонстрирует близкие к Pro‑версии результаты в рассуждении, программировании и агентных задачах, будучи при этом гораздо менее требовательной к инфраструктуре.
Qwen/Qwen3.6-27B — открытая плотная мультимодальная модель на 27B параметров с сильным фокусом на агентное программирование, работу с большими репозиториями и reasoning-задачи. Она поддерживает текст, изображения и видео, имеет нативный контекст 262K токенов, thinking/non-thinking режимы и по ряду ключевых бенчмарков обгоняет не только Qwen3.5-27B, но и более крупную MoE-модель Qwen3.5-397B-A17B.
Qwen/Qwen3.6-35B-A3B — открытая мультимодальная MoE-модель с 35B параметров, из которых на каждый токен активируется только около 3B, что снижает вычислительную нагрузку. Архитектура на основе Gated DeltaNet и Gated Attention обеспечивает высокую эффективность и экономию памяти. Модель поддерживает текст, изображения и видео, thinking/non-thinking режимы, контекст 262K токенов с расширением до 1M и особенно хорошо подходит для агентного программирования, работы с репозиториями и визуально-текстовых задач.
Открытая мультимодальная модель от Moonshot AI ориентированная на работу с агентами. Архитектура Mixture-of-Experts с 1 трлн параметров (32 млрд активных на токен), поддерживающая окно контекста в 256K токенов и нативной INT4-квантизацией. Модель оптимизирована для длительных циклов программного решения задач, автономной работы и оркестрации «роя агентов», по этим направлениям она уверенно конкурирует с лучшими закрытыми моделями. Модель способна часами вести сложную инженерную работу, превращать визуальные макеты в готовые веб-приложения, декомпозировать и координировать до 300 параллельных суб-агентов в рамках одной сессии, что делает ее одним из лучших открытых решений для исследовательских задач и эффективного использования в качестве интеллектуального ядра в самых разных высокотехнологичных продуктах.
Открытая модель для генерации изображений по тексту, разработанная командой ERNIE-Image в Baidu. Она построена на архитектуре Diffusion Transformer (DiT) и включает дополнительные компоненты для улучшения работы с текстом и структурированными задачами.
Первая модель, участвовавшая в собственной эволюции: в процессе разработки она сама строила навыки и оптимизировала своё обучение. Архитектура на базе 230B MoE (10B активных параметров) с полным вниманием обеспечивает стабильно высокое качество в сложных агентных и офисных задачах. На бенчмарках модель показывает результаты на уровне лучших закрытых решений. Идеально подходит для разработки автономных агентов, работы с офисными документами и комплексной автоматизации сложных профессиональных задач, выступая в роли «всезнающего и эмоционального AI-коллеги».
Открытая модель для генерации изображений по тексту, разработанная командой ERNIE-Image в Baidu. Она построена на архитектуре Diffusion Transformer (DiT) и включает дополнительные компоненты для улучшения работы с текстом и структурированными задачами.
Флагманская MoE-модель (744 млрд общих / 40 млрд активных параметров) с механизмом разреженного внимания DSA, созданная для продолжительной автономной работы. Она занимает первое место на SWE‑Bench Pro и CyberGym, опережая на момент релиза все существующие модели (включая закрытые), и стабильно входит в число лидеров в других значимых бенчмарках, а главное — она сохраняет способность к прогрессу на сотнях итераций и тысячах вызовов инструментов, там, где многие модели теряют эффективность и стараются дать быстрый ответ GLM-5.1 продолжает искать лучшее решение.
Флагманская instruct-модель семейства GigaChat, основанная на архитектуре Mixture‑of‑Experts (MoE) с 702 млрд общих и 36 млрд активных параметров. Сочетание Multi‑head Latent Attention (MLA), Multi‑Token Prediction (MTP) и нативного обучения в FP8 обеспечивает рекордную производительность на длинных контекстах и значительно снижает потребление памяти. Модель по ряду показателей превосходит открытые аналоги уровня DeepSeek‑V3‑0324 и Qwen3‑235B‑A22B, поставляется под лицензией MIT, что делает доступным ее коммерческое использование.
GigaChat 3.1 Lightning — это компактная Mixture-of-Experts модель с 1.8 млрд активных параметров из 10 млрд общих, построенная на базе MLA внимания и поддерживающая MTP, что в сочетании с нативным FP8-обучением обеспечивает отличную скорость и качество. Модель занимает лидирующие позиции в своём классе и является одним из лучших решений для быстрых диалоговых AI-ассистентов, а также для запуска простых, но надежных агентных систем с поддержкой вызова инструментов и других функциональностей.
Высокоэффективная модель на архитектуре смеси экспертов, которая при активации лишь 3.8B параметров обеспечивает 97% качества флагманской модели 31B. Оптимальный выбор для сложных агентных и аналитических задач с умеренными требованиями к вычислительным ресурсам.
Флагманская плотная модель семейства gemma-4, c 31B параметров она лишь немного уступает крупнейшим по размеру проприетарным и открытым аналогам. Нативная мультимодальность, мультиязычность, контекстное окно в 256K токенов, гибридный механизм внимания Sliding window для снижения требований к памяти и в совокупности - идеальный выбор для задач, требующих качественных рассуждений и глубокого анализа.
NVIDIA Nemotron 3 Super 120B (12B active) — это гибридная модель на базе разреженной архитектуры Latent Mixture-of-Experts (MoE) и Mamba-2, оптимизированная для создания сложных агентных систем и работы с контекстом до 1 млн токенов. Благодаря инновационной архитектуре, активирующей только 12 миллиардов параметров на токен и механизму предсказания нескольких токенов (MTP), модель обеспечивает высокую эффективность инференса, сочетая качество ответов с производительностью и экономией вычислений при обработке длинных последовательностей.
Это обновленная версия модели LTX-2, разработанная компанией Lightricks для синхронизированного генерирования видео и аудио в рамках единой модели. Она основана на архитектуре DiT и объединяет ключевые компоненты современных систем генерации видео. Модель обеспечивает улучшенное качество аудио и визуальных элементов, а также повышенную точность соответствия текстовым промптам.
Самая компактная модель линейки gemma-4 с эффективным размером 2.3B параметров, с полной поддержкой трех модальностей: текста, изображений и аудио. Идеальное решение для агентных рабочих процессов на локальных и edge устройствах.