Передовая MoE-модель на 1.6 трлн параметров (49 млрд активных), способная сверхэффективно обрабатывать контекст до 1 миллиона токенов благодаря инновационной гибридной архитектуре внимания – CSA+HCA. Модель уверенно лидирующие позиции по математике, программированию и агентным задачам, поддерживает три настраиваемых режима рассуждения («non-think», «think high», «think max») и потребляет почти в 10 раз меньше памяти KV-кэша по сравнению с предыдущими флагманами deepseek.
Открытая MoE‑модель из семейства DeepSeek V4, насчитывающая 284 млрд общих параметров при 13 млрд активных на токен и поддерживающая контекст до 1 млн токенов. Благодаря гибридному вниманию CSA + HCA она достигает экстремальной эффективности на сверхдлинных последовательностях. Модель демонстрирует близкие к Pro‑версии результаты в рассуждении, программировании и агентных задачах, будучи при этом гораздо менее требовательной к инфраструктуре.
Qwen/Qwen3.6-27B — открытая плотная мультимодальная модель на 27B параметров с сильным фокусом на агентное программирование, работу с большими репозиториями и reasoning-задачи. Она поддерживает текст, изображения и видео, имеет нативный контекст 262K токенов, thinking/non-thinking режимы и по ряду ключевых бенчмарков обгоняет не только Qwen3.5-27B, но и более крупную MoE-модель Qwen3.5-397B-A17B.
Qwen/Qwen3.6-35B-A3B — открытая мультимодальная MoE-модель с 35B параметров, из которых на каждый токен активируется только около 3B, что снижает вычислительную нагрузку. Архитектура на основе Gated DeltaNet и Gated Attention обеспечивает высокую эффективность и экономию памяти. Модель поддерживает текст, изображения и видео, thinking/non-thinking режимы, контекст 262K токенов с расширением до 1M и особенно хорошо подходит для агентного программирования, работы с репозиториями и визуально-текстовых задач.
Открытая мультимодальная модель от Moonshot AI ориентированная на работу с агентами. Архитектура Mixture-of-Experts с 1 трлн параметров (32 млрд активных на токен), поддерживающая окно контекста в 256K токенов и нативной INT4-квантизацией. Модель оптимизирована для длительных циклов программного решения задач, автономной работы и оркестрации «роя агентов», по этим направлениям она уверенно конкурирует с лучшими закрытыми моделями. Модель способна часами вести сложную инженерную работу, превращать визуальные макеты в готовые веб-приложения, декомпозировать и координировать до 300 параллельных суб-агентов в рамках одной сессии, что делает ее одним из лучших открытых решений для исследовательских задач и эффективного использования в качестве интеллектуального ядра в самых разных высокотехнологичных продуктах.
Открытая модель для генерации изображений по тексту, разработанная командой ERNIE-Image в Baidu. Она построена на архитектуре Diffusion Transformer (DiT) и включает дополнительные компоненты для улучшения работы с текстом и структурированными задачами.
Первая модель, участвовавшая в собственной эволюции: в процессе разработки она сама строила навыки и оптимизировала своё обучение. Архитектура на базе 230B MoE (10B активных параметров) с полным вниманием обеспечивает стабильно высокое качество в сложных агентных и офисных задачах. На бенчмарках модель показывает результаты на уровне лучших закрытых решений. Идеально подходит для разработки автономных агентов, работы с офисными документами и комплексной автоматизации сложных профессиональных задач, выступая в роли «всезнающего и эмоционального AI-коллеги».
Открытая модель для генерации изображений по тексту, разработанная командой ERNIE-Image в Baidu. Она построена на архитектуре Diffusion Transformer (DiT) и включает дополнительные компоненты для улучшения работы с текстом и структурированными задачами.
Флагманская MoE-модель (744 млрд общих / 40 млрд активных параметров) с механизмом разреженного внимания DSA, созданная для продолжительной автономной работы. Она занимает первое место на SWE‑Bench Pro и CyberGym, опережая на момент релиза все существующие модели (включая закрытые), и стабильно входит в число лидеров в других значимых бенчмарках, а главное — она сохраняет способность к прогрессу на сотнях итераций и тысячах вызовов инструментов, там, где многие модели теряют эффективность и стараются дать быстрый ответ GLM-5.1 продолжает искать лучшее решение.
Флагманская instruct-модель семейства GigaChat, основанная на архитектуре Mixture‑of‑Experts (MoE) с 702 млрд общих и 36 млрд активных параметров. Сочетание Multi‑head Latent Attention (MLA), Multi‑Token Prediction (MTP) и нативного обучения в FP8 обеспечивает рекордную производительность на длинных контекстах и значительно снижает потребление памяти. Модель по ряду показателей превосходит открытые аналоги уровня DeepSeek‑V3‑0324 и Qwen3‑235B‑A22B, поставляется под лицензией MIT, что делает доступным ее коммерческое использование.
GigaChat 3.1 Lightning — это компактная Mixture-of-Experts модель с 1.8 млрд активных параметров из 10 млрд общих, построенная на базе MLA внимания и поддерживающая MTP, что в сочетании с нативным FP8-обучением обеспечивает отличную скорость и качество. Модель занимает лидирующие позиции в своём классе и является одним из лучших решений для быстрых диалоговых AI-ассистентов, а также для запуска простых, но надежных агентных систем с поддержкой вызова инструментов и других функциональностей.
Высокоэффективная модель на архитектуре смеси экспертов, которая при активации лишь 3.8B параметров обеспечивает 97% качества флагманской модели 31B. Оптимальный выбор для сложных агентных и аналитических задач с умеренными требованиями к вычислительным ресурсам.
Флагманская плотная модель семейства gemma-4, c 31B параметров она лишь немного уступает крупнейшим по размеру проприетарным и открытым аналогам. Нативная мультимодальность, мультиязычность, контекстное окно в 256K токенов, гибридный механизм внимания Sliding window для снижения требований к памяти и в совокупности - идеальный выбор для задач, требующих качественных рассуждений и глубокого анализа.
NVIDIA Nemotron 3 Super 120B (12B active) — это гибридная модель на базе разреженной архитектуры Latent Mixture-of-Experts (MoE) и Mamba-2, оптимизированная для создания сложных агентных систем и работы с контекстом до 1 млн токенов. Благодаря инновационной архитектуре, активирующей только 12 миллиардов параметров на токен и механизму предсказания нескольких токенов (MTP), модель обеспечивает высокую эффективность инференса, сочетая качество ответов с производительностью и экономией вычислений при обработке длинных последовательностей.
Это обновленная версия модели LTX-2, разработанная компанией Lightricks для синхронизированного генерирования видео и аудио в рамках единой модели. Она основана на архитектуре DiT и объединяет ключевые компоненты современных систем генерации видео. Модель обеспечивает улучшенное качество аудио и визуальных элементов, а также повышенную точность соответствия текстовым промптам.
Самая компактная модель линейки gemma-4 с эффективным размером 2.3B параметров, с полной поддержкой трех модальностей: текста, изображений и аудио. Идеальное решение для агентных рабочих процессов на локальных и edge устройствах.
Модель с инновационной техникой Per-Layer Embeddings, которая при эффективном размере всего в 4.5B параметров работает эффективнее, чем модели в 2–3 раза большего размера. При этом модель сохраняет режим рассуждений и поддерживает полную мультимодальность (текст, изображения, аудио) - идеальный выбор для сложных задач на локальных устройствах.
Улучшенная версия многофункциональной модели для редактирования изображений, превосходящая в вопросах сохранения личности (identity consistency) и работы с несколькими изображениями (multi-image conditioning).
Ультракомпактная мультимодальная модель с 0.8 миллиарда параметров с гибридной архитектурой Gated DeltaNet и Gated Attention. Модель отличается рекордным для своего размера контекстом в 262 144 токена, поддержкой 201 языка и возможностью работы в двух режимах — стандартном и режиме рассуждения (thinking), что делает ее идеальным решением для прототипирования, исследований и тонкой настройки под конкретные задачи.
Миниатюрная модель на 2B параметров, созданная для прототипирования, исследовательских задач и экспериментов. Несмотря на минимальный размер (2 млрд параметров), она поддерживает ключевую особенность линейки — режим рассуждений (thinking mode), мультимодальность, контекст 262K токенов и гибридную архитектуру, что делает ее отличной песочницей для изучения поведения современных LLM.