Высокоэффективная модель на архитектуре смеси экспертов, которая при активации лишь 3.8B параметров обеспечивает 97% качества флагманской модели 31B. Оптимальный выбор для сложных агентных и аналитических задач с умеренными требованиями к вычислительным ресурсам.
Флагманская плотная модель семейства gemma-4, c 31B параметров она лишь немного уступает крупнейшим по размеру проприетарным и открытым аналогам. Нативная мультимодальность, мультиязычность, контекстное окно в 256K токенов, гибридный механизм внимания Sliding window для снижения требований к памяти и в совокупности - идеальный выбор для задач, требующих качественных рассуждений и глубокого анализа.
NVIDIA Nemotron 3 Super 120B (12B active) — это гибридная модель на базе разреженной архитектуры Latent Mixture-of-Experts (MoE) и Mamba-2, оптимизированная для создания сложных агентных систем и работы с контекстом до 1 млн токенов. Благодаря инновационной архитектуре, активирующей только 12 миллиардов параметров на токен и механизму предсказания нескольких токенов (MTP), модель обеспечивает высокую эффективность инференса, сочетая качество ответов с производительностью и экономией вычислений при обработке длинных последовательностей.
Это обновленная версия модели LTX-2, разработанная компанией Lightricks для синхронизированного генерирования видео и аудио в рамках единой модели. Она основана на архитектуре DiT и объединяет ключевые компоненты современных систем генерации видео. Модель обеспечивает улучшенное качество аудио и визуальных элементов, а также повышенную точность соответствия текстовым промптам.
Самая компактная модель линейки gemma-4 с эффективным размером 2.3B параметров, с полной поддержкой трех модальностей: текста, изображений и аудио. Идеальное решение для агентных рабочих процессов на локальных и edge устройствах.
Модель с инновационной техникой Per-Layer Embeddings, которая при эффективном размере всего в 4.5B параметров работает эффективнее, чем модели в 2–3 раза большего размера. При этом модель сохраняет режим рассуждений и поддерживает полную мультимодальность (текст, изображения, аудио) - идеальный выбор для сложных задач на локальных устройствах.
Ультракомпактная мультимодальная модель с 0.8 миллиарда параметров с гибридной архитектурой Gated DeltaNet и Gated Attention. Модель отличается рекордным для своего размера контекстом в 262 144 токена, поддержкой 201 языка и возможностью работы в двух режимах — стандартном и режиме рассуждения (thinking), что делает ее идеальным решением для прототипирования, исследований и тонкой настройки под конкретные задачи.
Миниатюрная модель на 2B параметров, созданная для прототипирования, исследовательских задач и экспериментов. Несмотря на минимальный размер (2 млрд параметров), она поддерживает ключевую особенность линейки — режим рассуждений (thinking mode), мультимодальность, контекст 262K токенов и гибридную архитектуру, что делает ее отличной песочницей для изучения поведения современных LLM.
Высокоэффективная модель с 4 миллиардами параметров, оптимизированная для мобильных и встраиваемых решений. Несмотря на небольшой размер, она сохраняет все ключевые возможности линейки: мультимодальность, гибридное внимание и поддержку длинного контекста - 262K токенов, открывая новые горизонты для on-device AI решений.
Компактная модель с 9 миллиардами параметров, контекстом 262K токенов и мультимодальными возможностями предназначенная для эффективного решения широкого круга задач при ограниченных ресурсах. Она отлично подходит для развертывания на потребительском оборудовании при этом способна обеспечивать производительность сопоставимую с моделями в 3–4 раза крупнее.
Модель с 122 миллиардами параметров и разреженной архитектурой MoE, активирующей только 10B параметров на токен, плюс гибридное внимание и нативную мультимодальность. Идеальна для задач, требующих рассуждения, анализа длинных документов и корпоративного развёртывания с оптимизированными требованиями к ресурсам.
Плотная модель на 27B параметров с 64 слоями гибридной архитектуры, обеспечивающая экономию памяти, максимальную предсказуемость и стабильность результатов в задачах, требующих детального мультимодального анализа изображений, программирования и логического рассуждения.
Универсальная модель с 35 миллиардами параметров (активируется 3B) отлично балансирует между высокой производительностью и экономией ресурсов. Она идеально подходит для продакшн-сред на доступном пользовательском оборудовании и хорошо справляется с задачами, требующими скорости, поддержки мультимодальности, рассуждений и обработки длинного контекста.
Модель для генерации видео по тексту (T2V), изображению (I2V) и видео (V2V), разработанная для использования в режиме реального времени и долгой продолжительности. Она способна синтезировать видео длительностью до нескольких минут с частотой 19,5 кадров в секунду (FPS) на одном GPU H100. Уникальность модели заключается в отсутствии использования традиционных методов противодрейфа (например, self-forcing, error-banks) и стандартных ускоряющих техник (KV-cache, causal masking), что не снижает качество и синхронность видео.
Гибридная модель от команды Qwen, объединяющая передовые мультимодальные возможности с исключительной эффективностью благодаря архитектуре Gated DeltaNet и разреженных экспертов (MoE). При общем объеме в 397 миллиардов параметров модель активирует лишь 17 миллиардов за токен, обеспечивая производительность на широком спектре задач — от сложных математических рассуждений до мультимодального понимания и создания агентов.
Модель для задачи редактирования изображений, обеспечивающая высокую точность, качество и консистентность в различных сценариях.
Флагманская модель серии, достигшая передового уровня производительности (SOTA) в программировании, агентном использовании инструментов и реальных практических «офисных» кейсах. Благодаря масштабному обучению с подкреплением (RL) и инновационному фреймворку Forge, M2.5 не только решает сложнейшие задачи, но и делает это с высокой точностью и скоростью.
Фундаментальная open-source модель, разработанная для решения сложных задач и продолжительных агентных сценариев. Архитектура MoE c 754B параметров (40B активных), разреженное вниманием (DSA), инновационная RL-инфраструктура slime и фокус на практическую полезность позволяют GLM-5 вывести взаимодействие с ИИ далеко за рамки простого чата, превращая его в полноценного ассистента исполнителя
Эффективная MoE-модель с 80B параметров (активно 3B), специально созданная для агентов, ориентированных на программирование. Модель отличается высокой эффективностью инференса, длинным контекстом (262K токенов) и лучшей в своём классе работой с различными форматами вызовов инструментов, что делает её идеальным выбором для развертывания интеллектуальных ассистентов разработчика.
Открытая модель для синхронной генерации видео и аудио, разработанная для преодоления ограничений проприетарных систем (например, Sora 2, Veo 3). Она предназначена для задач Image-to-Video-Audio (IT2VA) и Text-to-Video-Audio (T2VA), обеспечивая одновременное создание высококачественного видео и соответствующего ему аудио без ошибок, связанных с каскадными подходами (когда аудио генерируется отдельно).