Модель Krea Realtime 14B представляет собой дистилляцию модели Wan 2.1 14B (разработанной Wan-AI) для задач генерации видео на основе текста. Она была преобразована в автокорректирующуюся (autoregressive) модель с помощью метода Self-Forcing, что позволило достичь скорости инференса 11 кадров в секунду при использовании 4 шагов вывода на одном GPU NVIDIA B200.
Мультимодальная dense модель с 8 миллиардами параметров, оптимизированная для диалога и следования инструкциям, обеспечивающая понимание изображений, видео и текста. Поддерживает нативный контекст 256K токенов, расширенное OCR на 32 языках и работу визуального агента. Демонстрирует конкурентные результаты с более крупными моделями на ключевых бенчмарках.
Компактная, гибридная модель архитектуры mamba2/transformers в сочетании с mixture of experts, где активируется только 1 млрд из 7 млрд параметров. Разработана для быстрого выполнения задач в том числе на периферийных устройствах и локального развертывания. Требует всего 8 ГБ памяти (в 8-битном формате) и обеспечивает высокую производительность в function calling при минимальных затратах ресурсов.
Традиционная трансформерная модель с 3 миллиардами параметров, созданная как альтернатива для платформ, где поддержка гибридной архитектуры Mamba-2 ещё не оптимизирована, полная поддержка PEFT методов и оптимизации в llama.cpp. Обеспечивает совместимость с существующей инфраструктурой при сохранении улучшенного качества результата, характерного для поколения моделей Granite 4.0.
Самая компактная 3B гибридная модель семейства Granite-4.0, сочетает гибридную архитектуру Mamba-2/трансформер с традиционными dense feedforward слоями вместо mixture of experts. Оптимизированная для локальных устройств (запускается даже на Raspberry Pi), но при этом обеспечивает высокие результаты в понимании инструкций (84.32% IFEval), а задачах RAG превосходит гораздо более крупные модели.
Флагманская MoE модель линейки Granite-4.0 от IBM с 32B параметров (9B активных), архитектурой Mamba-2/трансформер. Обеспечивает производительность уровня крупных моделей при снижении требований к памяти на 70% и удвоенной скорости инференса. Оптимизированная для корпоративных задач RAG и агентских рабочих процессов.
Обновленная версия флагманской модели Z.ai с расширенным контекстом до 200K, улучшенными способностями к рассуждению, генерации кода и поддержкой инструментов. Она существенно превосходит GLM-4.5 и уверенно конкурирует с такими признанными лидерами как DeepSeek-V3.2-Exp и Claude Sonnet 4, при этом демонстрирует значительную экономию использования токенов. Идеальна для агентных систем, анализа больших текстов и автоматизации разработки.
DeepSeek-V3.2-Exp — экспериментальная модель на базе V3.1-Terminus, представляющая промежуточный этап на пути к архитектуре следующего поколения. Модель внедряет DeepSeek Sparse Attention (DSA), механизм разреженного внимания, повышающий эффективность обучения и логического вывода в сценариях с большим контекстом. Эта модель своего рода срез текущего исследования, проводимого компанией Deepseek-AI, в поисках более эффективных архитектур трансформеров. По результатам тестирования V3.2-Exp демонстрирует производительность сопоставимую с базовой версией с незначительной положительной или отрицательной динамикой по ряду бенчмарков.
Мультимодальная модель среднего размера в семействе Qwen3-VL с MoE-архитектурой 30B параметров, нативным контекстом в 256K и продвинутыми возможностями обработки изображений, видео и OCR на 32 языках. Архитектурные инновации, такие как Interleaved-MRoPE, DeepStack и Text-Timestamp Alignment обеспечивают отличное качество решения мультимодальных задач, превосходя ряд проприетарных моделей на ключевых бенчмарках. Модель несколько уступает флагману серии Qwen3-VL-235B-A22B-Instruct, но за счет размера и конфигурации существенно экономичнее по ресурсам на инференсе.
Мультимодальная MoE‑модель из семейства Qwen3-VL среднего размера с 30 млрд общих параметров, 3 миллиардами активных параметров и контекстом в 256K токенов. Она объединяет передовые возможности обработки визуального контента с глубокими аналитическими способностями. Обеспечивает высокоточное пространственное понимание и привязку к временным меткам, уверенно сочетая их с эффективностью и внимательностью к деталям, характерную для reasoning‑моделей.
Флагманская мультимодальная reasoning LLM нового поколения с поддержкой 256K (и возможностью увеличения до 1М токенов). Благодаря уникальным архитектурным решениям таким как Interleaved-MRoPE, DeepStack и др. модель обладает отличными возможностями для OCR (32 языка, включая русский), видеоаналитики, понимания изображений с пространственном ориентированием и специально адаптирована под программирование и реализацию продвинутых агентных сценариев, где необходимо последовательное рассуждение.
Флагманская мультимодальная модель серии Qwen3‑VL. Она объединяет в себе качественную работу с текстом, отличное понимание изображений с пространственным позиционированием объектов, возможности анализа видео по таймингу и длинный контекст (нативно 256K, расширяется до 1M). Модель ориентирована на работу в приложениях, требующих быстрой и точной обработки изображений и видео, а приятным бонусом являются OCR на 32 языках, умение совершать агентные действия в интерфейсах и генерацию кода по мультимодальным входам (например фронтенд-код сайта по его рисованному эскизу).
Обновлённая версия флагманской модели DeepSeek-V3.1 демонстрирует значительные улучшения: разработчики добились большей языковой согласованности — теперь модель реже смешивает китайский и английский языки и полностью избегает появления случайных символов. Кроме того, были существенно улучшены агенты — как Code Agent, так и Search Agent показывают более высокую производительность. В довершение ко всему, модель продемонстрировала заметный рост показателей на ряде ключевых бенчмарков.
MoE‑модель нового поколения на 80 млрд параметров и 512 экспертами. Модель обучена на ~15T токенов использует в архитектуре гибридное внимание (Gated DeltaNet + Gated Attention), поддерживает нативный контекст в 256K токенов с возможностью его увеличения до ~1M. При том что на инференсе активны только 3B параметров и 10 экспертов на токен, модель достигает уровня моделей 200B+ класса в ряде задач и обеспечивает отличную скорость на инференсе особенно при обработке длинных промптов. Модель работает только в instruct‑режиме (без “thinking”) и использует технологию Multi-Token Prediction что способствует повышению скорости генерации, улучшению связности текста и более качественному обобщению.
MoE‑модель на 80 млрд параметров, из которых активируются только 3 млрд на токен, гибридным вниманием (Gated DeltaNet + Gated Attention) и нативным контекстом 262K (увеличивается до ≈1M), заточенная на сложное пошаговое рассуждение в режиме «thinking». Благодаря ультра‑разреженному MoE (512 экспертов, 10 активных + 1 общий), MTP и другим доработкам, модель демонстрирует высокую эффективность на длинных контекстах и сильные результаты в математике, программировании и агентских задачах.
Обновление одной из крупнейших мультиэкспертных LLM с 1T параметров. Разработчики увеличили контекст до 256K, сфокусировали внимание на задачах фронтенд программирования, агентских возможностях и улучшении вызова инструментов. Как результат – сильный прирост в точности на ряде публичных бенчмарков и достойная конкуренция с лучшими проприетарными решениями.
Крупное обновление в линейке LLM от DeepSeek-AI и серьезный шаг в сторону решений, ориентированных на использование ИИ агентов. Deepseek v3.1 - теперь это гибридная модель с поддержкой двух интеллектуальных режимов (thinking/non-thinking), лидирующая в своём классе по точности и гибкости применения. Улучшения наблюдаются по всем бенчмаркам, но особый акцент разработчики сделали на эффективность в работе с инструментами, как следствие модель идеально подходит для сложных аналитических, исследовательских задач и агентских систем enterprise уровня.
Продвинутая открытая языковая модель с 32 млрд параметров, оптимизированная для выполнения сложных инструкций, диалоговых и агентных сценариев, с уникально гибким контролем "бюджета размышлений" и поддержкой 512K контекста. Модель идеально подходит для использования в рамках чат-ботов для консультаций и поддержки клиентов, для обработки длинных документов, юридических файлов, научных и технических отчетов и не в последнюю очередь для автоматизации бизнес-процессов, в том числе с помощью интеллектуальных ассистентов.
Qwen-Image-Edit — модель для задач редактирования изображений, основанная на 20B-версии модели Qwen-Image (Qwen2.5-VL + VAE Encoder).
Новая сверх компактная (270M параметров) и высокопроизводительная модель в семействе Gemma 3 от Google Deep Mind. Это решение для быстрого локального развертывания, модель может эффективно работать логалькно в том числе на уровне встраиваемых систем и в браузерах. Она была специально создана для использования после дообучения под конкртеные задачи, но при этом модель "из коробки" умеет следовать инструкциям и структурировать текст. Идеальна для быстрой классификации, извлечения данных, и других задач, где важны скорость, точность, энергоэффективность и конфиденциальность.