Модель для генерации и редактирования изображений на основе текста и референсных изображений. Она разработана Tencent и представляет собой крупнейшую открытую модель для генерации изображений с использованием архитектуры Mixture of Experts (MoE). Модель объединяет текст и изображения в едином автокорректируемом фреймворке, что обеспечивает высокую контекстную целостность и детализацию. Всего модель содержит 80 миллиардов параметров (активируется 13 млрд на токен) и использует 64 эксперта (experts) для повышения производительности.
Модель предназначена для генерации видео на основе изображений (Image-to-Video). Она относится к категории «World Model» и лицензирована под Apache-2.0, что обеспечивает открытый доступ к коду и моделям.
30-миллиардная MoE-модель с активацией всего ~3.6B параметров на токен, обеспечивающая рекордную производительность в своем классе при минимальных требованиях к ресурсам (~24 ГБ VRAM). Модель лидирует в агентных задачах и программировании, поддерживает 200K контекст и оптимизирована для лёгкого локального развёртывания.
Модель генерации изображения по текстовому описанию и многореференсного редактирования изображений в одном компактном архитектурном решении, разработанное для вывода в реальном времени и минимальных требований к оборудованию. Включает 4 миллиарда параметров и работает на потребительских GPU (например, NVIDIA RTX 3090/4070) с 13 ГБ VRAM, обеспечивая вывод изображений менее чем за секунду.
Модель для генерации и редактирования изображений, объединяющая в одной архитектуре обе задачи (генерацию изображения по текстовому описанию и многореференсное редактирование изображений). Это 9-миллиардный rectified flow transformer, совмещенный с 8-миллиардным текстовым эмбеддером Qwen3. Модель обеспечивает высокое качество при скорости вывода менее чем за полсекунды.
Модель генерации изображений с гибридной архитектурой, объединяющей Autoregressive generator и Diffusion Decoder. Оно преуспевает в сценариях с информационно наполненным текстом и сложной семантикой, обеспечивая высокую детализацию и точность отображения информации.
Это обновленная версия текстово-визуальной модели Qwen-Image, выпущенная в декабре. Она улучшена по сравнению с базовой моделью, выпущенной в августе, и предназначена для генерации изображений по текстовым запросам.
Продвинутая MoE-модель с агентскими возможностями, созданная как интеллектуальный партнёр для программирования. Её уникальность — в системе многоуровневого «мышления», которая обеспечивает беспрецедентную стабильность и контроль при выполнении сложных задач. Идеальный выбор для разработки, автоматизации и создания визуального контента программными средствами.
Это улучшенная версия модели Qwen-Image-Edit-2509, разработанная для задач редактирования изображений.
Модель от компании NVIDIA с 31,6B параметров (3,5B активных) специально оптимизированная для высокопроизводительных агентских систем. Модель использует гибридную архитектуру Mamba-Transformer MoE, обеспечивающую одновременно экономию памяти, высокую пропускную способность, рассуждения и точность ответов и на контекстах до 1М токенов.
Мультимодальная модель с 106B параметров, архитектурой MoE и контекстом 128K токенов. Её ключевая особенность заключается в нативной поддержке вызова инструментов, позволяющей напрямую работать с изображениями как входными и выходными данными, что делает её идеальной платформой для создания сложных AI-агентов для анализа документов, визуального поиска и автоматизации процесса фронт-энд разработки.
Компактная 9-миллиардная мультимодальная модель с контекстом 128K токенов и нативной поддержкой визуального Function Calling. Достигает state-of-the-art результатов на бенчмарках MMBench, MathVista и OCRBench среди моделей сопоставимого размера, оптимизирована для локального развёртывания и агентных сценариев.
Модель для редактирования изображений, разработанная на основе LongCat-Image. Она поддерживает билингвальное (китайско-английское) редактирование, демонстрируя ведущие показатели среди открытых моделей в части соблюдения инструкций, качества изображений и сохранения визуальной консистентности.
Открытая мультиязычная (китайский и английский) фундаментальная модель для генерации изображений, разработанная для решения ключевых проблем в области мультиязычного отображения текста, фотореализма, эффективности развертывания и удобства использования для разработчиков.
Модель от DeepSeek-Ai с продвинутыми возможностями рассуждений и агентскими функциями, сочетающая высокую вычислительную эффективность с производительностью на уровне GPT-5. Благодаря архитектуре разреженного внимания (DSA) и уникальной механике «мышления внутри вызова инструментов», модель идеально подходит для создания автономных агентов, обеспечивая баланс между скоростью, затратами ресурсов и сложностью решаемых задач.
Специализированная версия DeepSeek-V3.2 для глубоких рассуждений достигающая уровня GPT-5 и Gemini-3.0-Pro в решении сложных задач в области олимпиадной математики и программирования. Модель не поддерживает вызов инструментов, но обладает неограниченной глубиной «мышления», которая и позволяет ей добиваться феноменальных результатов в обозначенных узкоспециализированных областях знания. DeepSeek-V3.2-Speciale стала первой открытой моделью, достигшей золотых медалей на крупнейших международных олимпиадах по математике и информатике.
Флагманская и самая большая на момент выхода русскоязычная instruct-модель на базе архитектуры Mixture-of-Experts (MoE) с 702B общих и 36B активных параметров. Модель интегрирует Multi-head Latent Attention (MLA) и Multi-Token Prediction (MTP), обеспечивая высокую пропускную способность при инференсе и оптимизирована для работы в fp8. GigaChat 3 Ultra Preview работает с контекстом в 128К токенов, демонстрирует сильные результаты на задачах генерации текста, программировании, математики и обеспечивает наиболее глубокое понимание русского языка и культуры.
Kandinsky-5.0-T2I-Lite-sft-Diffusers — это text-to-image (T2I) модель с 6 миллиардами параметров, разработанная для генерации изображений на основе текстовых запросов. Модель относится к семейству Kandinsky 5.0, которое включает модели для генерации видео и изображений.
Kandinsky-5.0-I2I-Lite-sft-Diffusers — это image-to-image (I2I) модель с 6 миллиардами параметров, разработанная для изменения изображений на основе текстовых запросов. Модель относится к семейству Kandinsky 5.0, которое включает модели для генерации видео и изображений.
Компактная диалоговая MoE‑модель семейства GigaChat с 10 млрд общих и 1,8 млрд активных параметров, оптимизированная под высокую скорость инференса и локальный/высоконагруженный продакшен (упрощенное наименование GigaChat 3 Lightning). По качеству понимания русского языка она превосходит популярные модели масштаба 3–4B, при этом работает существенно быстрее.