Модели

  • В каталоге собраны наиболее популярные, свободно распространяемые нейросетевые модели от разработчиков со всего мира, включая большие языковые, мультимодальные и диффузионные модели. Попробуйте интересующие модели в одном месте.
  • Для знакомства с моделью и ее тестирования, вы можете воспользоваться публичным эндпоинтом. А для работы на постоянной основе, файнтюнинга или специфичных весов, лучше арендовать виртуальный или выделенный сервер с GPU.

Kandinsky-5.0-T2I-Lite-sft-Diffusers

Kandinsky-5.0-T2I-Lite-sft-Diffusers — это text-to-image (T2I) модель с 6 миллиардами параметров, разработанная для генерации изображений на основе текстовых запросов. Модель относится к семейству Kandinsky 5.0, которое включает модели для генерации видео и изображений.

19.11.2025

Kandinsky-5.0-I2I-Lite-sft-Diffusers

Kandinsky-5.0-I2I-Lite-sft-Diffusers — это image-to-image (I2I) модель с 6 миллиардами параметров, разработанная для изменения изображений на основе текстовых запросов. Модель относится к семейству Kandinsky 5.0, которое включает модели для генерации видео и изображений.

19.11.2025

GigaChat3-10B-A1.8B

Компактная диалоговая MoE‑модель семейства GigaChat с 10 млрд общих и 1,8 млрд активных параметров, оптимизированная под высокую скорость инференса и локальный/высоконагруженный продакшен (упрощенное наименование GigaChat 3 Lightning). По качеству понимания русского языка она превосходит популярные модели масштаба 3–4B, при этом работает существенно быстрее.

русскоязычная
19.11.2025

HunyuanVideo-1.5

HunyuanVideo-1.5 — это модель генерации видео по тексту (text-to-video) и изображению (image-to-video) с 8,3 млрд параметров, обеспечивающая высокое качество видео при относительно низких вычислительных затратах. Она разработана для работы на потребительских GPU, что делает её доступной для разработчиков и создателей контента.

18.11.2025

FLUX.2-dev

Модель на основе rectified flow transformer с 32 миллиардами параметров, разработанная для генерации, редактирования и комбинирования изображений на основе текстовых инструкций. Поддерживает задачи генерации изображений по тексту, редактирование с одиночным референсом и многореференсное редактирование, без необходимости дополнительной настройки. Обучена с использованием метода дистилляции с подсказками для повышения эффективности, оптимизирована для исследовательских и творческих задач при условии некоммерческого использования.

18.11.2025

Kandinsky-5.0-I2V-Pro-sft-5s-Diffusers

Модель Kandinsky-5.0-I2V-Pro-sft-5s-Diffusers относится к серии Kandinsky 5.0 Pro и предназначена для генерации видео высокого качества. Она содержит 19 миллиардов параметров и поддерживает форматы разрешения HD и другие.

12.11.2025

Kandinsky-5.0-T2V-Pro-sft-5s-Diffusers

Это модель для генерации видео на основе текста. Она включает 19 миллиардов параметров и обеспечивает высокое качество генерации в формате HD. Модель относится к семейству Kandinsky 5.0, которое включает модели для генерации видео и изображений.

12.11.2025

ERNIE-4.5-VL-28B-A3B-Thinking

Компактная мультимодальная модель от Baidu, построенная на новаторской архитектуре гетерогенной архитектуре Mixture-of-Experts (MoE), отделяющую параметры для текстовых и визуальных экспертов. На инверенсе активируются только 3 миллиардов параметров при общем размере модели в 28 миллиардов параметров. Модель представляет собой обновленную версию базовой ERNIE-4.5-VL-28B-A3B, специально оптимизированную для задач мультимодального рассуждения через режим "мышления". Поддерживает работу с изображениями, видео, визуальную привязку (grounding) и вызов инструментов при нативной максимальной длине контекста 131K токенов и выгодно отличается умеренными требованиями к вычислительным ресурсам.

размышляющая
мультимодальная
07.11.2025

Kimi-K2-Thinking

Самая большая на момент выхода открытая reasoning-модель от Moonshot AI с архитектурой Mixture-of-Experts (1T параметров, 32B активных), способная выполнять 200–300 последовательных вызовов инструментов без деградации качества, при этом чередовать вызовы функций с цепочками рассуждений. Модель поддерживает контекст 256K токенов, оснащена нативной INT4-квантизацией, что способствует ускорению инференса практически без потери точности и использует механизм Multi-Head Latent Attention (MLA) для эффективной работы с длинными последовательностями. Kimi K2 Thinking устанавливает новые рекорды среди open-source моделей, а по целому ряду бенчмарков превосходит лучшие коммерческие проекты такие как GPT-5 и Claude Sonnet 4.5.

размышляющая
русскоязычная
04.11.2025

LongCat-Video

LongCat-Video — это базовая модель генерации видео с 13,6 миллиардами параметров, разработанная для выполнения задач: генерации видео по тексту (Text-to-Video), по изображению (Image-to-Video) и продолжения видео (Video-Continuation). Модель обеспечивает эффективную и качественную генерацию длительных видео (вплоть до нескольких минут) без дрейфа цвета или потери качества, что достигается за счет предобучения на задачах Video-Continuation.

24.10.2025

MiniMax-M2

Языковая модель, которая объединяет мощные способности к рассуждению (reasoning) с надежными навыками агента (agent), предназначенная для решения сложных, многошаговых задач в реальных динамических средах. Благодаря инновационному подходу к обучению с использованием высококачественных, разнообразных данных и "перемежающегося мышления", M2 эффективно сочетает высокую производительность на академических бенчмарках с исключительной устойчивостью и адаптивностью при работе с незнакомыми инструментами и сценариями

размышляющая
русскоязычная
22.10.2025

Qwen3-VL-2B-Thinking

Всего 2 миллиарда параметров, контекст 256К и возможность edge инференса. Это одна из самых маленьких visual reasoning-моделей, специализирующаяся на многоступенчатом рассуждении при визуальном анализе изображений и видео, то есть она почти буквально способна "думать, глядя на изображения". В отличие от Instruct-версии, эта модель генерирует развернутые цепочки мышления перед финальным ответом, что повышает точность, но сказывается на скорости работы.

размышляющая
мультимодальная
русскоязычная
22.10.2025

Qwen3-VL-2B-Instruct

Самая компактная модель из семейства мультимодальных Qwen3-VL. 2 миллиарда параметров, dense архитектура, оптимизирована для быстрых диалоговых систем и запуска на edge-устройствах. При этом модель сохраняет и поддерживает все передовые достижения серии: качественное понимание изображений, видео и текста, поддержку OCR на 32 языках, позиционирование объектов, тайминг и нативный контекст в 256K токенов.

мультимодальная
русскоязычная
22.10.2025

Qwen3-VL-32B-Instruct

Мощная мультимодальная модель с 32 миллиардами параметров и нативной поддержкой 256K контекста, обеспечивающая state-of-the-art качество мультимодального понимания. Модель превосходит на большинстве бенчмарков версию предыдущего поколения с 72B параметров, а также схожие по размеру решения GPT-5, Claude 4 и других разработчиков.

мультимодальная
русскоязычная
22.10.2025

Qwen3-VL-32B-Thinking

Reasoning-версия флагманской 32-миллиардной danse модели из семейства Qwen3-VL оптимизированная для многоэтапного мышления и решения сложнейших мультимодальных задач, требующих глубокого анализа и логических выводов на основе визуальной информации. Поддерживает нативный контекст 256K (с возможностью увеличения до 1М) и достигает state-of-the-art среди мультимодальных, рассуждающих моделей схожего размера.

размышляющая
мультимодальная
русскоязычная
22.10.2025

A-vision

Адаптированная под русский язык и специфику работы с объявлениями мультимодальная модель от Авито на базе Qwen2.5-VL-7B-Instruct с оптимизацией архитектуры. Модель обрабатывает русскоязычные запросы в 2 раза быстрее оригинала и значительно превосходит его в задачах генерации описаний для объявлений, сохраняя при этом универсальные способности работы с изображениями.

мультимодальная
русскоязычная
21.10.2025

A-vibe

Русскоязычная LLM от Авито на базе Qwen3-8B, с уникальным гибридным токенизатором, адаптированным под русские токены. Модель демонстрирует выдающиеся результаты на русскоязычных бенчмарках, особенно в математике и function calling, при этом благодаря оптимизированной архитектуре обрабатывает запросы на 15-25% быстрее оригинальной версии.

русскоязычная
20.10.2025

Krea Realtime 14B

Модель Krea Realtime 14B представляет собой дистилляцию модели Wan 2.1 14B (разработанной Wan-AI) для задач генерации видео на основе текста. Она была преобразована в автокорректирующуюся (autoregressive) модель с помощью метода Self-Forcing, что позволило достичь скорости инференса 11 кадров в секунду при использовании 4 шагов вывода на одном GPU NVIDIA B200. 

20.10.2025

DeepSeek-OCR

Инновационная VLM-модель для распознавания текста и парсинга документов, разработанная DeepSeek.ai в рамках исследований возможностей представления информации через визуальную модальность. Модель предлагает уникальный подход: вместо традиционных текстовых токенов, она использует визуальные токены для кодирования информации из документов,сжимая текст в 10–20 раз, при этом достигая точности OCR 97%.

мультимодальная
русскоязычная
20.10.2025

Qwen3-VL-4B-Thinking

Reasoning-оптимизированная версия 4B модели серии Qwen3-VL с контекстом 256К (и возможностью увеличения до 1М). Вывод ответа всегда задействует цепочки рассуждений, что позволяет решать непростые мультимодальные задачи, но сказывается на скорости. Демонстрирует производительность лишь немногим уступающую Qwen3-8B-VL при гораздо более скромных аппаратных требованиях.

размышляющая
мультимодальная
русскоязычная
15.10.2025