Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

LongCat-Flash-Chat

русскоязычная

LongCat-Flash-Chat — это первая открытая языковая модель, разработанная компанией Meituan. Модель с архитектурой Mixture-of-Experts (MoE) имеет 560 миллиардов общих параметров и варьируемым количеством активируемых параметров(в среднем 27 миллиардов). Базовая архитектура состоит из всего из 28 слоев, что необычно для моделей такого размера.Модель демонстрирует уникальный подход к эффективному использованию вычислительных ресурсов: благодаря механизму Zero-computation Experts она динамически активирует от 18.6 до 31.3 миллиардов параметров на токен в зависимости от контекстной сложности, что значительно оптимизирует как обучение, так и инференс. Архитектурные инновации включают Shortcut-connected MoE (ScMoE) для расширения окна перекрытия вычислений и коммуникаций, а также модифицированный Multi-head Latent Attention (MLA) с факторами масштабной коррекции для стабильного масштабирования

На бенчмарках LongCat-Flash-Chat демонстрирует отличные результаты, успешно конкурируя со известными проприетарными и открытыми моделями. На наборе Arena Hard, тестирующем сложные рассуждения и следование инструкциям, LongCat-Flash-Chat занимает лидирующие позиции, обгоняя такие модели, как DeepSeek-V3.1 и Kimi-K2 Base. На IFEval (бенчмарк следования инструкциям) модель установила рекорд с результатом 89.65, опередив все существующие на момент релиза решения включая флагманские модели от OpenAI и Anthropic. Но наиболее интересно модель смотрится в сегменте Agentic Tool Use где она лидирует практически по всем бенчмаркам

Модель не маленькая и потребует затрат на инфраструктуру, но она хорошо адаптированная для инференса, быстрая и экономичная. LongCat-Flash-Chat идеально подходит для глубокого анализа документов с выполнением сложных инструкций, диалоговых ассистентов и конечно же для агентных системы (AI Agents). Последнее разработчики подчеркивают особо, и отмечают силу модели в задачах, требующих планирования, рассуждений, вызова инструментов, что делает ее мощным движком для автономных агентов.

Дата анонса: 29.08.2025
Параметров: 562B
Экспертов: 512
Активно параметров при инференсе: 27B
Контекст: 132K
Слоев: 28
Тип внимания: Multi-head Latent Attention
Разработчик: Meituan-longcat
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с LongCat-Flash-Chat. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-4.32.384.480.nvlink 131 072 tensor	4	850,00 ₽	612 000,00 ₽	4,14	Запустить
h200-3.32.512.480 131 072 pipeline	3	1 282,53 ₽	923 421,60 ₽	28,32	Запустить
h100-4.44.512.480 131 072 tensor	4	1 399,13 ₽	1 007 373,60 ₽	4,14	Запустить
h100nvl-4.32.384.480 131 072 tensor	4	1 450,00 ₽	1 044 000,00 ₽	16,94	Запустить
h200-4.32.768.480 131 072 tensor	4	1 717,59 ₽	1 236 664,80 ₽	59,91	Запустить

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-8.52.1024.960 131 072 tensor	8		3 338,30 ₽	2 403 576,00 ₽		62,81	Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

LongCat-Flash-Chat

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга LongCat-Flash-Chat

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?