LongCat-Flash-Chat

русскоязычная

LongCat-Flash-Chat — это первая открытая языковая модель, разработанная компанией Meituan. Модель с архитектурой Mixture-of-Experts (MoE) имеет 560 миллиардов общих параметров и варьируемым количеством активируемых параметров(в среднем 27 миллиардов). Базовая архитектура состоит из всего из 28 слоев, что необычно для моделей такого размера.Модель демонстрирует уникальный подход к эффективному использованию вычислительных ресурсов: благодаря механизму Zero-computation Experts она динамически активирует от 18.6 до 31.3 миллиардов параметров на токен в зависимости от контекстной сложности, что значительно оптимизирует как обучение, так и инференс. Архитектурные инновации включают Shortcut-connected MoE (ScMoE) для расширения окна перекрытия вычислений и коммуникаций, а также модифицированный Multi-head Latent Attention (MLA) с факторами масштабной коррекции для стабильного масштабирования

На бенчмарках LongCat-Flash-Chat демонстрирует отличные результаты, успешно конкурируя со известными проприетарными и открытыми моделями. На наборе Arena Hard, тестирующем сложные рассуждения и следование инструкциям, LongCat-Flash-Chat занимает лидирующие позиции, обгоняя такие модели, как DeepSeek-V3.1 и Kimi-K2 Base. На IFEval (бенчмарк следования инструкциям) модель установила рекорд с результатом 89.65, опередив все существующие на момент релиза решения включая флагманские модели от OpenAI и Anthropic. Но наиболее интересно модель смотрится в сегменте Agentic Tool Use где она лидирует практически по всем бенчмаркам

Модель не маленькая и потребует затрат на инфраструктуру, но она хорошо адаптированная для инференса, быстрая и экономичная. LongCat-Flash-Chat идеально подходит для глубокого анализа документов с выполнением сложных инструкций, диалоговых ассистентов и конечно же для агентных системы (AI Agents). Последнее разработчики подчеркивают особо, и отмечают силу модели в задачах, требующих планирования, рассуждений, вызова инструментов, что делает ее мощным движком для автономных агентов.


Дата анонса: 29.08.2025
Параметров: 562B
Экспертов: 512
Активно параметров при инференсе: 27B
Контекст: 131K
Слоев: 28
Тип внимания: Multi-head Latent Attention
Разработчик: Meituan-longcat
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с LongCat-Flash-Chat. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга LongCat-Flash-Chat

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.32.384.480.nvlink
131 072
tensor
32 393216 480 4 850,00 ₽ Запустить
h200-3.32.512.480
131 072
pipeline
32 524288 480 3 1 282,53 ₽ Запустить
h100-4.44.512.480
131 072
tensor
44 524288 480 4 1 399,13 ₽ Запустить
h100nvl-4.32.384.480
131 072
tensor
32 393216 480 4 1 450,00 ₽ Запустить
h200-4.32.768.480
131 072
tensor
32 786432 480 4 1 717,59 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-8.52.1024.960
131 072
tensor
52 1048576 960 8 3 338,30 ₽ Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.