LongCat-Flash-Chat — это первая открытая языковая модель, разработанная компанией Meituan. Модель с архитектурой Mixture-of-Experts (MoE) имеет 560 миллиардов общих параметров и варьируемым количеством активируемых параметров(в среднем 27 миллиардов). Базовая архитектура состоит из всего из 28 слоев, что необычно для моделей такого размера.Модель демонстрирует уникальный подход к эффективному использованию вычислительных ресурсов: благодаря механизму Zero-computation Experts она динамически активирует от 18.6 до 31.3 миллиардов параметров на токен в зависимости от контекстной сложности, что значительно оптимизирует как обучение, так и инференс. Архитектурные инновации включают Shortcut-connected MoE (ScMoE) для расширения окна перекрытия вычислений и коммуникаций, а также модифицированный Multi-head Latent Attention (MLA) с факторами масштабной коррекции для стабильного масштабирования
На бенчмарках LongCat-Flash-Chat демонстрирует отличные результаты, успешно конкурируя со известными проприетарными и открытыми моделями. На наборе Arena Hard, тестирующем сложные рассуждения и следование инструкциям, LongCat-Flash-Chat занимает лидирующие позиции, обгоняя такие модели, как DeepSeek-V3.1 и Kimi-K2 Base. На IFEval (бенчмарк следования инструкциям) модель установила рекорд с результатом 89.65, опередив все существующие на момент релиза решения включая флагманские модели от OpenAI и Anthropic. Но наиболее интересно модель смотрится в сегменте Agentic Tool Use где она лидирует практически по всем бенчмаркам
Модель не маленькая и потребует затрат на инфраструктуру, но она хорошо адаптированная для инференса, быстрая и экономичная. LongCat-Flash-Chat идеально подходит для глубокого анализа документов с выполнением сложных инструкций, диалоговых ассистентов и конечно же для агентных системы (AI Agents). Последнее разработчики подчеркивают особо, и отмечают силу модели в задачах, требующих планирования, рассуждений, вызова инструментов, что делает ее мощным движком для автономных агентов.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 tensor |
32 | 393216 | 480 | 4 | 850,00 ₽ | Запустить | |
131 072 pipeline |
32 | 524288 | 480 | 3 | 1 282,53 ₽ | Запустить | |
131 072 tensor |
44 | 524288 | 480 | 4 | 1 399,13 ₽ | Запустить | |
131 072 tensor |
32 | 393216 | 480 | 4 | 1 450,00 ₽ | Запустить | |
131 072 tensor |
32 | 786432 | 480 | 4 | 1 717,59 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 tensor |
52 | 1048576 | 960 | 8 | 3 338,30 ₽ | Запустить | |
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.