LongCat-Flash-Chat — это первая открытая языковая модель, разработанная компанией Meituan. Модель с архитектурой Mixture-of-Experts (MoE) имеет 560 миллиардов общих параметров и варьируемым количеством активируемых параметров(в среднем 27 миллиардов). Базовая архитектура состоит из всего из 28 слоев, что необычно для моделей такого размера.Модель демонстрирует уникальный подход к эффективному использованию вычислительных ресурсов: благодаря механизму Zero-computation Experts она динамически активирует от 18.6 до 31.3 миллиардов параметров на токен в зависимости от контекстной сложности, что значительно оптимизирует как обучение, так и инференс. Архитектурные инновации включают Shortcut-connected MoE (ScMoE) для расширения окна перекрытия вычислений и коммуникаций, а также модифицированный Multi-head Latent Attention (MLA) с факторами масштабной коррекции для стабильного масштабирования
На бенчмарках LongCat-Flash-Chat демонстрирует отличные результаты, успешно конкурируя со известными проприетарными и открытыми моделями. На наборе Arena Hard, тестирующем сложные рассуждения и следование инструкциям, LongCat-Flash-Chat занимает лидирующие позиции, обгоняя такие модели, как DeepSeek-V3.1 и Kimi-K2 Base. На IFEval (бенчмарк следования инструкциям) модель установила рекорд с результатом 89.65, опередив все существующие на момент релиза решения включая флагманские модели от OpenAI и Anthropic. Но наиболее интересно модель смотрится в сегменте Agentic Tool Use где она лидирует практически по всем бенчмаркам
Модель не маленькая и потребует затрат на инфраструктуру, но она хорошо адаптированная для инференса, быстрая и экономичная. LongCat-Flash-Chat идеально подходит для глубокого анализа документов с выполнением сложных инструкций, диалоговых ассистентов и конечно же для агентных системы (AI Agents). Последнее разработчики подчеркивают особо, и отмечают силу модели в задачах, требующих планирования, рассуждений, вызова инструментов, что делает ее мощным движком для автономных агентов.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 tensor |
4 | 850,00 ₽ | 4,14 | Запустить | ||
131 072 pipeline |
3 | 1 282,53 ₽ | 28,32 | Запустить | ||
131 072 tensor |
4 | 1 399,13 ₽ | 4,14 | Запустить | ||
131 072 tensor |
4 | 1 450,00 ₽ | 16,94 | Запустить | ||
131 072 tensor |
4 | 1 717,59 ₽ | 59,91 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 tensor |
8 | 3 338,30 ₽ | 62,81 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.