Kimi K2.5 построена на базе архитектуры Mixture-of-Experts (MoE) с 1 триллионом общих параметров, из которых активируется 32 миллиарда на токен, (384 эксперта с 8 активными на токен) что обеспечивает высокую разреженность и эффективность. Модель поддерживает нативную INT4-квантизацию (quantization‑aware training), позволяя экономить на оборудовании для инференса.
Первая ключевая особенность Kimi K2.5 — нативная мультимодальность. В отличие от многих моделей, где визуальный компонент добавляется на поздних этапах обучения, в Kimi K2.5 обучалась на ~15 трлн смешанных визуальных и текстовых токенов с самого начала предобучения с фиксированным соотношением токенов (например, 10% визуальных, 90% текстовых), что приводит к лучшей взаимной адаптации модальностей и предотвращает конфликт между ними. Для обработки визуальных данных используется трёхмерный визуальный энкодер MoonViT-3D, способный обрабатывать изображения и видео в едином пространстве признаков. Coding with Vision: еще одна особенность K2.5 — способность генерировать код из визуальных спецификаций: UI-дизайнов, видео-воркфлоу, скриншотов и диаграмм. Эта возможность особенно востребована во фронтенд-разработке: K2.5 превращает описания идей и визуальные референсы в полноценные интерактивные интерфейсы. Но главная инновация — фреймворк Agent Swarm («Рой агентов») для параллельной агентной оркестрации, он позволяет Kimi K2.5 самостоятельно декомпозировать сложные задачи, создавать оркестратора и запускать до 100 параллельных субагентов без предопределённых ролей или ручных workflow, которым поручать отдельные задачи. Эта возможность снижает время работы в среднем 3–4.5 раза при этом качество ответа существенно улучшается. Для обеспечения действительно эффективного распараллеливания на этапе обучения использовалась метрика Critical Steps (аналог критического пути в графе вычислений), которая позволила реализовывать оркестрацию и распределение задач субагентам только тогда, когда это действительно ускоряет и улучшает решение задачи.
По результатам бенчмарков модель демонстрирует лидерство в мультимодальных и агентных сценариях: 1-е место на LongVideoBench (79.8%) и LVBench (75.9%) для анализа экстремально длинных видео (более 2000 кадров), 92.3% на OCRBench (распознавание текста в сложных макетах), 86.6% на VideoMMMU (междисциплинарное понимание видео). В агентных задачах с использованием Agent Swarm модель достигает 78.4% на BrowseComp (сложные исследовательские задачи), обгоняя даже GPT-5.2 Pro (77.9%). На инженерных задачах — 76.8% на SWE-Bench Verified (решение реальных GitHub-проблем) и 63.3% на OSWorld-Verified (автоматизация действий в графическом интерфейсе без внешних инструментов).
Сценарии использования модели охватывают: анализ многочасового видео-контента; параллельные исследовательские задачи — одновременный анализ сотен документов или источников в интернете; генерация кода из визуальных макетов (скриншотов интерфейсов в рабочий HTML/React); автоматизация работы с компьютером через GUI (навигация по ОС, заполнение форм); мультимодальный анализ финансовых отчётов, научных статей с графиками и диаграммами. Уникальность K2.5 заключается в синергии нативной мультимодальности и параллельной агентной архитектуры, что позволяет решать задачи, недоступные последовательным агентам из-за линейного роста времени выполнения.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
8 | 1 677,58 ₽ | 6,56 | Запустить | ||
262 144 tensor |
4 | 1 719,14 ₽ | 3,15 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
8 | 3 341,41 ₽ | 3,72 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.