Kimi K2.6 флагманская модель от Moonshot AI базируется на разреженной архитектуре Mixture-of-Experts (MoE) с 1 триллионом общих параметров, из которых на каждый токен активируется лишь 32 миллиарда. Модель содержит 61 слой (включая один плотный), 384 эксперта (8 маршрутизируемых и 1 общий на токен) и 64 головы внимания. Как и в предыдущих версиях модель использует Multi-head Latent Attention (MLA), который сжимает кэш ключ-значение в низкоранговое латентное пространство, радикально снижая потребление памяти на длинных контекстах (до 262 144 токенов). Для стабилизации обучения на триллионных масштабах применён оптимизатор MuonClip, а встроенный 400M-параметровый визуальный энкодер MoonViT обеспечивает нативное восприятие изображений и видео без внешних модулей.
K2.6 использует обучение с учётом квантизации (Quantization-Aware Training, QAT) непосредственно в процессе пост-тренировки благодаря этому модель оптимизирована под 4-битное формат весов и именно в этом формате представлена разработчиками. Официально поддерживаются фреймворки vLLM, SGLang и KTransformers. Модель предоставляет два режима работы. Thinking Mode — это полный цикл цепочки рассуждений (Chain-of-Thought) с рекомендованной температурой 1.0, предназначенный для сложных многошаговых задач. Instant Mode обеспечивает быстрые детериминированные ответы (температура 0.6, top-p 0.95) для интерактивных сценариев. Способность к «перемежающемуся мышлению» (Interleaved Thinking) позволяет модели рассуждать между вызовами инструментов, а не строить единый монолитный план в начале, — именно это обеспечивает эффективность на рабочих процессах, охватывающих тысячи шагов. А опция preserve_thinking позволяет сохранять полные «следы рассуждений» между последовательными вызовами инструментов, что критически важно для длительных сессий в программировании и агентных сценариях.
Таким образом K2.6 развивает те же архитектурные принципы, что и K2.5, но привносит масштабные апгрейды: качественный скачок в долгосрочном программировании (long-horizon coding), рой агентов (Agent Swarm) масштабирован со 100 до 300 суб-агентов, а количество координируемых шагов — с 1 500 до 4 000. Эти улучшения позволили K2.6 войти в число ведущих открытых моделей и на равных конкурировать с топовыми закрытыми системами. На Humanity's Last Exam (HLE-Full) с инструментами модель набирает 54.0, опережая GPT-5.4 (52.1), Claude Opus 4.6 (53.0) и Gemini 3.1 Pro (51.4). На SWE-Bench Pro, измеряющем возможности в области программной инженерии, K2.6 достигает 58.6, превосходя GPT-5.4 (57.7), Claude Opus 4.6 (53.4) и Gemini 3.1 Pro (54.2). На DeepSearchQA, оценивающем глубокий агентный поиск, модель набирает 92.5 (F1), значительно опережая GPT-5.4 (78.6) и Gemini 3.1 Pro (81.9). В тесте BrowseComp с роем агентов результат 86.3 против 78.4 у K2.5. На LiveCodeBench v6 — 89.6, что на уровне лучших закрытых аналогов.
K2.6 создана для профессиональной программной инженерии и автономных агентных систем: модель способна непрерывно решать сложные задачи более 12 часов с тысячами инструментальных вызовов (оптимизация, DevOps, рефакторинг, кроссплатформенная разработка); по текстовым описаниям и макетам генерирует готовые к развёртыванию веб-интерфейсы с полноценной бэкенд-логикой и аутентификацией; с помощью оркестрации роя суб-агентов реализует параллельный сбор информации, исследования, анализ со сборкой итоговых результатов в требуемой форме; и многое другое.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
1 | 105,57 ₽ | -30,98 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | -14,94 | Запустить | ||
262 144 |
1 | 150,57 ₽ | -30,56 | Запустить | ||
262 144 tensor |
4 | 156,24 ₽ | -6,92 | Запустить | ||
262 144 |
1 | 211,77 ₽ | -28,06 | Запустить | ||
262 144 tensor |
4 | 269,04 ₽ | -6,92 | Запустить | ||
262 144 |
1 | 341,77 ₽ | -28,06 | Запустить | ||
262 144 |
1 | 367,41 ₽ | -27,33 | Запустить | ||
262 144 tensor |
2 | 439,97 ₽ | -12,02 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | -8,84 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | -0,82 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
1 | 105,57 ₽ | -54,47 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | -26,68 | Запустить | ||
262 144 |
1 | 150,57 ₽ | -54,06 | Запустить | ||
262 144 tensor |
4 | 156,24 ₽ | -12,79 | Запустить | ||
262 144 |
1 | 211,77 ₽ | -51,55 | Запустить | ||
262 144 tensor |
4 | 269,04 ₽ | -12,79 | Запустить | ||
262 144 |
1 | 341,77 ₽ | -51,55 | Запустить | ||
262 144 |
1 | 367,41 ₽ | -50,83 | Запустить | ||
262 144 tensor |
2 | 439,97 ₽ | -23,77 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | -20,59 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | -6,69 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
1 | 105,57 ₽ | -109,61 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | -54,25 | Запустить | ||
262 144 |
1 | 150,57 ₽ | -109,20 | Запустить | ||
262 144 tensor |
4 | 156,24 ₽ | -26,57 | Запустить | ||
262 144 |
1 | 211,77 ₽ | -106,70 | Запустить | ||
262 144 tensor |
4 | 269,04 ₽ | -26,57 | Запустить | ||
262 144 |
1 | 341,77 ₽ | -106,70 | Запустить | ||
262 144 |
1 | 367,41 ₽ | -105,97 | Запустить | ||
262 144 tensor |
2 | 439,97 ₽ | -51,34 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | -48,16 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | -20,48 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.