Kimi-K2.6

размышляющая
мультимодальная
русскоязычная
для кодинга

Kimi K2.6 флагманская модель от Moonshot AI базируется на разреженной архитектуре Mixture-of-Experts (MoE) с 1 триллионом общих параметров, из которых на каждый токен активируется лишь 32 миллиарда. Модель содержит 61 слой (включая один плотный), 384 эксперта (8 маршрутизируемых и 1 общий на токен) и 64 головы внимания. Как и в предыдущих версиях модель использует Multi-head Latent Attention (MLA), который сжимает кэш ключ-значение в низкоранговое латентное пространство, радикально снижая потребление памяти на длинных контекстах (до 262 144 токенов). Для стабилизации обучения на триллионных масштабах применён оптимизатор MuonClip, а встроенный 400M-параметровый визуальный энкодер MoonViT обеспечивает нативное восприятие изображений и видео без внешних модулей.

K2.6 использует обучение с учётом квантизации (Quantization-Aware Training, QAT) непосредственно в процессе пост-тренировки благодаря этому модель оптимизирована под 4-битное формат весов и именно в этом формате представлена разработчиками. Официально поддерживаются фреймворки vLLM, SGLang и KTransformers. Модель предоставляет два режима работы. Thinking Mode — это полный цикл цепочки рассуждений (Chain-of-Thought) с рекомендованной температурой 1.0, предназначенный для сложных многошаговых задач. Instant Mode обеспечивает быстрые детериминированные ответы (температура 0.6, top-p 0.95) для интерактивных сценариев. Способность к «перемежающемуся мышлению» (Interleaved Thinking) позволяет модели рассуждать между вызовами инструментов, а не строить единый монолитный план в начале, — именно это обеспечивает эффективность на рабочих процессах, охватывающих тысячи шагов. А опция preserve_thinking позволяет сохранять полные «следы рассуждений» между последовательными вызовами инструментов, что критически важно для длительных сессий в программировании и агентных сценариях.

Таким образом K2.6 развивает те же архитектурные принципы, что и K2.5, но привносит масштабные апгрейды: качественный скачок в долгосрочном программировании (long-horizon coding), рой агентов (Agent Swarm) масштабирован со 100 до 300 суб-агентов, а количество координируемых шагов — с 1 500 до 4 000. Эти улучшения позволили K2.6 войти в число ведущих открытых моделей и на равных конкурировать с топовыми закрытыми системами. На Humanity's Last Exam (HLE-Full) с инструментами модель набирает 54.0, опережая GPT-5.4 (52.1), Claude Opus 4.6 (53.0) и Gemini 3.1 Pro (51.4). На SWE-Bench Pro, измеряющем возможности в области программной инженерии, K2.6 достигает 58.6, превосходя GPT-5.4 (57.7), Claude Opus 4.6 (53.4) и Gemini 3.1 Pro (54.2). На DeepSearchQA, оценивающем глубокий агентный поиск, модель набирает 92.5 (F1), значительно опережая GPT-5.4 (78.6) и Gemini 3.1 Pro (81.9). В тесте BrowseComp с роем агентов результат 86.3 против 78.4 у K2.5. На LiveCodeBench v6 — 89.6, что на уровне лучших закрытых аналогов.

K2.6 создана для профессиональной программной инженерии и автономных агентных систем: модель способна непрерывно решать сложные задачи более 12 часов с тысячами инструментальных вызовов (оптимизация, DevOps, рефакторинг, кроссплатформенная разработка); по текстовым описаниям и макетам генерирует готовые к развёртыванию веб-интерфейсы с полноценной бэкенд-логикой и аутентификацией; с помощью оркестрации роя суб-агентов реализует параллельный сбор информации, исследования, анализ со сборкой итоговых результатов в требуемой форме; и многое другое.


Дата анонса: 14.04.2026
Параметров: 2T
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Разработчик: Moonshot AI
Версия Transformers: 4.56.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2.6. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.6

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
rtx4090-1.32.64.160
262 144
1 105,57 ₽ -30,98 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ -14,94 Запустить
rtx5090-1.32.64.160
262 144
1 150,57 ₽ -30,56 Запустить
teslaa10-4.16.128.160
262 144
tensor
4 156,24 ₽ -6,92 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ -28,06 Запустить
rtx3090-4.16.128.160
262 144
tensor
4 269,04 ₽ -6,92 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ -28,06 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ -27,33 Запустить
teslaa100-2.24.256.160.nvlink
262 144
tensor
2 439,97 ₽ -12,02 Запустить
h200-2.24.256.160.nvlink
262 144
tensor
2 839,97 ₽ -8,84 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ -0,82 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
rtx4090-1.32.64.160
262 144
1 105,57 ₽ -54,47 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ -26,68 Запустить
rtx5090-1.32.64.160
262 144
1 150,57 ₽ -54,06 Запустить
teslaa10-4.16.128.160
262 144
tensor
4 156,24 ₽ -12,79 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ -51,55 Запустить
rtx3090-4.16.128.160
262 144
tensor
4 269,04 ₽ -12,79 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ -51,55 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ -50,83 Запустить
teslaa100-2.24.256.160.nvlink
262 144
tensor
2 439,97 ₽ -23,77 Запустить
h200-2.24.256.160.nvlink
262 144
tensor
2 839,97 ₽ -20,59 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ -6,69 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
rtx4090-1.32.64.160
262 144
1 105,57 ₽ -109,61 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ -54,25 Запустить
rtx5090-1.32.64.160
262 144
1 150,57 ₽ -109,20 Запустить
teslaa10-4.16.128.160
262 144
tensor
4 156,24 ₽ -26,57 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ -106,70 Запустить
rtx3090-4.16.128.160
262 144
tensor
4 269,04 ₽ -26,57 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ -106,70 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ -105,97 Запустить
teslaa100-2.24.256.160.nvlink
262 144
tensor
2 439,97 ₽ -51,34 Запустить
h200-2.24.256.160.nvlink
262 144
tensor
2 839,97 ₽ -48,16 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ -20,48 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.