Kimi-K2.6

размышляющая
мультимодальная
русскоязычная
для кодинга

Kimi K2.6 флагманская модель от Moonshot AI базируется на разреженной архитектуре Mixture-of-Experts (MoE) с 1 триллионом общих параметров, из которых на каждый токен активируется лишь 32 миллиарда. Модель содержит 61 слой (включая один плотный), 384 эксперта (8 маршрутизируемых и 1 общий на токен) и 64 головы внимания. Как и в предыдущих версиях модель использует Multi-head Latent Attention (MLA), который сжимает кэш ключ-значение в низкоранговое латентное пространство, радикально снижая потребление памяти на длинных контекстах (до 262 144 токенов). Для стабилизации обучения на триллионных масштабах применён оптимизатор MuonClip, а встроенный 400M-параметровый визуальный энкодер MoonViT обеспечивает нативное восприятие изображений и видео без внешних модулей.

K2.6 использует обучение с учётом квантизации (Quantization-Aware Training, QAT) непосредственно в процессе пост-тренировки благодаря этому модель оптимизирована под 4-битное формат весов и именно в этом формате представлена разработчиками. Официально поддерживаются фреймворки vLLM, SGLang и KTransformers. Модель предоставляет два режима работы. Thinking Mode — это полный цикл цепочки рассуждений (Chain-of-Thought) с рекомендованной температурой 1.0, предназначенный для сложных многошаговых задач. Instant Mode обеспечивает быстрые детериминированные ответы (температура 0.6, top-p 0.95) для интерактивных сценариев. Способность к «перемежающемуся мышлению» (Interleaved Thinking) позволяет модели рассуждать между вызовами инструментов, а не строить единый монолитный план в начале, — именно это обеспечивает эффективность на рабочих процессах, охватывающих тысячи шагов. А опция preserve_thinking позволяет сохранять полные «следы рассуждений» между последовательными вызовами инструментов, что критически важно для длительных сессий в программировании и агентных сценариях.

Таким образом K2.6 развивает те же архитектурные принципы, что и K2.5, но привносит масштабные апгрейды: качественный скачок в долгосрочном программировании (long-horizon coding), рой агентов (Agent Swarm) масштабирован со 100 до 300 суб-агентов, а количество координируемых шагов — с 1 500 до 4 000. Эти улучшения позволили K2.6 войти в число ведущих открытых моделей и на равных конкурировать с топовыми закрытыми системами. На Humanity's Last Exam (HLE-Full) с инструментами модель набирает 54.0, опережая GPT-5.4 (52.1), Claude Opus 4.6 (53.0) и Gemini 3.1 Pro (51.4). На SWE-Bench Pro, измеряющем возможности в области программной инженерии, K2.6 достигает 58.6, превосходя GPT-5.4 (57.7), Claude Opus 4.6 (53.4) и Gemini 3.1 Pro (54.2). На DeepSearchQA, оценивающем глубокий агентный поиск, модель набирает 92.5 (F1), значительно опережая GPT-5.4 (78.6) и Gemini 3.1 Pro (81.9). В тесте BrowseComp с роем агентов результат 86.3 против 78.4 у K2.5. На LiveCodeBench v6 — 89.6, что на уровне лучших закрытых аналогов.

K2.6 создана для профессиональной программной инженерии и автономных агентных систем: модель способна непрерывно решать сложные задачи более 12 часов с тысячами инструментальных вызовов (оптимизация, DevOps, рефакторинг, кроссплатформенная разработка); по текстовым описаниям и макетам генерирует готовые к развёртыванию веб-интерфейсы с полноценной бэкенд-логикой и аутентификацией; с помощью оркестрации роя суб-агентов реализует параллельный сбор информации, исследования, анализ со сборкой итоговых результатов в требуемой форме; и многое другое.


Дата анонса: 14.04.2026
Параметров: 2T
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Разработчик: Moonshot AI
Версия Transformers: 4.56.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2.6. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.6

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.960
262 144
pipeline
6 2 535,78 ₽ 1,85 Запустить
h200-8.52.1024.960
262 144
tensor
8 3 338,30 ₽ 3,19 Запустить
h200-8.52.1024.960.nvlink
262 144
tensor
8 3 338,30 ₽ 3,19 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.