Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

Kimi-K2.6

размышляющая

мультимодальная

русскоязычная

для кодинга

Kimi K2.6 флагманская модель от Moonshot AI базируется на разреженной архитектуре Mixture-of-Experts (MoE) с 1 триллионом общих параметров, из которых на каждый токен активируется лишь 32 миллиарда. Модель содержит 61 слой (включая один плотный), 384 эксперта (8 маршрутизируемых и 1 общий на токен) и 64 головы внимания. Как и в предыдущих версиях модель использует Multi-head Latent Attention (MLA), который сжимает кэш ключ-значение в низкоранговое латентное пространство, радикально снижая потребление памяти на длинных контекстах (до 262 144 токенов). Для стабилизации обучения на триллионных масштабах применён оптимизатор MuonClip, а встроенный 400M-параметровый визуальный энкодер MoonViT обеспечивает нативное восприятие изображений и видео без внешних модулей.

K2.6 использует обучение с учётом квантизации (Quantization-Aware Training, QAT) непосредственно в процессе пост-тренировки благодаря этому модель оптимизирована под 4-битное формат весов и именно в этом формате представлена разработчиками. Официально поддерживаются фреймворки vLLM, SGLang и KTransformers. Модель предоставляет два режима работы. Thinking Mode — это полный цикл цепочки рассуждений (Chain-of-Thought) с рекомендованной температурой 1.0, предназначенный для сложных многошаговых задач. Instant Mode обеспечивает быстрые детериминированные ответы (температура 0.6, top-p 0.95) для интерактивных сценариев. Способность к «перемежающемуся мышлению» (Interleaved Thinking) позволяет модели рассуждать между вызовами инструментов, а не строить единый монолитный план в начале, — именно это обеспечивает эффективность на рабочих процессах, охватывающих тысячи шагов. А опция preserve_thinking позволяет сохранять полные «следы рассуждений» между последовательными вызовами инструментов, что критически важно для длительных сессий в программировании и агентных сценариях.

Таким образом K2.6 развивает те же архитектурные принципы, что и K2.5, но привносит масштабные апгрейды: качественный скачок в долгосрочном программировании (long-horizon coding), рой агентов (Agent Swarm) масштабирован со 100 до 300 суб-агентов, а количество координируемых шагов — с 1 500 до 4 000. Эти улучшения позволили K2.6 войти в число ведущих открытых моделей и на равных конкурировать с топовыми закрытыми системами. На Humanity's Last Exam (HLE-Full) с инструментами модель набирает 54.0, опережая GPT-5.4 (52.1), Claude Opus 4.6 (53.0) и Gemini 3.1 Pro (51.4). На SWE-Bench Pro, измеряющем возможности в области программной инженерии, K2.6 достигает 58.6, превосходя GPT-5.4 (57.7), Claude Opus 4.6 (53.4) и Gemini 3.1 Pro (54.2). На DeepSearchQA, оценивающем глубокий агентный поиск, модель набирает 92.5 (F1), значительно опережая GPT-5.4 (78.6) и Gemini 3.1 Pro (81.9). В тесте BrowseComp с роем агентов результат 86.3 против 78.4 у K2.5. На LiveCodeBench v6 — 89.6, что на уровне лучших закрытых аналогов.

K2.6 создана для профессиональной программной инженерии и автономных агентных систем: модель способна непрерывно решать сложные задачи более 12 часов с тысячами инструментальных вызовов (оптимизация, DevOps, рефакторинг, кроссплатформенная разработка); по текстовым описаниям и макетам генерирует готовые к развёртыванию веб-интерфейсы с полноценной бэкенд-логикой и аутентификацией; с помощью оркестрации роя суб-агентов реализует параллельный сбор информации, исследования, анализ со сборкой итоговых результатов в требуемой форме; и многое другое.

Дата анонса: 14.04.2026
Параметров: 2T
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Разработчик: Moonshot AI
Версия Transformers: 4.56.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2.6. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.6

Цены:

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
rtx4090-1.32.64.160 262 144	1	105,57 ₽	76 010,40 ₽	-30,98	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	2	109,77 ₽	79 034,40 ₽	-14,94	Запустить
rtx5090-1.32.64.160 262 144	1	150,57 ₽	108 410,40 ₽	-30,56	Запустить
teslaa10-4.16.128.160 262 144 tensor	4	156,24 ₽	112 492,80 ₽	-6,92	Запустить
teslaa100-1.16.64.160 262 144	1	211,77 ₽	152 474,40 ₽	-28,06	Запустить
rtx3090-4.16.128.160 262 144 tensor	4	269,04 ₽	193 708,80 ₽	-6,92	Запустить
h100-1.16.64.160 262 144	1	341,77 ₽	246 074,40 ₽	-28,06	Запустить
h100nvl-1.16.96.160 262 144	1	367,41 ₽	264 535,20 ₽	-27,33	Запустить
teslaa100-2.24.256.160.nvlink 262 144 tensor	2	439,97 ₽	316 778,40 ₽	-12,02	Запустить
h200-2.24.256.160.nvlink 262 144 tensor	2	839,97 ₽	604 778,40 ₽	-8,84	Запустить
h200-4.32.768.480 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	-0,82	Запустить

Цены:

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
rtx4090-1.32.64.160 262 144	1	105,57 ₽	76 010,40 ₽	-54,47	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	2	109,77 ₽	79 034,40 ₽	-26,68	Запустить
rtx5090-1.32.64.160 262 144	1	150,57 ₽	108 410,40 ₽	-54,06	Запустить
teslaa10-4.16.128.160 262 144 tensor	4	156,24 ₽	112 492,80 ₽	-12,79	Запустить
teslaa100-1.16.64.160 262 144	1	211,77 ₽	152 474,40 ₽	-51,55	Запустить
rtx3090-4.16.128.160 262 144 tensor	4	269,04 ₽	193 708,80 ₽	-12,79	Запустить
h100-1.16.64.160 262 144	1	341,77 ₽	246 074,40 ₽	-51,55	Запустить
h100nvl-1.16.96.160 262 144	1	367,41 ₽	264 535,20 ₽	-50,83	Запустить
teslaa100-2.24.256.160.nvlink 262 144 tensor	2	439,97 ₽	316 778,40 ₽	-23,77	Запустить
h200-2.24.256.160.nvlink 262 144 tensor	2	839,97 ₽	604 778,40 ₽	-20,59	Запустить
h200-4.32.768.480 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	-6,69	Запустить

Цены:

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
rtx4090-1.32.64.160 262 144	1	105,57 ₽	76 010,40 ₽	-109,61	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	2	109,77 ₽	79 034,40 ₽	-54,25	Запустить
rtx5090-1.32.64.160 262 144	1	150,57 ₽	108 410,40 ₽	-109,20	Запустить
teslaa10-4.16.128.160 262 144 tensor	4	156,24 ₽	112 492,80 ₽	-26,57	Запустить
teslaa100-1.16.64.160 262 144	1	211,77 ₽	152 474,40 ₽	-106,70	Запустить
rtx3090-4.16.128.160 262 144 tensor	4	269,04 ₽	193 708,80 ₽	-26,57	Запустить
h100-1.16.64.160 262 144	1	341,77 ₽	246 074,40 ₽	-106,70	Запустить
h100nvl-1.16.96.160 262 144	1	367,41 ₽	264 535,20 ₽	-105,97	Запустить
teslaa100-2.24.256.160.nvlink 262 144 tensor	2	439,97 ₽	316 778,40 ₽	-51,34	Запустить
h200-2.24.256.160.nvlink 262 144 tensor	2	839,97 ₽	604 778,40 ₽	-48,16	Запустить
h200-4.32.768.480 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	-20,48	Запустить

Связанные модели

Kimi-K2-Instruct

Kimi-K2-Instruct-0905

Kimi-K2-Thinking

Kimi-K2.5

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

Kimi-K2.6

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.6

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?