Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

Kimi-K2.7-Code

размышляющая

мультимодальная

русскоязычная

для кодинга

Kimi-K2.7-Code — это модель с открытыми весами под лицензией Modified MIT, выпущенная Moonshot AI и специально оптимизированная под агентную работу с кодом в формате long-horizon coding tasks — многошаговых сценариев программной инженерии, где задача не решается одним проходом.

Архитектурно Kimi-K2.7-Code — это Mixture-of-Experts с 1 трлн параметров, из которых на каждый токен активируются 32 млрд. Модель состоит из 61 слоя (один плотный и 60 MoE-слоёв), использует 384 эксперта с выбором 8 на токен и одним общим shared-экспертом. В качестве механизма внимания применяется Multi-head Latent Attention (MLA) — та же схема, что во всей линейке Kimi K2: она сжимает KV-кэш в латентное пространство, что радикально уменьшает объём памяти на длинных контекстах. Модель поддерживает контекстное окно в 262 144 токенов. Так же, как и предыдущие версии модель разрабатывалась и предоставляется в нативной INT4-квантизации, то есть веса оптимизируются под INT4 ещё в процессе обучения. Это позволяет сохранить качество при значительно меньшем объёме требуемой памяти для весов. Вторая ключевая особенность — нативная мультимодальность: вместе с текстом модель принимает изображения и видео через встроенный визуальный энкодер MoonViT на 400M параметров.

K2.7-Code принудительно работает в режиме thinking с включённым флагом preserve_thinking: модель всегда рассуждает пошагово и сохраняет полное reasoning-содержание между ходами диалога. Это критично для агентных циклов, где ассистент должен помнить свои предыдущие рассуждения при многошаговых вызовах инструментов — например, какие гипотезы уже отверг при отладке. Дополнительно реализован механизм Interleaved Thinking and Multi-Step Tool Call, унаследованный от K2-Thinking: модель чередует рассуждения и вызовы инструментов в одном ответе, выстраивая цепочки из нескольких tool-вызовов.

По сравнению с предыдущей версией Kimi-K2.6, Kimi K2.7 Code демонстрирует значительный прогресс и не только по бенчмаркам. Модель сокращает использование «токенов размышления» (thinking tokens) примерно на 30%, что означает более быстрые ответы в интерактивных сессиях и в отличие от универсальной модели K2.6, Kimi K2.7 Code целенаправленно создана для задач кодинга, тогда как K2.6 рекомендуется для общих задач, таких как написание текстов, анализ и ведение диалогов. Как следствие на ключевых бенчмарках по программированию модель конкурирует с ведущими проприетарными решениями. Kimi Code Bench v2 - K2.7 Code (62,0) уступает GPT-5.5 (69,0) и Claude Opus 4.8 (67,4), но демонстрирует значительный отрыв от K2.6. Program Bench - K2.7 Code (53,6) уступает GPT-5.5 (69,1) и Opus 4.8 (63,8), но заметно превосходит K2.6 (48,3). На бенчмарке MCP Mark Verified K2.7 Code (81,1) превосходит Claude Opus 4.8 (76,4), уступая лишь GPT-5.5 (92,9).

Kimi K2.7 Code идеально подходит для разработчиков и инженерных команд, работающих над сложными программными проектами: автоматизация рефакторинга и миграции кодовых баз, реализация многофайловых фич, отладка в длительных сессиях, написание кода с нуля по техническому заданию, анализ и документирование существующего кода. Модель эффективна в агентных рабочих процессах — например, в составе CI/CD-пайплайнов для автоматического исправления багов, в инструментах для code review, в системах автономного выполнения задач по спецификациям. Благодаря поддержке изображений и видео, модель может использоваться для анализа визуальных материалов, сопровождающих техническую документацию, а также для работы с интерфейсами и схемами.

Дата анонса: 11.06.2026
Параметров: 2T
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Разработчик: Moonshot AI
Версия Transformers: 4.56.2
Версия vLLM: >=0.19.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2.7-Code. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
h200-6.52.896.960 262 144 pipeline	6	2 535,78 ₽	1 825 761,60 ₽	1,47	Запустить
h200-8.52.1024.960 262 144 tensor	8	3 338,30 ₽	2 403 576,00 ₽	3,24	Запустить
h200-8.52.1024.960.nvlink 262 144 tensor	8	3 338,30 ₽	2 403 576,00 ₽	3,24	Запустить

Связанные модели

Kimi-K2.5

Kimi-K2.6

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

Kimi-K2.7-Code

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.7-Code

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?