Kimi-K2.7-Code

размышляющая
мультимодальная
русскоязычная
для кодинга

Kimi-K2.7-Code — это модель с открытыми весами под лицензией Modified MIT, выпущенная Moonshot AI и специально оптимизированная под агентную работу с кодом в формате long-horizon coding tasks — многошаговых сценариев программной инженерии, где задача не решается одним проходом.

Архитектурно Kimi-K2.7-Code — это Mixture-of-Experts с 1 трлн параметров, из которых на каждый токен активируются 32 млрд. Модель состоит из 61 слоя (один плотный и 60 MoE-слоёв), использует 384 эксперта с выбором 8 на токен и одним общим shared-экспертом. В качестве механизма внимания применяется Multi-head Latent Attention (MLA) — та же схема, что во всей линейке Kimi K2: она сжимает KV-кэш в латентное пространство, что радикально уменьшает объём памяти на длинных контекстах. Модель поддерживает контекстное окно в 262 144 токенов. Так же, как и предыдущие версии модель разрабатывалась и предоставляется в нативной INT4-квантизации, то есть веса оптимизируются под INT4 ещё в процессе обучения. Это позволяет сохранить качество при значительно меньшем объёме требуемой памяти для весов. Вторая ключевая особенность — нативная мультимодальность: вместе с текстом модель принимает изображения и видео через встроенный визуальный энкодер MoonViT на 400M параметров.

K2.7-Code принудительно работает в режиме thinking с включённым флагом preserve_thinking: модель всегда рассуждает пошагово и сохраняет полное reasoning-содержание между ходами диалога. Это критично для агентных циклов, где ассистент должен помнить свои предыдущие рассуждения при многошаговых вызовах инструментов — например, какие гипотезы уже отверг при отладке. Дополнительно реализован механизм Interleaved Thinking and Multi-Step Tool Call, унаследованный от K2-Thinking: модель чередует рассуждения и вызовы инструментов в одном ответе, выстраивая цепочки из нескольких tool-вызовов.

По сравнению с предыдущей версией Kimi-K2.6, Kimi K2.7 Code демонстрирует значительный прогресс и не только по бенчмаркам. Модель сокращает использование «токенов размышления» (thinking tokens) примерно на 30%, что означает более быстрые ответы в интерактивных сессиях и в отличие от универсальной модели K2.6, Kimi K2.7 Code целенаправленно создана для задач кодинга, тогда как K2.6 рекомендуется для общих задач, таких как написание текстов, анализ и ведение диалогов. Как следствие на ключевых бенчмарках по программированию модель конкурирует с ведущими проприетарными решениями. Kimi Code Bench v2 - K2.7 Code (62,0) уступает GPT-5.5 (69,0) и Claude Opus 4.8 (67,4), но демонстрирует значительный отрыв от K2.6. Program Bench - K2.7 Code (53,6) уступает GPT-5.5 (69,1) и Opus 4.8 (63,8), но заметно превосходит K2.6 (48,3). На бенчмарке MCP Mark Verified K2.7 Code (81,1) превосходит Claude Opus 4.8 (76,4), уступая лишь GPT-5.5 (92,9).

Kimi K2.7 Code идеально подходит для разработчиков и инженерных команд, работающих над сложными программными проектами: автоматизация рефакторинга и миграции кодовых баз, реализация многофайловых фич, отладка в длительных сессиях, написание кода с нуля по техническому заданию, анализ и документирование существующего кода. Модель эффективна в агентных рабочих процессах — например, в составе CI/CD-пайплайнов для автоматического исправления багов, в инструментах для code review, в системах автономного выполнения задач по спецификациям. Благодаря поддержке изображений и видео, модель может использоваться для анализа визуальных материалов, сопровождающих техническую документацию, а также для работы с интерфейсами и схемами.


Дата анонса: 11.06.2026
Параметров: 2T
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Разработчик: Moonshot AI
Версия Transformers: 4.56.2
Версия vLLM: >=0.19.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2.7-Code. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Kimi-K2.7-Code

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.960
262 144
pipeline
6 2 535,78 ₽ 1,47 Запустить
h200-8.52.1024.960
262 144
tensor
8 3 338,30 ₽ 3,24 Запустить
h200-8.52.1024.960.nvlink
262 144
tensor
8 3 338,30 ₽ 3,24 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.