Kimi-K2.7-Code — это модель с открытыми весами под лицензией Modified MIT, выпущенная Moonshot AI и специально оптимизированная под агентную работу с кодом в формате long-horizon coding tasks — многошаговых сценариев программной инженерии, где задача не решается одним проходом.
Архитектурно Kimi-K2.7-Code — это Mixture-of-Experts с 1 трлн параметров, из которых на каждый токен активируются 32 млрд. Модель состоит из 61 слоя (один плотный и 60 MoE-слоёв), использует 384 эксперта с выбором 8 на токен и одним общим shared-экспертом. В качестве механизма внимания применяется Multi-head Latent Attention (MLA) — та же схема, что во всей линейке Kimi K2: она сжимает KV-кэш в латентное пространство, что радикально уменьшает объём памяти на длинных контекстах. Модель поддерживает контекстное окно в 262 144 токенов. Так же, как и предыдущие версии модель разрабатывалась и предоставляется в нативной INT4-квантизации, то есть веса оптимизируются под INT4 ещё в процессе обучения. Это позволяет сохранить качество при значительно меньшем объёме требуемой памяти для весов. Вторая ключевая особенность — нативная мультимодальность: вместе с текстом модель принимает изображения и видео через встроенный визуальный энкодер MoonViT на 400M параметров.
K2.7-Code принудительно работает в режиме thinking с включённым флагом preserve_thinking: модель всегда рассуждает пошагово и сохраняет полное reasoning-содержание между ходами диалога. Это критично для агентных циклов, где ассистент должен помнить свои предыдущие рассуждения при многошаговых вызовах инструментов — например, какие гипотезы уже отверг при отладке. Дополнительно реализован механизм Interleaved Thinking and Multi-Step Tool Call, унаследованный от K2-Thinking: модель чередует рассуждения и вызовы инструментов в одном ответе, выстраивая цепочки из нескольких tool-вызовов.
По сравнению с предыдущей версией Kimi-K2.6, Kimi K2.7 Code демонстрирует значительный прогресс и не только по бенчмаркам. Модель сокращает использование «токенов размышления» (thinking tokens) примерно на 30%, что означает более быстрые ответы в интерактивных сессиях и в отличие от универсальной модели K2.6, Kimi K2.7 Code целенаправленно создана для задач кодинга, тогда как K2.6 рекомендуется для общих задач, таких как написание текстов, анализ и ведение диалогов. Как следствие на ключевых бенчмарках по программированию модель конкурирует с ведущими проприетарными решениями. Kimi Code Bench v2 - K2.7 Code (62,0) уступает GPT-5.5 (69,0) и Claude Opus 4.8 (67,4), но демонстрирует значительный отрыв от K2.6. Program Bench - K2.7 Code (53,6) уступает GPT-5.5 (69,1) и Opus 4.8 (63,8), но заметно превосходит K2.6 (48,3). На бенчмарке MCP Mark Verified K2.7 Code (81,1) превосходит Claude Opus 4.8 (76,4), уступая лишь GPT-5.5 (92,9).
Kimi K2.7 Code идеально подходит для разработчиков и инженерных команд, работающих над сложными программными проектами: автоматизация рефакторинга и миграции кодовых баз, реализация многофайловых фич, отладка в длительных сессиях, написание кода с нуля по техническому заданию, анализ и документирование существующего кода. Модель эффективна в агентных рабочих процессах — например, в составе CI/CD-пайплайнов для автоматического исправления багов, в инструментах для code review, в системах автономного выполнения задач по спецификациям. Благодаря поддержке изображений и видео, модель может использоваться для анализа визуальных материалов, сопровождающих техническую документацию, а также для работы с интерфейсами и схемами.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 pipeline |
6 | 2 535,78 ₽ | 1,47 | Запустить | ||
262 144 tensor |
8 | 3 338,30 ₽ | 3,24 | Запустить | ||
262 144 tensor |
8 | 3 338,30 ₽ | 3,24 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.