Kimi-K2-0905

русскоязычная

Kimi K2-Instruct-0905 - обновление одной из крупнейших open-source LLM. Архитектура в целом не изменилась – это Mixture-of-Experts (MoE) с 1 триллионом параметров, из которых только 32 миллиарда активируются для обработки каждого токена. Используются 384 эксперта, из которых для каждого токена выбираются только 8 наиболее релевантных плюс один общий эксперт. Модель использует механизм Multi-Head Latent Attention (MLA), который значительно снижает размер KV-кэша. Как и в предыдущей версии при обучении использовался оптимизатор MuonClip, который решил критическую проблему нестабильности при тренировке моделей такого масштаба.

В качестве наиболее значимых улучшений разработчики обратили внимание на увеличение контекстного окна с 128k до 256k токенов. Плюс к этому модель специально оптимизирована для агентных сценариев использования и программирования, существенно улучшен «frontend coding experience» — как по эстетике, так и по практической применимости генерируемых интерфейсных решений.

Заявления разработчиков полностью подтверждаются показателями на бенчмарках. Так на SWE-Bench Verified модель достигает 69.2% точности, что значительно превышает показатели предыдущей версии (65.8%) и конкурирует с ведущими проприетарными моделями Claude Sonnet 4 (72.7%) и Claude Opus 4 (72.5%). На Terminal-Bench модель показывает 44.5% точности, существенно опережая конкурентов: предыдущую версию (37.5%), Qwen3-Coder (37.5%), GLM-4.5 (39.9%) и DeepSeek-V3.1 (31.3%).

Kimi K2-Instruct-0905 идеально подходит для управления автономными рабочими процессами, где модель может самостоятельно декомпозировать сложные задачи, выбирать подходящие инструменты и выполнять многоэтапные workflow с минимальным вмешательством человека. В разработке программного обеспечения модель превосходно справляется с отладкой, генерацией кода, анализом данных и оркестрацией процессов разработки. Особенно эффективна модель в frontend-разработке поскольку способна генерировать код, закрывающий не только саму техническую часть задачи, но и ее дизайнерскую составляющую.


Дата анонса: 05.09.2025
Параметров: 1000B
Экспертов: 384
Активно параметров при инференсе: 32B
Контекст: 263K
Тип внимания: Multi-head Latent Attention
Потребление памяти: 482.1 ГБ в точности 4 бит
Разработчик: Moonshot AI
Версия Transformers: 4.51.3
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с Kimi-K2-0905.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга Kimi-K2-0905

Для данной модели пока нет подходящих конфигураций.
Для данной модели пока нет подходящих конфигураций.
Для данной модели пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.