Kimi-K2-Thinking

размышляющая
русскоязычная

Kimi K2 Thinking построена на архитектуре Mixture-of-Experts с 1 триллионом общих параметров и 32 миллиардами активных параметров на токен. Модель использует 384 эксперта, выбирая 8 на каждый токен, плюс 1 общий эксперт, что обеспечивает высокую специализацию при сохранении эффективности. Архитектура включает 61 слой, механизм внимания MLA (Multi-Head Latent Attention), который оптимизирует обработку длинных контекстов, снижая накладные расходы на KV-cache. Ключевое отличие от стандартных MoE — применение оптимизатора MuonClip во время предобучения, что позволило достичь нулевой нестабильности при масштабировании до триллиона параметров. Уникальной особенностью K2 Thinking является встроенная INT4-квантизация с применением Quantization-Aware Training (QAT) на этапе дообучения. Квантизация применяется только к MoE-компонентам и двукратно увеличивает скорость генерации при сохранении качества.

K2 Thinking обучена чередовать цепочки мышления (chain-of-thought) с вызовами функций, что позволяет ей автономно выполнять research, coding и writing workflow длиной в сотни шагов. Модель поддерживает целенаправленное поведение на протяжении 200–300 последовательных вызовов инструментов, в то время как предыдущие версии деградировали после 30–50 шагов. Система реализует think-before-act подход: формулирование гипотезы, выбор инструмента, выполнение, верификация результата и корректировка плана. При этом модель использует бюджеты на рассуждения, что позволяет контролировать точность и скорость ответов.

На Humanity's Last Exam (HLE) — наиболее сложном тесте аналитических способностей — K2 Thinking показывает 44.9% с инструментами, превосходя GPT-5 High (41.7%) и Claude Sonnet 4.5 Thinking (32.0%). На BrowseComp — бенчмарке агентного веб-поиска — модель достигает 60.2%, значительно опережая GPT-5 (54.9%) и DeepSeek-V3.2 (40.1%). В математических олимпиадах AIME25 с Python модель показывает 99.1%, а в HMMT25 — 95.1%, демонстрируя способность к многоступенчатым вычислениям. На SWE-bench Verified (реальные GitHub PR) K2 Thinking достигает 71.3% и на SWE-bench Multilingual — 61.1%, показывая высокую компетентность в программировании с использованием инструментов.

Модель оптимальна для автономных исследовательских агентов, способных проводить глубокий анализ информации из веб-источников с многоступенчатой верификацией фактов и синтезом данных из десятков источников. В разработке ПО K2 Thinking может выполнять комплексные задачи рефакторинга, отладки и многофайловых изменений в кодовой базе с использованием инструментов Bash, редактирования и интерпретатора. Модель демонстрирует экспертный уровень в решении олимпиадных задач, проведении численных экспериментов с последующей верификацией результатов и генерации формальных доказательств — всё это делает её ценным инструментом для научных исследований и математического моделирования. В сфере создания контента модель подходит для долгосрочных writing workflows с поддержкой исследовательских запросов, верификации утверждений и генерации документов с цитированием источников. Благодаря стабильности на протяжении сотен вызовов инструментов K2 Thinking идеальна для финансовых исследований, требующих многоэтапного анализа отчётности и рыночных данных.
 


Дата анонса: 04.11.2025
Параметров: 1000B
Экспертов: 385
Активно параметров при инференсе: 32B
Контекст: 263K
Слоев: 61
Тип внимания: Multi-head Latent Attention
Потребление памяти: 613.9 ГБ в точности 4 бит
Разработчик: Moonshot AI
Версия Transformers: 4.51.3
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Kimi-K2-Thinking. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга Kimi-K2-Thinking

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-6.52.896.960
262 144
pipeline
52 917504 960 6 2 535,78 ₽ Запустить
h200-8.52.1024.960
262 144
tensor
52 1048576 960 8 3 338,30 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-8.52.1024.1280
262 144
tensor
52 1048576 1280 8 3 341,41 ₽ Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.