Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

MiniMax-M3

размышляющая

мультимодальная

русскоязычная

для кодинга

MiniMax-M3 — открытая нативная мультимодальная модель с поддержкой контекста до 1 миллиона токенов, сочетающая в себе передовые возможности в области программирования, агентных рабочих процессов и нативную мультимодальность. Модель имеет архитектуру Mixture of Experts (MoE) с ~428 миллиардами общих параметров, из которых активируются лишь ~23 миллиарда на каждом шаге генерации, 128 локальных экспертов с активацией 4 экспертов на токен и одним общим экспертом. Такая разреженность обеспечивает высокую производительность при экономичном использовании вычислительных ресурсов. M3 поддерживает три режима рассуждения (thinking): enabled — рассуждение всегда включено, adaptive — модель автоматически определяет необходимость дополнительного рассуждения, disabled — рассуждение отключено для минимизации задержки. В отличие от предыдущей модели MiniMax-M2.7 и всей второй линейки, MiniMax-M3 представляет собой качественный шаг вперед за счет сочетания трех передовых возможностей — нативной мультимодальности, миллионного контекста и отличными показателями в программировании и агентных задачах.

Ключевым архитектурным нововведением MiniMax-M3 является MiniMax Sparse Attention (MSA) — новый тип разреженного внимания, специально разработанный для эффективной работы с контекстами длиной в миллион токенов. MSA построен на основе Grouped Query Attention (GQA) и состоит из двух параллельных процессов: лёгкая Index Branch оценивает все блоки ключей-значений во входной последовательности и для каждой группы запросов независимо выбирает подмножество наиболее релевантных блоков; основная Main Branch выполняет точное блочно-разреженное внимание исключительно по отобранным блокам. При этом локальный блок (ближайшее окружение) включается всегда независимо от его оценки, что гарантирует сохранение важной контекстной информации. Благодаря такому подходу MSA сокращает вычислительные затраты на внимание на один токен в 28.4 раза при контексте в 1 миллион токенов по сравнению с GQA.

Результаты на ключевых бенчмарках подтверждают качество модели M3. На SWE-bench Verified (эталонный бенчмарк для оценки способности ИИ решать реальные задачи из репозиториев программного обеспечения) модель демонстрирует 80.5% решённых задач. На SWE-bench Pro результат составляет 59%. На BrowseComp (бенчмарк для оценки способности модели к автономному веб-сёрфингу и извлечению информации) M3 набирает 83.5 балла, превосходя Opus 4.7 (79.3). В автономном тесте PostTrainBench, где модели поручалось самостоятельно провести полный цикл пост-обучения других моделей (синтез данных, обучение, оценка, итерации) в течение 12 часов, M3 заняла 3-е место с результатом 37.1, уступив только закрытым Opus 4.7 (42.4) и GPT-5.5 (39.3) и значительно опередив все остальные модели.

Сценарии использования MiniMax-M3 чрезвычайно широки и охватывают множество областей, где требуются передовые агентные и мультимодальные возможности. В разработке программного обеспечения модель может выступать в роли автономного AI-ассистента, способного анализировать целые репозитории кода, выполнять длительные задачи по рефакторингу, отладке и документированию, а также автономно развертывать и тестировать код. Благодаря 1-миллионному контекстному окну, M3 идеально подходит для анализа и понимания длинных документов, включая научные статьи с графиками и формулами, юридические договоры, финансовые отчеты и полные лог-файлы систем. В мультимодальных приложениях модель может использоваться для понимания видео, извлечения информации из сложных визуальных материалов и создания интерактивных систем, работающих с различными типами данных. Агентные сценарии включают автономное выполнение исследовательских задач, управление инструментами и API, а также создание систем, способных самостоятельно планировать и выполнять многошаговые рабочие процессы без вмешательства человека.

Дата анонса: 02.06.2026
Параметров: 428B
Экспертов: 128
Активно параметров при инференсе: 23B
Контекст: 1049K
Слоев: 60
Тип внимания: MiniMax Sparse Attention (MSA)
Разработчик: MiniMax-AI
Версия Transformers: 4.52.4
Версия vLLM: >=0.24.0
Лицензия: MINIMAX COMMUNITY LICENSE

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MiniMax-M3. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-4.32.768.480 1 048 576 tensor	4		1 717,59 ₽	1 236 664,80 ₽		1,48	Запустить
h200-4.32.768.480.nvlink 1 048 576 tensor	4		1 717,59 ₽	1 236 664,80 ₽		1,48	Запустить

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
h200-6.52.896.640 1 048 576 pipeline	6	2 532,67 ₽	1 823 522,40 ₽	1,24	Запустить
h200-8.52.1024.640 1 048 576 tensor	8	3 335,19 ₽	2 401 336,80 ₽	1,63	Запустить
h200-8.52.1024.640.nvlink 1 048 576 tensor	8	3 335,19 ₽	2 401 336,80 ₽	1,63	Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.