Gemma 4 12B — это плотная мультимодальная модель с единой (Unified) архитектурой без энкодеров. Модель занимает промежуточное положение между компактной E4B для мобильных устройств и более мощной 26B A4B MoE, заполняя нишу среднего класса, оптимизированного для запуска на потребительских ноутбуках с 16 ГБ видеопамяти.
Главное отличие Gemma 4 12B от остальных моделей семейства — полностью бесэнкодерная архитектура: вместо отдельных визуального и аудиоэнкодеров модель использует линейные проекции, через которые сырые патчи изображений и аудиоволны напрямую подаются в единый декодер. Это первая модель среднего размера в линейке Gemma с нативной поддержкой аудиовхода, что делает её уникальным решением для локального мультимодального AI. Все модальности протекают через единый decoder-only трансформер, что снижает задержку и позволяет файнтюнить всю модель за один проход — нет необходимости согласовывать отдельные замороженные энкодеры.
В основе декодера Gemma 4 12B, как и других моделей семейства лежит механизм гибридного внимания (hybrid attention), в котором чередуются слои с локальным скользящим окном внимания (sliding window, 1024 токена) и слои с полным глобальным вниманием. Эти слои используют так называемые гетероморфные головы — с разным размером в рамках одной модели. Локальные слои обеспечивают скорость и малый объём памяти, поскольку каждый токен видит только соседние только в рамках окна, тогда как глобальные слои охватывают весь контекст целиком, обеспечивая глубокое понимание длинных зависимостей.
Модель поддерживает обработку текста, изображений, видео и аудио. Встроенный режим мышления (thinking mode) позволяет модели пошагово рассуждать перед выдачей ответа, что критически важно для сложных задач. Модель также поддерживает function calling для агентных сценариев, переменное разрешение изображений и мультиязычность (140+ языков на претрейне, 35+ языков из коробки). Для ускорения инференса предусмотрена поддержка Multi-Token Prediction (MTP), что значительно снижает задержку генерации без потери качества. Словарь составляет 262K токенов, а окно контекста достигает 256K токенов.
На ключевых бенчмарках Gemma 4 12B демонстрирует результаты, близкие к значительно более крупной 26B A4B MoE. На AIME 2026 (математическое рассуждение повышенной сложности) модель набирает 77.5%, почти вчетверо превосходя результат Gemma 3 27B (20.8%). На GPQA Diamond (экспертные вопросы уровня PhD по физике, химии и биологии) модель достигает 78.8% — выдающийся результат для 12B-модели, обгоняющий многие модели большего размера. LiveCodeBench v6 (генерация кода в реальных условиях) — 72.0%, Codeforces ELO — 1659, что подтверждает сильные способности в программировании. В мультимодальных тестах: MMMU Pro (универсальное понимание изображений) — 69.1%, MATH-Vision (математика на изображениях) — 79.7%, MMMLU (мультиязычные знания) — 83.4%. На бенчмарке CoVoST (аудиоперевод) модель показывает лучший результат среди всех моделей линейки Gemma (38.5%).
Сценарии использования модели определяются тремя ключевыми факторами: компактность, мультимодальность с нативным аудио и агентные способности. Gemma 4 12B идеально подходит для локальных агентных систем — от автономных кодинг-ассистентов до мультимодальных ИИ-помощников с голосовым вводом. Модель эффективна для распознавания и перевода речи, анализа видеофрагментов, интеллектуальной обработки документов, а также для создания встроенных AI-решений на десктопах.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
1 | 46,94 ₽ | 1,27 | Запустить | ||
262 144 tensor |
2 | 48,14 ₽ | 1,80 | Запустить | ||
262 144 tensor |
2 | 51,34 ₽ | 1,81 | Запустить | ||
262 144 |
1 | 73,73 ₽ | 1,41 | Запустить | ||
262 144 pipeline |
3 | 74,84 ₽ | 1,77 | Запустить | ||
262 144 |
1 | 91,14 ₽ | 1,41 | Запустить | ||
262 144 tensor |
4 | 99,74 ₽ | 2,83 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | 3,94 | Запустить | ||
262 144 pipeline |
3 | 127,37 ₽ | 1,39 | Запустить | ||
262 144 |
1 | 141,77 ₽ | 2,46 | Запустить | ||
262 144 tensor |
4 | 162,57 ₽ | 2,32 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 8,93 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 8,92 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 10,80 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 19,27 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 17,11 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | 35,62 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
2 | 48,14 ₽ | 1,14 | Запустить | ||
262 144 tensor |
2 | 51,34 ₽ | 1,15 | Запустить | ||
262 144 pipeline |
3 | 74,84 ₽ | 1,12 | Запустить | ||
262 144 tensor |
2 | 83,37 ₽ | 3,29 | Запустить | ||
262 144 tensor |
4 | 99,74 ₽ | 2,18 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | 3,29 | Запустить | ||
262 144 tensor |
2 | 139,77 ₽ | 3,57 | Запустить | ||
262 144 |
1 | 141,77 ₽ | 1,81 | Запустить | ||
262 144 tensor |
4 | 162,57 ₽ | 1,67 | Запустить | ||
262 144 tensor |
2 | 171,77 ₽ | 3,56 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 8,28 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 8,27 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 10,15 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 18,62 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 16,46 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | 34,97 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 pipeline |
3 | 78,57 ₽ | 1,53 | Запустить | ||
262 144 tensor |
2 | 83,37 ₽ | 2,07 | Запустить | ||
262 144 tensor |
4 | 85,77 ₽ | 3,13 | Запустить | ||
262 144 pipeline |
3 | 94,64 ₽ | 1,54 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | 2,07 | Запустить | ||
262 144 tensor |
4 | 112,24 ₽ | 3,15 | Запустить | ||
262 144 tensor |
2 | 139,77 ₽ | 2,36 | Запустить | ||
262 144 tensor |
2 | 171,77 ₽ | 2,35 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 7,07 | Запустить | ||
262 144 tensor |
2 | 261,77 ₽ | 4,46 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 7,06 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 8,93 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 17,40 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 15,24 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | 33,76 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.