Phi-4

Phi-4 — это современная открытая языковая модель с 14 миллиардами параметров. Несмотря на то, что архитектурные изменения по сравнению с предыдущими версиями минимальны, модель демонстрирует значительный прогресс в задачах, требующих логического мышления и аналитики, что стало возможным благодаря инновационному подходу к обучению. В отличие от традиционных методов обучения языковых моделей, в Phi-4 ключевой акцент сделан не на объёме данных, а на их качестве. Обучение Phi-4 проводилось на основе разнообразных источников, включая синтетические данные, специально созданные для развития навыков рассуждения, отфильтрованные документы из публичных источников, а также приобретённые академические книги и вопросно-ответные базы знаний. Это позволяет модели достигать высокой производительности даже при относительно небольшом размере.

Phi-4 работает только с текстовыми данными. Контекст относительно небольшой 16К токенов, но поддерживается работа более чем на 50 языках, включая русский.

В целом Phi-4 достаточно разноплановая легковесная модель, но по словам разработчиков особенно эффективна она в среде с ограниченным объемом памяти и вычислительных ресурсов, а также для задач, требующих моментального отклика.


Дата анонса: 12.12.2024
Параметров: 15B
Контекст: 17K
Слоев: 40
Тип внимания: Full Attention
Разработчик: Microsoft
Версия Transformers: 4.47.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Phi-4. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Tooling Статус Ссылка
phi-4 16 000 Публичный RTX3090 31.50 доступен чат

API доступ к Phi-4 эндпоинтам

curl https://chat.immers.cloud/v1/endpoints/phi-4/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "phi-4", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/phi-4/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "phi-4"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade

from openai import OpenAI

client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/phi-4/generate/",
)

chat_response = client.chat.completions.create(
model="phi-4",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Phi-4

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa2-2.16.32.160
16 384
tensor
2 51,34 ₽ 9,15 4,29 Запустить
rtx2080ti-2.16.64.160
16 384
tensor
2 63,57 ₽ 1,41 Запустить
teslat4-3.32.64.200
16 384
pipeline
3 78,95 ₽ 8,10 Запустить
rtx3080-2.16.64.160
16 384
tensor
2 92,17 ₽ 0,84 Запустить
rtx4090-1.32.64.160
16 384
1 105,57 ₽ 2,79 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 8,90 Запустить
teslat4-4.48.192.320
16 384
tensor
4 127,45 ₽ 11,91 Запустить
rtx5090-1.32.64.160
16 384
1 150,57 ₽ 5,09 Запустить
teslaa10-4.16.128.160
16 384
tensor
4 156,24 ₽ 21,12 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 53,03 18,92 Запустить
rtx3090-4.16.128.160
16 384
tensor
4 269,04 ₽ 21,12 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 63,45 18,92 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 22,95 Запустить
teslaa100-2.24.256.160.nvlink
16 384
tensor
2 439,97 ₽ 41,16 Запустить
h200-2.24.256.160.nvlink
16 384
tensor
2 839,97 ₽ 76,29 Запустить
h200-4.32.768.480
16 384
tensor
4 1 717,59 ₽ 155,91 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa2-2.16.32.160
16 384
tensor
2 51,34 ₽ 3,24 Запустить
rtx2080ti-3.12.24.120
16 384
pipeline
3 74,84 ₽ 2,72 Запустить
teslat4-3.32.64.200
16 384
pipeline
3 78,95 ₽ 7,04 Запустить
rtx2080ti-4.16.32.160
16 384
tensor
4 99,74 ₽ 5,09 Запустить
rtx4090-1.32.64.160
16 384
1 105,57 ₽ 1,73 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 7,84 Запустить
teslat4-4.48.192.320
16 384
tensor
4 127,45 ₽ 10,85 Запустить
rtx3080-3.16.96.160
16 384
pipeline
3 133,01 ₽ 1,86 Запустить
rtx5090-1.32.64.160
16 384
1 150,57 ₽ 4,04 Запустить
teslaa10-4.16.128.160
16 384
tensor
4 156,24 ₽ 20,07 Запустить
rtx3080-4.16.96.160
16 384
tensor
4 168,21 ₽ 3,94 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 17,86 Запустить
rtx3090-4.16.128.160
16 384
tensor
4 269,04 ₽ 20,07 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 17,86 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 21,89 Запустить
teslaa100-2.24.256.160.nvlink
16 384
tensor
2 439,97 ₽ 40,10 Запустить
h200-2.24.256.160.nvlink
16 384
tensor
2 839,97 ₽ 75,24 Запустить
h200-4.32.768.480
16 384
tensor
4 1 717,59 ₽ 154,85 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-3.32.64.200
16 384
pipeline
3 78,95 ₽ 2,04 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 2,84 Запустить
teslaa2-4.32.128.480
16 384
tensor
4 115,35 ₽ 5,85 Запустить
teslaa2-3.32.256.160
16 384
pipeline
3 117,17 ₽ 5,77 2,04 Запустить
teslat4-4.48.192.320
16 384
tensor
4 127,45 ₽ 5,85 Запустить
teslaa10-4.16.128.160
16 384
tensor
4 156,24 ₽ 15,07 Запустить
rtx4090-2.16.64.160
16 384
tensor
2 171,77 ₽ 2,84 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 45,55 12,86 Запустить
rtx5090-2.16.64.160
16 384
tensor
2 261,77 ₽ 7,45 Запустить
rtx3090-4.16.128.160
16 384
tensor
4 269,04 ₽ 15,07 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 53,09 12,86 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 87,21 16,89 Запустить
teslaa100-2.24.256.160.nvlink
16 384
tensor
2 439,97 ₽ 35,10 Запустить
h200-2.24.256.160.nvlink
16 384
tensor
2 839,97 ₽ 70,24 Запустить
h200-4.32.768.480
16 384
tensor
4 1 717,59 ₽ 149,85 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.