Phi-4

Phi-4 — это современная открытая языковая модель с 14 миллиардами параметров. Несмотря на то, что архитектурные изменения по сравнению с предыдущими версиями минимальны, модель демонстрирует значительный прогресс в задачах, требующих логического мышления и аналитики, что стало возможным благодаря инновационному подходу к обучению. В отличие от традиционных методов обучения языковых моделей, в Phi-4 ключевой акцент сделан не на объёме данных, а на их качестве. Обучение Phi-4 проводилось на основе разнообразных источников, включая синтетические данные, специально созданные для развития навыков рассуждения, отфильтрованные документы из публичных источников, а также приобретённые академические книги и вопросно-ответные базы знаний. Это позволяет модели достигать высокой производительности даже при относительно небольшом размере.

Phi-4 работает только с текстовыми данными. Контекст относительно небольшой 16К токенов, но поддерживается работа более чем на 50 языках, включая русский.

В целом Phi-4 достаточно разноплановая легковесная модель, но по словам разработчиков особенно эффективна она в среде с ограниченным объемом памяти и вычислительных ресурсов, а также для задач, требующих моментального отклика.


Дата анонса: 12.12.2024
Параметров: 15B
Контекст: 17K
Слоев: 40
Тип внимания: Full Attention
Разработчик: Microsoft
Версия Transformers: 4.47.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Phi-4. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Tooling Статус Ссылка
phi-4 16 000 Публичный RTX3090 31.50 доступен чат

API доступ к Phi-4 эндпоинтам

curl https://chat.immers.cloud/v1/endpoints/phi-4/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "phi-4", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/phi-4/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "phi-4"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade

from openai import OpenAI

client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/phi-4/generate/",
)

chat_response = client.chat.completions.create(
model="phi-4",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Phi-4

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
16 384
1 46,94 ₽ 32,10 2,79 Запустить
teslat4-2.16.32.160
16 384
tensor
2 48,14 ₽ 4,29 Запустить
teslaa2-2.16.32.160
16 384
tensor
2 51,34 ₽ 9,15 4,29 Запустить
rtx2080ti-2.12.64.160
16 384
tensor
2 61,37 ₽ 1,41 Запустить
rtx3090-1.16.24.160
16 384
1 73,73 ₽ 50,09 2,79 Запустить
rtx4090-1.16.32.160
16 384
1 91,14 ₽ 69,85 2,79 Запустить
teslav100-1.12.64.160
16 384
1 107,57 ₽ 5,09 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 8,90 Запустить
rtx3080-3.16.64.160
16 384
pipeline
3 127,37 ₽ 2,92 Запустить
rtx5090-1.16.64.160
16 384
1 141,77 ₽ 83,03 5,09 Запустить
rtx3080-4.16.64.160
16 384
tensor
4 162,57 ₽ 5,00 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 53,03 18,92 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 63,45 18,92 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 22,95 Запустить
h200-1.16.128.160
16 384
1 423,04 ₽ 36,48 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
16 384
1 46,94 ₽ 1,73 Запустить
teslat4-2.16.32.160
16 384
tensor
2 48,14 ₽ 3,24 Запустить
teslaa2-2.16.32.160
16 384
tensor
2 51,34 ₽ 3,24 Запустить
rtx3090-1.16.24.160
16 384
1 73,73 ₽ 1,73 Запустить
rtx2080ti-3.12.24.120
16 384
pipeline
3 74,84 ₽ 2,72 Запустить
rtx4090-1.16.32.160
16 384
1 91,14 ₽ 1,73 Запустить
rtx2080ti-4.16.32.160
16 384
tensor
4 99,74 ₽ 5,09 Запустить
teslav100-1.12.64.160
16 384
1 107,57 ₽ 4,04 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 7,84 Запустить
rtx3080-3.16.64.160
16 384
pipeline
3 127,37 ₽ 1,86 Запустить
rtx5090-1.16.64.160
16 384
1 141,77 ₽ 4,04 Запустить
rtx3080-4.16.64.160
16 384
tensor
4 162,57 ₽ 3,94 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 17,86 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 17,86 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 21,89 Запустить
h200-1.16.128.160
16 384
1 423,04 ₽ 35,43 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-3.32.64.160
16 384
pipeline
3 78,57 ₽ 2,04 Запустить
teslaa10-2.16.64.160
16 384
tensor
2 83,37 ₽ 29,00 2,84 Запустить
teslat4-4.16.64.160
16 384
tensor
4 85,77 ₽ 5,85 Запустить
teslaa2-3.32.128.160
16 384
pipeline
3 94,64 ₽ 5,77 2,04 Запустить
rtxa5000-2.16.64.160.nvlink
16 384
tensor
2 109,77 ₽ 2,84 Запустить
teslaa2-4.32.128.160
16 384
tensor
4 112,24 ₽ 5,85 Запустить
rtx3090-2.16.64.160
16 384
tensor
2 139,77 ₽ 46,56 2,84 Запустить
rtx4090-2.16.64.160
16 384
tensor
2 171,77 ₽ 55,00 2,84 Запустить
teslav100-2.16.64.240
16 384
tensor
2 198,54 ₽ 7,45 Запустить
teslaa100-1.16.64.160
16 384
1 211,77 ₽ 45,55 12,86 Запустить
rtx5090-2.16.64.160
16 384
tensor
2 261,77 ₽ 73,39 7,45 Запустить
h100-1.16.64.160
16 384
1 341,77 ₽ 53,09 12,86 Запустить
h100nvl-1.16.96.160
16 384
1 367,41 ₽ 87,21 16,89 Запустить
h200-1.16.128.160
16 384
1 423,04 ₽ 30,43 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.