Llama-3-8B GPT-4o-RU1.0 — это доработанная (fine-tuned) версия модели Llama-3-8B-Instruct, созданная с целью значительного улучшения работы с русским языком. Ключевая идея разработчика заключалась в формировании обучающего набора данных высокого качества с использованием возможностей GPT-4o — модели OpenAI, известной своими продвинутыми мультиязычными способностями. З основу было взято тщательно очищенное и структурированное подмножество датасета tagengo-gpt4, что позволило добиться высокой эффективности обучения. 80% обучающих примеров были на русском языке, что делает эту модель специализированным инструментом для русскоязычных задач.
С технической точки зрения, обучение проводилось в течение одной эпохи на двух ускорителях NVIDIA A100 с использованием фреймворка Axolotl. Архитектура модели сохраняет базовую структуру Llama 3, при обучении применялись оптимизации: Flash Attention 2 для ускорения обработки, DeepSpeed ZeRO-2 для эффективного распределения памяти. Веса сохранены в формате `bfloat16` для оптимального соотношения производительности и точности.
Качество данной модели подтверждается результатами на бенчмарке MT-Bench (многоязычный тест для оценки диалоговых способностей). На русском языке модель набрала 8.12 балла, что превосходит показатель GPT-3.5-turbo (7.94) и практически вплотную приближается к модели Suzume (8.19), при том, что последняя обучалась на наборе данных в 8 раз большем и более разнообразном. Важно отметить, что, в отличие от многих мультиязычных моделей, где улучшение одного языка может снижать качество на английском, здесь напротив наблюдается прирост английских показателей с 7.98 (у базовой Llama-3) до 8.01, что делает её сбалансированным решением.
Благодаря высокой компетенции в русскоязычных задачах модель отлично подходит для широкого спектра применений в русскоязычном домене.
| Наименование модели | Контекст | Тип | GPU | TPS | Tooling | Статус | Ссылка |
|---|---|---|---|---|---|---|---|
| ruslandev/llama-3-8b-gpt-4o-ru1.0 | 8192 | Публичный | RTX4090 | 54.00 | доступен | чат |
curl https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "Llama-3-8B-GPT-4o-RU", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "Llama-3-8B-GPT-4o-RU"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade
from openai import OpenAI
client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/",
)
chat_response = client.chat.completions.create(
model="Llama-3-8B-GPT-4o-RU",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
8192 |
1 | 29,33 ₽ | 6,20 | Запустить | ||
8192 |
1 | 34,23 ₽ | 1,70 | Запустить | ||
8192 |
1 | 33,74 ₽ | 6,20 | Запустить | ||
8192 |
1 | 46,94 ₽ | 13,40 | Запустить | ||
8192 |
1 | 51,34 ₽ | 0,80 | Запустить | ||
8192 |
1 | 73,73 ₽ | 13,40 | Запустить | ||
8192 |
1 | 91,14 ₽ | 13,40 | Запустить | ||
8192 |
1 | 107,57 ₽ | 20,60 | Запустить | ||
8192 tensor |
2 | 109,77 ₽ | 32,50 | Запустить | ||
8192 |
1 | 141,77 ₽ | 20,60 | Запустить | ||
8192 |
1 | 211,77 ₽ | 63,80 | Запустить | ||
8192 |
1 | 341,77 ₽ | 63,80 | Запустить | ||
8192 |
1 | 367,41 ₽ | 76,40 | Запустить | ||
8192 |
1 | 423,04 ₽ | 118,70 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
8192 |
1 | 29,33 ₽ | 4,42 | Запустить | ||
8192 |
1 | 33,74 ₽ | 4,42 | Запустить | ||
8192 |
1 | 46,94 ₽ | 11,62 | Запустить | ||
8192 tensor |
2 | 61,37 ₽ | 7,32 | Запустить | ||
8192 |
1 | 73,73 ₽ | 11,62 | Запустить | ||
8192 tensor |
2 | 86,54 ₽ | 5,52 | Запустить | ||
8192 |
1 | 91,14 ₽ | 11,62 | Запустить | ||
8192 |
1 | 107,57 ₽ | 18,82 | Запустить | ||
8192 tensor |
2 | 109,77 ₽ | 30,72 | Запустить | ||
8192 |
1 | 141,77 ₽ | 18,82 | Запустить | ||
8192 |
1 | 211,77 ₽ | 62,02 | Запустить | ||
8192 |
1 | 341,77 ₽ | 62,02 | Запустить | ||
8192 |
1 | 367,41 ₽ | 74,62 | Запустить | ||
8192 |
1 | 423,04 ₽ | 116,92 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
8192 |
1 | 46,94 ₽ | 3,03 | Запустить | ||
8192 tensor |
2 | 48,14 ₽ | 7,73 | Запустить | ||
8192 tensor |
2 | 51,34 ₽ | 7,73 | Запустить | ||
8192 |
1 | 73,73 ₽ | 3,03 | Запустить | ||
8192 pipeline |
3 | 74,84 ₽ | 6,13 | Запустить | ||
8192 |
1 | 91,14 ₽ | 3,03 | Запустить | ||
8192 tensor |
4 | 99,74 ₽ | 13,53 | Запустить | ||
8192 |
1 | 107,57 ₽ | 10,23 | Запустить | ||
8192 tensor |
2 | 109,77 ₽ | 22,13 | Запустить | ||
8192 pipeline |
3 | 127,37 ₽ | 3,43 | Запустить | ||
8192 |
1 | 141,77 ₽ | 10,23 | Запустить | ||
8192 tensor |
4 | 162,57 ₽ | 9,93 | Запустить | ||
8192 |
1 | 211,77 ₽ | 53,43 | Запустить | ||
8192 |
1 | 341,77 ₽ | 53,43 | Запустить | ||
8192 |
1 | 367,41 ₽ | 66,03 | Запустить | ||
8192 |
1 | 423,04 ₽ | 108,33 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.