llama-3-8b-gpt-4o-ru1.0

русскоязычная

Llama-3-8B GPT-4o-RU1.0 — это доработанная (fine-tuned) версия модели Llama-3-8B-Instruct, созданная с целью значительного улучшения работы с русским языком. Ключевая идея разработчика заключалась в формировании обучающего набора данных высокого качества с использованием возможностей GPT-4o — модели OpenAI, известной своими продвинутыми мультиязычными способностями. З основу было взято тщательно очищенное и структурированное подмножество датасета tagengo-gpt4, что позволило добиться высокой эффективности обучения. 80% обучающих примеров были на русском языке, что делает эту модель специализированным инструментом для русскоязычных задач.

С технической точки зрения, обучение проводилось в течение одной эпохи на двух ускорителях NVIDIA A100 с использованием фреймворка Axolotl. Архитектура модели сохраняет базовую структуру Llama 3, при обучении применялись оптимизации: Flash Attention 2 для ускорения обработки, DeepSpeed ZeRO-2 для эффективного распределения памяти. Веса сохранены в формате `bfloat16` для оптимального соотношения производительности и точности.

Качество данной модели подтверждается результатами на бенчмарке MT-Bench (многоязычный тест для оценки диалоговых способностей). На русском языке модель набрала 8.12 балла, что превосходит показатель GPT-3.5-turbo (7.94) и практически вплотную приближается к модели Suzume (8.19), при том, что последняя обучалась на наборе данных в 8 раз большем и более разнообразном. Важно отметить, что, в отличие от многих мультиязычных моделей, где улучшение одного языка может снижать качество на английском, здесь напротив наблюдается прирост английских показателей с 7.98 (у базовой Llama-3) до 8.01, что делает её сбалансированным решением.

Благодаря высокой компетенции в русскоязычных задачах модель отлично подходит для широкого спектра применений в русскоязычном домене.


Дата анонса: 29.06.2024
Параметров: 9B
Контекст: 9K
Слоев: 32
Тип внимания: Full Attention
Разработчик: ruslandev
Версия Transformers: 4.41.1
Лицензия: LLAMA 3

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с llama-3-8b-gpt-4o-ru1.0. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Tooling Статус Ссылка
ruslandev/llama-3-8b-gpt-4o-ru1.0 8192 Публичный RTX4090 54.00 доступен чат

API доступ к llama-3-8b-gpt-4o-ru1.0 эндпоинтам

curl https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "Llama-3-8B-GPT-4o-RU", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "Llama-3-8B-GPT-4o-RU"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade

from openai import OpenAI

client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/Llama-3-8B-GPT-4o-RU/generate/",
)

chat_response = client.chat.completions.create(
model="Llama-3-8B-GPT-4o-RU",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга llama-3-8b-gpt-4o-ru1.0

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160
8192
1 29,33 ₽ 6,20 Запустить
rtx2080ti-1.10.16.500
8192
1 34,23 ₽ 1,70 Запустить
teslaa2-1.16.32.160
8192
1 33,74 ₽ 6,20 Запустить
teslaa10-1.16.32.160
8192
1 46,94 ₽ 13,40 Запустить
rtx3080-1.16.32.160
8192
1 51,34 ₽ 0,80 Запустить
rtx3090-1.16.24.160
8192
1 73,73 ₽ 13,40 Запустить
rtx4090-1.16.32.160
8192
1 91,14 ₽ 13,40 Запустить
teslav100-1.12.64.160
8192
1 107,57 ₽ 20,60 Запустить
rtxa5000-2.16.64.160.nvlink
8192
tensor
2 109,77 ₽ 32,50 Запустить
rtx5090-1.16.64.160
8192
1 141,77 ₽ 20,60 Запустить
teslaa100-1.16.64.160
8192
1 211,77 ₽ 63,80 Запустить
h100-1.16.64.160
8192
1 341,77 ₽ 63,80 Запустить
h100nvl-1.16.96.160
8192
1 367,41 ₽ 76,40 Запустить
h200-1.16.128.160
8192
1 423,04 ₽ 118,70 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160
8192
1 29,33 ₽ 4,42 Запустить
teslaa2-1.16.32.160
8192
1 33,74 ₽ 4,42 Запустить
teslaa10-1.16.32.160
8192
1 46,94 ₽ 11,62 Запустить
rtx2080ti-2.12.64.160
8192
tensor
2 61,37 ₽ 7,32 Запустить
rtx3090-1.16.24.160
8192
1 73,73 ₽ 11,62 Запустить
rtx3080-2.16.32.160
8192
tensor
2 86,54 ₽ 5,52 Запустить
rtx4090-1.16.32.160
8192
1 91,14 ₽ 11,62 Запустить
teslav100-1.12.64.160
8192
1 107,57 ₽ 18,82 Запустить
rtxa5000-2.16.64.160.nvlink
8192
tensor
2 109,77 ₽ 30,72 Запустить
rtx5090-1.16.64.160
8192
1 141,77 ₽ 18,82 Запустить
teslaa100-1.16.64.160
8192
1 211,77 ₽ 62,02 Запустить
h100-1.16.64.160
8192
1 341,77 ₽ 62,02 Запустить
h100nvl-1.16.96.160
8192
1 367,41 ₽ 74,62 Запустить
h200-1.16.128.160
8192
1 423,04 ₽ 116,92 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
8192
1 46,94 ₽ 3,03 Запустить
teslat4-2.16.32.160
8192
tensor
2 48,14 ₽ 7,73 Запустить
teslaa2-2.16.32.160
8192
tensor
2 51,34 ₽ 7,73 Запустить
rtx3090-1.16.24.160
8192
1 73,73 ₽ 3,03 Запустить
rtx2080ti-3.12.24.120
8192
pipeline
3 74,84 ₽ 6,13 Запустить
rtx4090-1.16.32.160
8192
1 91,14 ₽ 3,03 Запустить
rtx2080ti-4.16.32.160
8192
tensor
4 99,74 ₽ 13,53 Запустить
teslav100-1.12.64.160
8192
1 107,57 ₽ 10,23 Запустить
rtxa5000-2.16.64.160.nvlink
8192
tensor
2 109,77 ₽ 22,13 Запустить
rtx3080-3.16.64.160
8192
pipeline
3 127,37 ₽ 3,43 Запустить
rtx5090-1.16.64.160
8192
1 141,77 ₽ 10,23 Запустить
rtx3080-4.16.64.160
8192
tensor
4 162,57 ₽ 9,93 Запустить
teslaa100-1.16.64.160
8192
1 211,77 ₽ 53,43 Запустить
h100-1.16.64.160
8192
1 341,77 ₽ 53,43 Запустить
h100nvl-1.16.96.160
8192
1 367,41 ₽ 66,03 Запустить
h200-1.16.128.160
8192
1 423,04 ₽ 108,33 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.