whisper-large-v3

русскоязычная

Модель Whisper large-v3 представляет собой последнюю и наиболее совершенную версию в семействе ASR моделей от OpenAI. Модель разработана для решения широкого спектра задач обработки речи в рамках единого фреймворка. В отличие от традиционных ASR-систем, требующих сложных пайплайнов из нескольких специализированных компонентов, Whisper использует унифицированную архитектуру sequence-to-sequence. Это позволяет модели выполнять не только транскрипцию речи, но и такие задачи, как идентификация языка, голосовая активность и перевод на английский язык, обрабатывая аудио «из коробки» без дообучения.

Архитектурно large-v3 базируется на проверенном трансформере encoder-decoder, сохранив общую структуру предыдущих версий (large и large-v2), но с двумя ключевыми улучшениями. Во-первых, модель использует 128 мел-частотных бинов для обработки входного аудиосигнала вместо 80, используемых ранее, что позволяет захватывать более тонкие детали аудио, особенно важные для языков с богатой тональностью и сложной фонетикой. Во-вторых, large-v3 была обучена с помощью зарекомендовавшего себя метода слабо контролируемого обучения (weak supervision) на внушительном объеме данных – около 5 млн часов. Также в модель был добавлен новый языковой токен для кантонского диалекта. По сравнению с предшественником Whisper large-v2, новая модель показывает снижение количества ошибок на 10-20% для широкого спектра языков, что делает её наиболее точной версией среди всех выпущенных OpenAI.

Whisper large-v3 идеально подходит для автоматического создания субтитров к видео, лекциям, подкастам, вебинарам и интервью на множестве языков, причём возможность возвращать таймкоды на уровне слов или предложений значительно упрощает этот процесс. Также она может использоваться для перевода аудиоконтента или служить основой для систем голосового управления, диктовки текста, а также для анализа звонков в контакт-центрах, автоматически определяя тему разговора и ключевые требования. Наконец, модель является отличной отправной точкой для исследователей, которые могут дообучать её под узкоспециализированные задачи с использованием небольшого объема размеченных данных.


Дата анонса: 07.11.2023
Параметров: 2B
Контекст: 448
Слоев: 32
Тип внимания: Full Attention
Разработчик: OpenAI
Версия Transformers: 4.36.0.dev0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с whisper-large-v3. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга whisper-large-v3

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160 1 29,33 ₽ 8,36 Запустить
rtx2080ti-1.10.16.500 1 34,23 ₽ 4,95 Запустить
teslaa2-1.16.32.160 1 33,74 ₽ 8,36 Запустить
teslaa10-1.16.32.160 1 46,94 ₽ 13,82 Запустить
rtx3080-1.16.32.160 1 51,34 ₽ 4,26 Запустить
rtx3090-1.16.24.160 1 73,73 ₽ 13,82 Запустить
rtx4090-1.16.32.160 1 91,14 ₽ 13,82 Запустить
teslav100-1.12.64.160 1 107,57 ₽ 19,28 Запустить
rtxa5000-2.16.64.160.nvlink
tensor
2 109,77 ₽ 28,31 Запустить
rtx5090-1.16.64.160 1 141,77 ₽ 19,28 Запустить
teslaa100-1.16.64.160 1 211,77 ₽ 52,05 Запустить
h100-1.16.64.160 1 341,77 ₽ 52,05 Запустить
h100nvl-1.16.96.160 1 367,41 ₽ 61,61 Запустить
h200-1.16.128.160 1 423,04 ₽ 93,69 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160 1 29,33 ₽ 7,83 Запустить
rtx2080ti-1.10.16.500 1 34,23 ₽ 4,42 Запустить
teslaa2-1.16.32.160 1 33,74 ₽ 7,83 Запустить
teslaa10-1.16.32.160 1 46,94 ₽ 13,30 Запустить
rtx3080-1.16.32.160 1 51,34 ₽ 3,74 Запустить
rtx3090-1.16.24.160 1 73,73 ₽ 13,30 Запустить
rtx4090-1.16.32.160 1 91,14 ₽ 13,30 Запустить
teslav100-1.12.64.160 1 107,57 ₽ 18,76 Запустить
rtxa5000-2.16.64.160.nvlink
tensor
2 109,77 ₽ 27,78 Запустить
rtx5090-1.16.64.160 1 141,77 ₽ 18,76 Запустить
teslaa100-1.16.64.160 1 211,77 ₽ 51,52 Запустить
h100-1.16.64.160 1 341,77 ₽ 51,52 Запустить
h100nvl-1.16.96.160 1 367,41 ₽ 61,08 Запустить
h200-1.16.128.160 1 423,04 ₽ 93,17 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160 1 29,33 ₽ 6,84 Запустить
rtx2080ti-1.10.16.500 1 34,23 ₽ 3,42 Запустить
teslaa2-1.16.32.160 1 33,74 ₽ 6,84 Запустить
teslaa10-1.16.32.160 1 46,94 ₽ 12,30 Запустить
rtx3080-1.16.32.160 1 51,34 ₽ 2,74 Запустить
rtx3090-1.16.24.160 1 73,73 ₽ 12,30 Запустить
rtx4090-1.16.32.160 1 91,14 ₽ 12,30 Запустить
teslav100-1.12.64.160 1 107,57 ₽ 17,76 Запустить
rtxa5000-2.16.64.160.nvlink
tensor
2 109,77 ₽ 26,79 Запустить
rtx5090-1.16.64.160 1 141,77 ₽ 17,76 Запустить
teslaa100-1.16.64.160 1 211,77 ₽ 50,53 Запустить
h100-1.16.64.160 1 341,77 ₽ 50,53 Запустить
h100nvl-1.16.96.160 1 367,41 ₽ 60,08 Запустить
h200-1.16.128.160 1 423,04 ₽ 92,17 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.