Модель DeepSeek-OCR представляет собой уникальный мультимодальный визуально-языковой трансформер, с 570 млн активных параметров во время инференса, разработанный для эффективного оптического сжатия длинных контекстов текста в визуальных токенах. Ключевая инновация DeepSeek-OCR лежит в понимании, что изображение, содержащее текст документа, может представлять информацию существенно меньшим количеством токенов, чем эквивалентный цифровой текст. Архитектурно DeepSeek-OCR состоит из двух основных компонентов: DeepEncoder и DeepSeek3B-MoE-декодера. DeepEncoder обрабатывает изображения, создания сжатое визуальное представления текста. Декодер DeepSeek-OCR (на базе DeepSeek VL2) восстанавливает из визуальных токенов исходный текст и структурированную информацию. Такое новый подход позволяет модели сохранять более высокое качество, чем у более крупных моделей при своем небольшом размере и минимальных вычислительных затратах даже при использовании full attention внимания.
DeepSeek-OCR выгодно отличается от других современных мультимодальных моделей тем, что достигает нужного качества OCR при в 2–10 раз меньшем числе токенов, что существенно ускоряет и упрощает обработку объёмных текстовых документов или же потока однотипных документов. В бенчмарках DeepSeek-OCR демонстрирует выдающиеся результаты. На В Fox 21 benchmark достигается точность декодирования около 97% при сжатии текста визуальными токенами с коэффициентом 10, что превосходит многие современные OCR и OCR+визуал-текстовые модели. На OmniDocBench DeepSeek-OCR занимает лидирующие позиции, он использует лишь около 100 токенов для изображений в разрешении 640×640, при этом сохраняя точность распознавания и парсинга сложных структур: формул, таблиц, графиков и т. д. В некоторых категориях документов (например, презентации) модели требуется менее 64 визуальных токенов для качественного распознавания.
Модель адаптивна и поддерживает несколько режимов работы (Tiny, Small, Base, Large, Gundam) для разных типов документов. Она идеально подходит для масштабных проектов по оцифровке сканированной текстовой информации, распознавания многоязычных PDF (с поддержкой около 100 языков), а также рендеринга и структурного парсинга документов с таблицами, формулами, графиками и естественными изображениями. Разработчики рекомендуют DeepSeek-OCR для работы с историческими архивами, документов с длинным контекстом, автоматизации финансовых процессов.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
8192 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
8192 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
8192 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
8192 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
8192 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
8192 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
8192 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
8192 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
8192 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
8192 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
8192 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
8192 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
8192 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
8192 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
8192 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
8192 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
8192 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить | |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.