Пн-Пт: 9:00-19:00 | Сб-Вс: 10:00-18:00 | Заявки принимаем онлайн круглосуточно
RU | EN | 中文
Технологии 10 мин чтения

Форматы файлов для перевода: PDF, DOCX, XLIFF, TMX

Формат исходного файла напрямую влияет на стоимость и сроки перевода. Редактируемый DOCX обрабатывается в 2–3 раза быстрее, чем отсканированный PDF. Разбираем форматы, которые встречаются чаще всего, и даём рекомендации.

Форматы файлов для перевода: PDF, DOCX, XLIFF, TMX

Редактируемые и нередактируемые форматы

Все файлы для перевода делятся на две категории:

  • Редактируемые — DOCX, XLSX, PPTX, HTML, XML, JSON, PO, IDML (InDesign), MIF (FrameMaker). Текст извлекается напрямую, переводится в CAT-системе и возвращается в исходный формат с сохранением вёрстки.
  • Нередактируемые — PDF (особенно сканы), JPG/PNG (фото документов), бумажные оригиналы. Требуют предварительного этапа: распознавание текста (OCR) или ручной набор.

Стоимость перевода нередактируемого файла на 20–50% выше: за счёт OCR, проверки распознанного текста и восстановления форматирования.

PDF: самый популярный и самый проблемный

По нашей статистике за 2025 год, 38% заказов приходят в формате PDF. Из них:

  • Текстовые PDF (созданы из Word, InDesign) — текст можно скопировать. CAT-система извлечёт его, но форматирование будет потеряно частично или полностью. Конвертация в DOCX через Adobe Acrobat Pro даёт 80–90% точности.
  • Сканированные PDF — изображения страниц. Текст не извлекается без OCR. Качество зависит от разрешения скана (от 300 dpi) и состояния оригинала.
  • Гибридные PDF — часть страниц текстовые, часть — сканы. Встречаются в договорах, где основной текст набран, а приложения — отсканированы.

Рекомендация: если у вас есть исходник (DOCX, IDML), отправляйте его. Перевод из исходника — быстрее, дешевле и точнее.

OCR: распознавание текста для перевода

Для сканированных PDF мы используем OCR (Optical Character Recognition):

  • ABBYY FineReader — лидер по качеству распознавания для кириллицы, латиницы и CJK. Точность — 97–99% для качественных сканов.
  • Adobe Acrobat Pro — встроенный OCR, удобен для текстовых PDF с незначительными сканированными вставками.
  • Tesseract — open source OCR. Используем для пакетной обработки и нестандартных языков.

После OCR текст обязательно вычитывается — даже при 99% точности в документе на 50 страниц будет 100–200 ошибок распознавания: перепутанные буквы (о→0, l→1), слитые слова, потерянные диакритики.

XLIFF: стандарт обмена между CAT-системами

XLIFF (XML Localization Interchange File Format) — стандарт OASIS для обмена переводческими данными между разными инструментами. Версии: XLIFF 1.2 (широко поддерживается) и XLIFF 2.0 (актуальная).

Зачем нужен XLIFF:

  • Переносимость — переводчик работает в memoQ, бюро — в Trados. XLIFF позволяет передать проект без потери данных.
  • Контекст — XLIFF хранит не только текст, но и метаданные: состояние сегмента (переведён/не переведён), заметки, альтернативные варианты.
  • QA — большинство QA-инструментов (Verifika, Xbench) работают с XLIFF напрямую.

Проприетарные варианты: SDLXLIFF (Trados), MQXLIFF (memoQ). Совместимы с «базовым» XLIFF, но содержат дополнительные данные, специфичные для CAT.

TMX: портативность Translation Memory

TMX (Translation Memory eXchange) — стандарт для обмена памятью переводов. Практически все CAT-системы поддерживают импорт/экспорт TMX.

Когда TMX необходим:

  • Смена CAT-системы — при переходе с Trados на memoQ (или наоборот) TM экспортируется в TMX и импортируется в новую систему.
  • Смена подрядчика — заказчик забирает свою TM в формате TMX и передаёт новому бюро. TM — интеллектуальная собственность заказчика.
  • Объединение TM — при слиянии проектов или компаний несколько TMX объединяются в одну базу.

Мы предоставляем клиентам TM в формате TMX по завершении каждого проекта. Это стандартная практика, закреплённая в договоре.

Специализированные форматы

Для локализации сайтов и ПО используются специфические форматы:

  • PO/POT (gettext) — стандарт локализации для Linux, WordPress, PHP-проектов
  • JSON — локализация JavaScript-приложений (React, Angular, Vue)
  • YAML — Ruby on Rails, Python, конфигурации
  • RESX — .NET-приложения
  • STRINGS — iOS-приложения
  • XML (Android) — Android-приложения (strings.xml)

Все эти форматы поддерживаются основными CAT-системами. Для письменного перевода документации чаще всего работаем с DOCX и PDF, для вёрстки — с IDML и MIF.

Рекомендации для заказчиков

Чтобы перевод был быстрее и дешевле:

  1. Отправляйте исходные редактируемые файлы, а не PDF
  2. Если есть только PDF — укажите, текстовый он или сканированный
  3. Для сканов — обеспечьте разрешение от 300 dpi, ровное расположение страниц
  4. Если у вас есть TM от предыдущего подрядчика — предоставьте TMX, это снизит стоимость
  5. Для локализации ПО — выгрузите строки в стандартном формате (JSON, PO, XLIFF), а не в виде скриншотов
#форматы файлов #XLIFF #TMX #PDF #OCR #CAT-tools

Нужен профессиональный перевод?

Отправьте заявку и получите расчёт стоимости в течение 30 минут

Позвонить Max Max
Max