Редактируемые и нередактируемые форматы
Все файлы для перевода делятся на две категории:
- Редактируемые — DOCX, XLSX, PPTX, HTML, XML, JSON, PO, IDML (InDesign), MIF (FrameMaker). Текст извлекается напрямую, переводится в CAT-системе и возвращается в исходный формат с сохранением вёрстки.
- Нередактируемые — PDF (особенно сканы), JPG/PNG (фото документов), бумажные оригиналы. Требуют предварительного этапа: распознавание текста (OCR) или ручной набор.
Стоимость перевода нередактируемого файла на 20–50% выше: за счёт OCR, проверки распознанного текста и восстановления форматирования.
PDF: самый популярный и самый проблемный
По нашей статистике за 2025 год, 38% заказов приходят в формате PDF. Из них:
- Текстовые PDF (созданы из Word, InDesign) — текст можно скопировать. CAT-система извлечёт его, но форматирование будет потеряно частично или полностью. Конвертация в DOCX через Adobe Acrobat Pro даёт 80–90% точности.
- Сканированные PDF — изображения страниц. Текст не извлекается без OCR. Качество зависит от разрешения скана (от 300 dpi) и состояния оригинала.
- Гибридные PDF — часть страниц текстовые, часть — сканы. Встречаются в договорах, где основной текст набран, а приложения — отсканированы.
Рекомендация: если у вас есть исходник (DOCX, IDML), отправляйте его. Перевод из исходника — быстрее, дешевле и точнее.
OCR: распознавание текста для перевода
Для сканированных PDF мы используем OCR (Optical Character Recognition):
- ABBYY FineReader — лидер по качеству распознавания для кириллицы, латиницы и CJK. Точность — 97–99% для качественных сканов.
- Adobe Acrobat Pro — встроенный OCR, удобен для текстовых PDF с незначительными сканированными вставками.
- Tesseract — open source OCR. Используем для пакетной обработки и нестандартных языков.
После OCR текст обязательно вычитывается — даже при 99% точности в документе на 50 страниц будет 100–200 ошибок распознавания: перепутанные буквы (о→0, l→1), слитые слова, потерянные диакритики.
XLIFF: стандарт обмена между CAT-системами
XLIFF (XML Localization Interchange File Format) — стандарт OASIS для обмена переводческими данными между разными инструментами. Версии: XLIFF 1.2 (широко поддерживается) и XLIFF 2.0 (актуальная).
Зачем нужен XLIFF:
- Переносимость — переводчик работает в memoQ, бюро — в Trados. XLIFF позволяет передать проект без потери данных.
- Контекст — XLIFF хранит не только текст, но и метаданные: состояние сегмента (переведён/не переведён), заметки, альтернативные варианты.
- QA — большинство QA-инструментов (Verifika, Xbench) работают с XLIFF напрямую.
Проприетарные варианты: SDLXLIFF (Trados), MQXLIFF (memoQ). Совместимы с «базовым» XLIFF, но содержат дополнительные данные, специфичные для CAT.
TMX: портативность Translation Memory
TMX (Translation Memory eXchange) — стандарт для обмена памятью переводов. Практически все CAT-системы поддерживают импорт/экспорт TMX.
Когда TMX необходим:
- Смена CAT-системы — при переходе с Trados на memoQ (или наоборот) TM экспортируется в TMX и импортируется в новую систему.
- Смена подрядчика — заказчик забирает свою TM в формате TMX и передаёт новому бюро. TM — интеллектуальная собственность заказчика.
- Объединение TM — при слиянии проектов или компаний несколько TMX объединяются в одну базу.
Мы предоставляем клиентам TM в формате TMX по завершении каждого проекта. Это стандартная практика, закреплённая в договоре.
Специализированные форматы
Для локализации сайтов и ПО используются специфические форматы:
- PO/POT (gettext) — стандарт локализации для Linux, WordPress, PHP-проектов
- JSON — локализация JavaScript-приложений (React, Angular, Vue)
- YAML — Ruby on Rails, Python, конфигурации
- RESX — .NET-приложения
- STRINGS — iOS-приложения
- XML (Android) — Android-приложения (strings.xml)
Все эти форматы поддерживаются основными CAT-системами. Для письменного перевода документации чаще всего работаем с DOCX и PDF, для вёрстки — с IDML и MIF.
Рекомендации для заказчиков
Чтобы перевод был быстрее и дешевле:
- Отправляйте исходные редактируемые файлы, а не PDF
- Если есть только PDF — укажите, текстовый он или сканированный
- Для сканов — обеспечьте разрешение от 300 dpi, ровное расположение страниц
- Если у вас есть TM от предыдущего подрядчика — предоставьте TMX, это снизит стоимость
- Для локализации ПО — выгрузите строки в стандартном формате (JSON, PO, XLIFF), а не в виде скриншотов