Масштаб проблемы: почему безопасность данных в переводе — не паранойя
По данным отчёта Slator за 2024 год, 67% бюро переводов используют хотя бы одну облачную платформу для управления проектами. При этом 43% корпоративных клиентов называют безопасность данных главным критерием при выборе переводческого подрядчика — выше, чем стоимость (38%) и сроки (31%).
Проблема не теоретическая. В марте 2023 года Samsung запретила использование ChatGPT после трёх инцидентов утечки конфиденциальной информации за 20 дней. Данные попали на серверы OpenAI и были использованы для дальнейшего обучения модели. В переводческой отрасли аналогичные риски существуют на каждом этапе: от машинного перевода до хранения Translation Memory.
Для компаний, работающих с патентной документацией, M&A-сделками, медицинскими данными или персональной информацией, утечка через переводческий канал может обойтись в миллионы рублей штрафов и репутационных потерь.
Бесплатный машинный перевод: что происходит с вашими текстами
Бесплатные онлайн-переводчики — самый очевидный канал утечки. Что происходит с текстом, когда вы вставляете его в Google Translate, DeepL Free или Яндекс.Переводчик:
Google Translate (бесплатная версия). Согласно условиям использования, Google получает право использовать переданный контент для улучшения сервисов. Текст проходит через серверы Google, логируется и может быть использован для обучения моделей. Для корпоративных клиентов есть Cloud Translation API с другими условиями — но большинство сотрудников используют именно бесплатный веб-интерфейс.
DeepL Free. DeepL утверждает, что тексты бесплатных пользователей не используются для обучения, но сохраняются временно на серверах для обработки. Платная версия DeepL Pro гарантирует удаление текстов сразу после перевода и соответствие GDPR. Разница принципиальная — но стоит ли рисковать, если речь идёт о конфиденциальном договоре?
ChatGPT и другие LLM. OpenAI прямо указывает, что данные из бесплатных аккаунтов используются для обучения. Даже платные подписки ChatGPT Plus не дают полной гарантии — нужен API-доступ с отдельным соглашением об обработке данных (DPA). Один юридический документ, загруженный в чат-бот менеджером «для быстрого перевода», может оказаться в обучающей выборке навсегда.
Практический вывод: бесплатные MT-сервисы категорически не подходят для конфиденциальных текстов. Даже если политика конфиденциальности формально допускает использование, вы теряете контроль над данными.
Облачные CAT-системы: кому принадлежит ваша Translation Memory?
Облачные CAT-платформы — Phrase (бывший Memsource), Smartcat, Crowdin, XTM Cloud — хранят Translation Memory, терминологические базы и исходные тексты на своих серверах. Это создаёт несколько уровней риска:
Владение данными. Кто юридически владеет TM, накопленной за 5 лет работы? По условиям большинства облачных CAT-систем, данные принадлежат пользователю. Но на практике экспорт TM из одной системы в другую сопряжён с потерей метаданных, сегментации и привязки к проектам. Vendor lock-in — реальная проблема.
Доступ третьих лиц. Администраторы облачной платформы технически имеют доступ к вашим данным. В Phrase (Memsource) и Smartcat данные шифруются при хранении (at rest) и передаче (in transit), но платформа расшифровывает их для обработки — иначе функции TM и поиска не работали бы.
Юрисдикция хранения. Серверы Phrase расположены в AWS (Ирландия и Франкфурт для EU-клиентов, Вирджиния для остальных). Smartcat хранит данные в AWS US-East. Для российских компаний, обязанных соблюдать 152-ФЗ о локализации персональных данных, это потенциальное нарушение.
Интеграция с MT. Многие облачные CAT-системы предлагают встроенный машинный перевод: Phrase интегрирует Google, DeepL, Amazon Translate. При включении MT-подсказок исходный текст автоматически отправляется на серверы MT-провайдера. Часть клиентов не осознают, что включение этой функции означает передачу данных третьей стороне.
Перед выбором облачной CAT-системы проверьте: где физически хранятся данные, поддерживается ли шифрование end-to-end, есть ли DPA (Data Processing Agreement), можно ли отключить MT-интеграции для конкретных проектов.
On-premise и self-hosted решения: полный контроль
Для проектов с максимальными требованиями к безопасности облачные решения не подходят. Альтернативы:
SDL Trados Studio (десктоп). Устанавливается локально на компьютер переводчика. TM и терминологические базы хранятся на локальном диске или корпоративном сервере. Никакие данные не передаются на внешние серверы — при условии, что отключены облачные функции (Language Cloud). Для технического перевода конфиденциальной документации это остаётся золотым стандартом.
memoQ Server (on-premise). Серверная версия memoQ устанавливается на инфраструктуре заказчика или бюро. Командная работа, управление TM, контроль качества — всё в пределах корпоративной сети. Стоимость лицензии — от 22 000 EUR за сервер + клиентские лицензии, но для крупных проектов это оправдано.
Self-hosted MT: MarianNMT и OpenNMT. Вместо отправки текстов в Google или DeepL можно развернуть собственный движок машинного перевода. MarianNMT (Microsoft) и OpenNMT — open-source фреймворки, которые работают на локальном сервере. Качество уступает коммерческим движкам на 5–15% по BLEU, но данные не покидают периметр.
Phrase (Memsource) с SSO и выделенным окружением. Для корпоративных клиентов Phrase предлагает план Enterprise с Single Sign-On (SSO), IP-whitelisting, выделенными инстансами и расширенным DPA. Это компромисс между удобством облака и требованиями безопасности.
Выбор зависит от баланса между бюджетом, удобством и уровнем конфиденциальности. Для стандартных коммерческих переводов облачная платформа с DPA — разумный выбор. Для патентной документации, медицинских данных или M&A-проектов — только on-premise.
GDPR, 152-ФЗ и международные требования
Если вы работаете с европейскими контрагентами или переводите документы, содержащие персональные данные граждан ЕС, соблюдение GDPR обязательно. Ключевые требования к переводческому процессу:
- Data Processing Agreement (DPA). Бюро переводов выступает как обработчик данных (data processor). DPA фиксирует: цель обработки, категории данных, срок хранения, технические и организационные меры защиты (TOMs). Без подписанного DPA передача данных бюро — нарушение GDPR.
- Минимизация данных. Переводчик должен получить только тот объём персональных данных, который необходим для выполнения перевода. Если возможно — анонимизация или псевдонимизация перед передачей.
- Right to erasure. Клиент имеет право потребовать удаления всех данных после завершения проекта. Бюро обязано удалить исходники, переводы и TM-записи, содержащие персональные данные.
- Уведомление об инцидентах. При утечке данных — уведомление надзорного органа в течение 72 часов, уведомление субъектов данных — без необоснованной задержки.
Российское законодательство (152-ФЗ). Требует хранения персональных данных российских граждан на территории РФ. Если бюро использует облачную CAT-систему с серверами за рубежом для перевода документов с ПД российских граждан — это потенциальное нарушение. Штрафы: до 18 млн рублей для юридических лиц (с учётом ужесточения 2024 года).
Для проектов с медицинскими переводами, где фигурируют диагнозы, анамнезы и результаты анализов, требования ещё жёстче: 323-ФЗ о врачебной тайне дополнительно ограничивает круг лиц, имеющих доступ к медицинской информации.
Как бюро «Универсал» защищает данные клиентов
Мы выстроили систему защиты данных на четырёх уровнях:
1. Юридический уровень. NDA подписывается до передачи материалов — с каждым клиентом и с каждым переводчиком. Стандартный срок действия NDA — 5 лет после завершения проекта. Принимаем NDA заказчика или предоставляем собственную форму, прошедшую правовую экспертизу. Работаем по договору с полным комплектом закрывающих документов (бюро на УСН, без НДС).
2. Технический уровень. Файлы передаются через защищённый портал (TLS 1.3). При необходимости — шифрование AES-256 с передачей пароля по отдельному каналу. Для on-premise проектов используем SDL Trados Studio без облачных функций, TM хранится на нашем защищённом сервере в Москве.
3. Организационный уровень. Принцип минимальных привилегий: переводчик получает доступ только к своему сегменту проекта. Запрет на использование бесплатных MT-сервисов и чат-ботов для конфиденциальных текстов — это прописано в регламенте и контролируется. Все 50+ переводчиков проходят инструктаж по информационной безопасности.
4. Контроль и аудит. Логирование всех операций с файлами. Ежеквартальный аудит соблюдения процедур. В 2023 году мы прекратили сотрудничество с двумя специалистами за нарушение протокола безопасности.
Для проектов высшей конфиденциальности — нотариально заверенные переводы юридических документов, патентные заявки, M&A-документация — мы предлагаем расширенный протокол: выделенные переводчики, изолированное рабочее пространство, удаление всех данных в течение 24 часов после приёмки.
Чек-лист: на что обратить внимание при выборе подрядчика
Перед передачей конфиденциальных документов на перевод проверьте:
- NDA. Готов ли подрядчик подписать ваш NDA или предоставить свой? Подписывают ли NDA субподрядчики (фрилансеры)?
- CAT-система. Какая платформа используется? Облачная или десктопная? Где хранятся TM и исходники?
- MT-политика. Использует ли бюро машинный перевод? Какой движок? Отправляются ли данные на внешние серверы?
- Хранение данных. Как долго хранятся файлы после сдачи? Где физически расположены серверы?
- Доступ переводчиков. Как организован доступ? Скачивают ли переводчики файлы на личные устройства?
- Соответствие регуляциям. GDPR, 152-ФЗ — есть ли подтверждение соответствия?
- Аудит и инциденты. Проводятся ли аудиты безопасности? Есть ли план реагирования на инциденты?
Если подрядчик не может ответить на эти вопросы — это серьёзный сигнал. Безопасность данных не бывает «по умолчанию»: она требует конкретных мер, процедур и инвестиций.
Узнать стоимость перевода с гарантией защиты данных или задать вопросы — свяжитесь с нами.