Разработчики Apache предупредили об опасной уязвимости в Tika - инструменте, который используют для извлечения текста и метаданных из документов по всему миру. Проблема получила максимальную оценку опасности и затрагивает версии Tika до 3.2.1.
Исследователи выяснили, что при обработке PDF с XFA-формами Tika по ошибке разрешает внешние XML-сущности. Это открывает прямой путь для XXE-атаки: злоумышленник может заставить сервер прочитать локальные файлы, отправить запросы к внутренней инфраструктуре или вытащить конфиденциальные данные. По сути, достаточно загрузить один специально подготовленный PDF, чтобы получить доступ к содержимому системы, которая его анализирует.
Особенно тревожит масштаб потенциального ущерба. Tika встроена в поисковые движки, системы документооборота, сервисы анализа контента, платформы для индексирования и корпоративные порталы. Во многих случаях обработка файлов происходит автоматически, что делает атаку практически невидимой.
Apache уже выпустила исправление в версии 3.2.2 и настоятельно рекомендует обновиться всем, кто использует библиотеку. Эксперты подчёркивают: уязвимость крайне проста в эксплуатации, а последствия могут быть серьёзными, поэтому затягивать с обновлением нельзя.