Překlad naskenovaných dokumentů PDF pomocí překladu dokumentů
Dnes Překlad dokumentů Funkce Translator, služby Microsoft Azure Cognitive Service, přidává možnost překládat dokumenty PDF obsahující naskenovaný obrazový obsah, což eliminuje potřebu zákazníků před překladem je před překladem předběžně zpracovávat prostřednictvím modulu OCR.
Překlad dokumentů byl obecně dostupný v loňském roce, 25. května 2021, což zákazníkům umožnilo překládat celé dokumenty a dávky dokumentů do více než 110 jazyků a dialektů při zachování rozložení a formátování původního souboru. Překlad dokumentů podporuje různé typy souborů, včetně Wordu, PowerPointu a PDF, a zákazníci můžou používat předem připravené nebo vlastní modely strojového překladu. Překlad dokumentů je připravený pro podniky s ověřováním Azure Active Directory a poskytuje zabezpečený přístup mezi službou a úložištěm prostřednictvím spravované identity.
Překlad souborů PDF s naskenovaným obrazovým obsahem je velmi žádanou funkcí od zákazníků zabývajících se překladem dokumentů. Pro zákazníky je obtížné oddělit dokumenty PDF, které mají běžný text nebo naskenovaný obrazový obsah, pomocí automatizace. To vytváří problémy s pracovními postupy, protože zákazníci musí směrovat dokumenty PDF s naskenovaným obrazovým obsahem nejprve do modulu OCR, než je odešlou do překladu dokumentů.
Služby překladu dokumentů nyní disponují zpravodajskými informacemi
- k identifikaci, zda dokument PDF obsahuje naskenovaný obrazový obsah či nikoli,
- směrovat soubory PDF obsahující naskenovaný obrazový obsah do modulu OCR interně za účelem extrahování textu,
- rekonstruovat přeložený obsah jako běžný text PDF při zachování původního rozvržení a struktury.
Formátování písma, jako je tučné písmo, kurzíva, podtržení, zvýraznění atd., se pro naskenovaný obsah PDF nezachytí, protože technologie OCR je v současné době nezachycuje. Formátování písma je však při překladu běžných textových dokumentů PDF zachováno.
Překlad dokumentů v současné době podporuje dokumenty PDF obsahující naskenovaný obrazový obsah z 68 zdrojových jazyků do 87 cílových jazyků. Podpora dalších zdrojových a cílových jazyků bude přidána v pravý čas.
Nyní je pro zákazníky snazší odesílat všechny dokumenty PDF přímo do překladu dokumentů a nechat je rozhodnout, kdy a jak efektivně používat modul OCR.
Pro zákazníky, kteří již používají překlad dokumentů, není nutná žádná změna kódu, aby mohli tuto novou funkci používat. Dokumenty PDF s naskenovaným obsahem lze odeslat k překladu jako jakékoli jiné podporované formáty dokumentů.
S potěšením také oznamujeme, že překlad dokumentu přidává podporu pro naskenovaný obsah dokumentů PDF bez dalších poplatků pro zákazníky. Pro překlad dokumentů prostřednictvím Azure jsou k dispozici dva cenové plány – plán průběžných plateb a plán množstevních slev D3 pro vyšší objemy překladů dokumentů. Podrobnosti o cenách naleznete na adrese aka.ms/TranslatorPricing.
Jak začít s překladem dokumentů najdete na adrese aka.ms/DocumentTranslationDocs.
Odeslat zpětnou vazbu na [email protected].