Naskenované soubory PDF obsahují obrázky, kde text nelze vybrat nebo upravit. V určitých situacích může být nutné převést naskenované PDF do dokumentu aplikace Word. V tomto článku se dozvíte, jak převést naskenovaný PDF do dokumentu Word ve formátu DOCX nebo DOC programově pomocí C#:
- Převodník naskenovaných PDF do Wordu DOCX – instalace C# API
- Převeďte naskenované PDF na dokument Word programově pomocí C#
Převodník naskenovaných PDF do Wordu DOCX – instalace C# API
S naskenovanými soubory PDF můžete pracovat provedením operací OCR pomocí Apose.OCR for .NET API a poté vytvořit dokument aplikace Word pomocí Apose.Words for .NET API programově pomocí C#. Rozhraní API můžete nakonfigurovat stažením souborů DLL z New Releases nebo pomocí následujících instalačních příkazů NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Převeďte naskenované PDF na dokument Word programově pomocí C#
Naskenované soubory PDF můžete převést na dokumenty aplikace Word tak, že text rozpoznáte opticky. Operace OCR převedou naskenované PDF na text a poté se dokument Word vygeneruje ve formátu DOC nebo DOCX. Chcete-li převést naskenovaný soubor PDF do dokumentu aplikace Word, postupujte podle následujících kroků:
- Inicializujte instanci třídy AsposeOcr.
- Rozpoznejte obrázky z PDF pomocí třídy DocumentRecognitionSettings.
- Inicializujte objekt třídy StringBuilder a uložte text.
- Inicializujte dokument aplikace Word pomocí třídy Document.
- Určete písmo a formátování odstavce.
- Uložte výstupní dokument aplikace Word jako soubor DOCX nebo DOC.
Následující fragment kódu ukazuje, jak převést naskenovaný soubor PDF na dokument aplikace Word programově pomocí C#:
// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Rozpoznejte obrázky z PDF pomocí třídy DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Uložte výsledky rozpoznávání
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Inicializujte objekt třídy StringBuilder
StringBuilder text = new StringBuilder();
// Uložit výsledek jako text
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Inicializujte dokument aplikace Word pomocí třídy Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Určete formátování písma
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Určete formátování odstavce
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Uložit výstupní dokument aplikace Word.
doc.Save("Scanned_PDF_to_Word.docx");
Získejte bezplatnou zkušební licenci
Rozhraní API můžete otestovat v plné kapacitě tím, že požádáte o bezplatnou dočasnou licenci.
Závěr
V tomto článku jste se naučili, jak převést naskenovaný soubor PDF na dokument aplikace Word ve formátu DOCX nebo DOC programově pomocí C#. Kromě toho můžete prozkoumat několik dalších funkcí souvisejících s OCR návštěvou dokumentace. V případě jakýchkoliv dotazů nás neváhejte kontaktovat na fóru.
Viz také
Tip: Pokud někdy potřebujete získat dokument aplikace Word z prezentace PowerPoint, můžete použít převodník Aspose Presentation to Word Document.