Převést PDF na TXT v C#

Jako programátor často musíte extrahovat obsah ze souborů PDF jako prostý text pro další zpracování, jako je analýza a extrakce informací. Zpracování souborů PDF a převod celého PDF do formátu TXT je obtížný úkol, když nemáte ty správné nástroje. V tomto blogu tedy prozkoumáme, jak převést soubor PDF do formátu TXT programově v C#.

Knihovna C# pro převod PDF na TXT

Aspose.Words for .NET je úžasné API pro zpracování dokumentů, které umožňuje vývojářům pracovat s dokumenty Wordu a také s různými dalšími formáty, včetně PDF. Díky rozsáhlé sadě funkcí Aspose.Words zjednodušuje manipulaci s dokumenty, převod a generování. Tuto knihovnu použijeme pro převod souborů PDF do formátu TXT v aplikaci .NET.

Knihovnu můžete nainstalovat z NuGet pomocí následujícího příkazu. Nebo si stáhněte jeho DLL ze sekce Releases.

PM> Install-Package Aspose.Words 

Převést PDF na TXT v C#

Aspose.Words for .NET skrývá všechny složité operace extrakce textu ze souborů PDF a umožňuje provádět převod PDF na TXT v několika krocích, jak je uvedeno níže.

  • Načtěte soubor PDF.
  • Převeďte PDF do formátu TXT pomocí jediného volání funkce.

Pomocí několika řádků kódu tedy můžete převést obsah souboru PDF na prostý text bez ohledu na to, jak velký je zdrojový soubor PDF. Pojďme nyní napsat kód pro provedení této konverze v C#.

  • Nejprve načtěte PDF pomocí třídy Document.
  • Poté uložte dokument jako soubor TXT pomocí metody Document.Save(filePath).

Následující fragment kódu C# převede PDF do formátu TXT.

// Načíst soubor PDF
Document pdf = new Document("document.pdf");

// Uložit PDF jako TXT
pdf.Save("pdf.txt", SaveFormat.Text);

Získejte bezplatnou licenci API

Můžete získat bezplatnou dočasnou licenci pro převod souborů PDF do formátu TXT bez omezení hodnocení.

Závěr

V tomto příspěvku na blogu jsme prozkoumali, jak převést PDF na TXT v C# pomocí knihovny Aspose.Words for .NET. Podle pokynů a pomocí úryvku kódu můžete snadno zpracovat velké soubory PDF a převést je na prostý text. Aspose.Words zjednodušuje úlohy zpracování dokumentů, takže je cenným nástrojem pro vývojáře, kteří ve svých aplikacích pracují s různými formáty dokumentů. Můžete navštívit dokumentaci této knihovny pro zpracování textu .NET a prozkoumat její úžasné funkce. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.

Viz také