Перетворення PDF на TXT на C#

Як програміст, вам часто доводиться отримувати вміст із PDF-файлів як звичайний текст для подальшої обробки, наприклад аналізу та вилучення інформації. Обробка PDF-файлів і перетворення цілого PDF-файлу у формат TXT є клопітким завданням, якщо у вас немає потрібних інструментів. Тож у цьому блозі ми розглянемо, як програмно конвертувати PDF-файл у формат TXT за допомогою C#.

Бібліотека C# для перетворення PDF у TXT

Aspose.Words for .NET — це чудовий API обробки документів, який дозволяє розробникам працювати з документами Word, а також різними іншими форматами, включаючи PDF. Завдяки широкому набору функцій Aspose.Words спрощує роботу з документами, перетворення та створення завдань. Ми будемо використовувати цю бібліотеку для перетворення файлів PDF у формат TXT у програмі .NET.

Ви можете встановити бібліотеку з NuGet за допомогою наступної команди. Або завантажте його DLL із розділу Релізи.

PM> Install-Package Aspose.Words 

Перетворення PDF на TXT на C#

Aspose.Words for .NET приховує всі складні операції вилучення тексту з PDF-файлів і дає змогу виконувати перетворення PDF у TXT за кілька кроків, як зазначено нижче.

  • Завантажте файл PDF.
  • Перетворіть PDF у формат TXT за допомогою одного виклику функції.

Таким чином, за допомогою кількох рядків коду ви можете перетворити вміст PDF-файлу на звичайний текст, незалежно від розміру вихідного PDF-файлу. Давайте тепер напишемо код для виконання цього перетворення на C#.

  • Спочатку завантажте PDF за допомогою класу Document.
  • Потім збережіть документ як файл TXT за допомогою методу Document.Save(filePath).

Наступний фрагмент коду C# перетворює PDF у формат TXT.

// Завантажити файл PDF
Document pdf = new Document("document.pdf");

// Зберегти PDF як TXT
pdf.Save("pdf.txt", SaveFormat.Text);

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію на конвертацію PDF-файлів у формат TXT без обмежень оцінювання.

Висновок

У цій публікації блогу ми досліджували, як конвертувати PDF у TXT на C# за допомогою бібліотеки Aspose.Words for .NET. Дотримуючись інструкцій і використовуючи фрагмент коду, ви можете легко обробити великі файли PDF і перетворити їх на звичайний текст. Aspose.Words спрощує завдання обробки документів, роблячи його цінним інструментом для розробників, які працюють із різними форматами документів у своїх програмах. Ви можете відвідати документацію цієї бібліотеки обробки текстів .NET, щоб дослідити її дивовижні функції. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.

Дивись також