Преобразование PDF в TXT на C#

Программисту часто приходится извлекать содержимое PDF-файлов в виде обычного текста для дальнейшей обработки, например анализа и извлечения информации. Обработка PDF-файлов и преобразование всего PDF-файла в формат TXT — непростая задача, если у вас нет подходящих инструментов. Итак, в этом блоге мы рассмотрим, как программно конвертировать PDF-файл в формат TXT на C#.

Библиотека C# для преобразования PDF в TXT

Aspose.Words for .NET — это потрясающий API для обработки документов, который позволяет разработчикам работать с документами Word, а также с различными другими форматами, включая PDF. Благодаря обширному набору функций Aspose.Words упрощает задачи манипулирования, преобразования и создания документов. Мы будем использовать эту библиотеку для преобразования файлов PDF в формат TXT в приложении .NET.

Вы можете установить библиотеку из NuGet с помощью следующей команды. Или скачайте его DLL из раздела Релизы.

PM> Install-Package Aspose.Words 

Преобразование PDF в TXT на C#

Aspose.Words for .NET скрывает все сложные операции по извлечению текста из файлов PDF и позволяет выполнять преобразование PDF в TXT за пару шагов, как указано ниже.

  • Загрузите PDF-файл.
  • Преобразование PDF в формат TXT с помощью одного вызова функции.

Таким образом, с помощью пары строк кода вы можете преобразовать содержимое PDF-файла в обычный текст, независимо от размера исходного PDF-файла. Давайте теперь напишем код для выполнения этого преобразования на C#.

  • Сначала загрузите PDF-файл, используя класс Document.
  • Затем сохраните документ как файл TXT, используя метод Document.Save(filePath).

Следующий фрагмент кода C# преобразует PDF в формат TXT.

// Загрузить PDF-файл
Document pdf = new Document("document.pdf");

// Сохранить PDF как TXT
pdf.Save("pdf.txt", SaveFormat.Text);

Получите бесплатную лицензию API

Вы можете получить бесплатную временную лицензию для преобразования PDF-файлов в формат TXT без ограничений ознакомительной версии.

Заключение

В этом сообщении блога мы рассмотрели, как конвертировать PDF в TXT на C# с помощью библиотеки Aspose.Words for .NET. Следуя рекомендациям и используя фрагмент кода, вы можете легко обрабатывать большие PDF-файлы и конвертировать их в обычный текст. Aspose.Words упрощает задачи обработки документов, что делает его ценным инструментом для разработчиков, работающих с различными форматами документов в своих приложениях. Вы можете посетить документацию этой библиотеки обработки текстов .NET, чтобы изучить ее удивительные возможности. Если у вас возникнут вопросы, задайте их нам на форум.

Смотрите также