Chuyển đổi PDF sang TXT trong C#

Là một lập trình viên, bạn thường phải trích xuất nội dung từ tệp PDF dưới dạng văn bản thuần túy để xử lý thêm, chẳng hạn như phân tích và trích xuất thông tin. Xử lý file PDF và chuyển đổi toàn bộ file PDF sang định dạng TXT là một công việc rắc rối khi bạn không có công cụ phù hợp. Vì vậy, trong blog này, chúng ta sẽ khám phá cách chuyển đổi tệp PDF sang định dạng TXT theo chương trình trong C#.

Thư viện C# để chuyển đổi PDF sang TXT

Aspose.Words for .NET là một API xử lý tài liệu tuyệt vời cho phép các nhà phát triển làm việc với các tài liệu Word cũng như nhiều định dạng khác, bao gồm cả PDF. Với bộ tính năng mở rộng, Aspose.Words đơn giản hóa các tác vụ thao tác, chuyển đổi và tạo tài liệu. Chúng tôi sẽ sử dụng thư viện này để chuyển đổi tệp PDF sang định dạng TXT trong ứng dụng .NET.

Bạn có thể cài đặt thư viện từ NuGet bằng lệnh sau. Hoặc tải xuống DLL của nó từ phần Bản phát hành.

PM> Install-Package Aspose.Words 

Chuyển đổi PDF sang TXT trong C#

Aspose.Words for .NET ẩn tất cả các thao tác phức tạp trong việc trích xuất văn bản từ tệp PDF và cho phép bạn thực hiện chuyển đổi PDF sang TXT trong một vài bước, như được đề cập bên dưới.

  • Tải tập tin PDF.
  • Chuyển đổi định dạng PDF sang TXT chỉ bằng một lệnh gọi hàm.

Do đó, chỉ với một vài dòng mã, bạn có thể chuyển đổi nội dung trong tệp PDF thành văn bản thuần túy, bất kể tệp PDF nguồn có lớn đến đâu. Bây giờ chúng ta hãy viết mã để thực hiện chuyển đổi này trong C#.

  • Đầu tiên, tải tệp PDF bằng lớp Tài liệu.
  • Sau đó, lưu tài liệu dưới dạng tệp TXT bằng phương thức Document.Save(filePath).

Đoạn mã C# sau đây chuyển đổi định dạng PDF sang TXT.

// Tải tập tin PDF
Document pdf = new Document("document.pdf");

// Lưu PDF dưới dạng TXT
pdf.Save("pdf.txt", SaveFormat.Text);

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để chuyển đổi tệp PDF sang định dạng TXT mà không bị giới hạn về đánh giá.

Phần kết luận

Trong bài đăng trên blog này, chúng tôi đã khám phá cách chuyển đổi PDF sang TXT trong C# bằng thư viện Aspose.Words for .NET. Làm theo hướng dẫn và sử dụng đoạn mã, bạn có thể dễ dàng xử lý các tệp PDF lớn và chuyển đổi chúng thành văn bản thuần túy. Aspose.Words đơn giản hóa các tác vụ xử lý tài liệu, biến nó thành một công cụ có giá trị cho các nhà phát triển làm việc với nhiều định dạng tài liệu khác nhau trong ứng dụng của họ. Bạn có thể truy cập tài liệu của thư viện xử lý văn bản .NET này để khám phá các tính năng tuyệt vời của nó. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.

Xem thêm