chuyển PDF sang văn bản

PDF là một trong những định dạng được sử dụng phổ biến nhất để gửi tài liệu cho bên thứ ba. Lý do đằng sau sự phổ biến này là khả năng tương thích của PDF trên nhiều nền tảng bất kể mọi yêu cầu về phần cứng/phần mềm. Tuy nhiên, trong một số trường hợp, bạn muốn chuyển đổi tài liệu PDF thành định dạng tài liệu có thể chỉnh sửa. Định dạng PDF sang DOC hoặc DOCX có thể là tùy chọn chuyển đổi ưu tiên trong những trường hợp như vậy. Để tự động hóa quá trình chuyển đổi, bài viết này giới thiệu cách chuyển đổi PDF sang Word DOC và DOCX bằng lập trình trong Java.

Vì vậy, trong bài viết này, bạn sẽ biết cách:

  • Chuyển đổi PDF sang DOC bằng Java.
  • Chuyển đổi định dạng PDF sang DOCX bằng Java.
  • Tùy chỉnh chuyển đổi PDF sang Word (DOC/DOCX).

Thư viện chuyển đổi Java PDF sang Word DOC

Cảm ơn Aspose.PDF for Java - API Java thao tác PDF cung cấp các cách dễ dàng để chuyển đổi tệp PDF sang nhiều định dạng khác bao gồm PDF sang DOC và PDF sang DOCX. Bạn có thể tải xuống và thêm tệp JAR của API vào dự án của mình hoặc tham chiếu nó bằng các cấu hình Maven sau:

Kho:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

phụ thuộc:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>19.12</version>
</dependency>

Chuyển đổi PDF sang DOC trong Java

Khi bạn đã tham chiếu Aspose.PDF for Java trong ứng dụng của mình, bạn có thể chuyển đổi bất kỳ tài liệu PDF nào sang định dạng DOC trong một vài dòng mã. Sau đây là các bước cần thiết để thực hiện chuyển đổi này.

  • Tạo một thể hiện của lớp Document và khởi tạo nó bằng đường dẫn của tệp PDF đầu vào.
  • Gọi phương thức Document.save() với tên tệp DOC đầu ra và các đối số SaveFormat.Doc.

Mẫu mã sau đây cho biết cách chuyển đổi PDF sang DOC trong Java.

// Tải tệp PDF nguồn
Document doc = new Document("input.pdf");

// Lưu tệp DOC kết quả
doc.save("output.doc", SaveFormat.Doc);

Nhập tài liệu PDF

Cách chuyển đổi PDF sang DOC trong Java

Xuất tài liệu Word

Chuyển đổi PDF sang DOCX trong Java

Chuyển đổi PDF sang DOCX trong Java

DOCX là một định dạng nổi tiếng cho các tài liệu Word và trái ngược với định dạng DOC, cấu trúc của DOCX dựa trên tệp nhị phân cũng như các tệp XML. Trong trường hợp bạn muốn chuyển đổi định dạng PDF sang DOCX, bạn có thể yêu cầu API thực hiện bằng cách sử dụng đối số SaveFormat.DocX trong phương thức Document.save().

Mẫu mã sau đây cho biết cách chuyển đổi PDF sang DOCX trong Java.

// Tải tệp PDF nguồn
Document doc = new Document("input.pdf");

// Lưu tệp DOCX kết quả
doc.save("output.docx", SaveFormat.DocX);

Java PDF sang Word với các tùy chọn bổ sung

Aspose.PDF for Java cũng cung cấp một số tùy chọn bổ sung mà bạn có thể sử dụng trong chuyển đổi PDF sang Word, chẳng hạn như định dạng đầu ra, độ phân giải hình ảnh, khoảng cách giữa các dòng văn bản, v.v. DocSaveOptions được sử dụng cho mục đích này và sau đây là danh sách các tùy chọn bạn có thể sử dụng:

Mẫu mã sau đây cho biết cách sử dụng lớp DocSaveOptions trong chuyển đổi PDF sang DOCX bằng Java.

// Tải tệp PDF nguồn
Document doc = new Document("input.pdf");

// Khởi tạo phiên bản DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();

// Đặt định dạng đầu ra
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);

// Đặt chế độ nhận dạng là Flow
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// Đặt khoảng cách ngang là 2,5
saveOptions.setRelativeHorizontalProximity(2.5f);

// Bật tính năng nhận dạng dấu đầu dòng trong quá trình chuyển đổi
saveOptions.setRecognizeBullets(true);

// Lưu tệp DOCX kết quả
doc.save("resultant.docx", saveOptions);

Sự kết luận

Trong bài viết này, bạn đã biết cách dễ dàng chuyển đổi tài liệu PDF sang Word DOC và DOCX bằng Java. Bạn có thể chuyển đổi PDF sang DOC hoặc PDF sang DOCX dựa trên yêu cầu của mình. Ngoài ra, các tính năng bổ sung để tùy chỉnh chuyển đổi PDF sang Word DOC/DOCX cũng đã được thảo luận. Bạn có thể tìm hiểu thêm về cách chuyển đổi PDF sang các định dạng khác từ tài liệu.

Những bài viết liên quan)