Zeskanowany PDF do Word Java OCR

Pliki PDF utworzone za pomocą aparatu lub skanera zawierają zeskanowane obrazy. Takich obrazów nie można przetwarzać w celu zaznaczania lub edytowania tekstu, dlatego może być konieczne przekonwertowanie zeskanowanych dokumentów PDF na dokumenty programu Word w formacie DOCX lub DOC. W tym artykule opisano, jak programowo przekonwertować zeskanowany plik PDF na plik Word przy użyciu języka Java.

Java API do konwersji zeskanowanego pliku PDF do pliku Word

Możesz manipulować zeskanowanymi dokumentami PDF za pomocą operacji OCR za pomocą interfejsu API Aspose.OCR for Java, a następnie programowo wygenerować plik Word za pomocą interfejsu API Aspose.Words for Java. Po prostu skonfiguruj interfejsy API, pobierając pliki JAR z sekcji Downloads lub korzystając z następujących specyfikacji Maven:

Magazyn:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Zależność:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Konwertuj zeskanowany plik PDF na dokument programu Word programowo przy użyciu języka Java

Możesz przekonwertować zeskanowany plik PDF na dokument programu Word za pomocą techniki optycznego rozpoznawania znaków. Jest to proces dwuetapowy, w którym zeskanowany plik PDF jest konwertowany na tekst, a następnie tekst jest konwertowany na dokument programu Word w formacie DOC lub DOCX. Aby przekonwertować zeskanowany plik PDF na dokument programu Word, wykonaj poniższe czynności:

  1. Utwórz instancję obiektu klasy AsposeOCRPdf.
  2. Rozpoznaj obrazy z pliku PDF za pomocą obiektu typu DocumentRecognitionSettings.
  3. Określ obiekt klasy String i zapisz tekst.
  4. Zainicjuj nowy dokument Word z klasą Document.
  5. Ustaw czcionki i formatowanie akapitów.
  6. Na koniec zapisz wyjściowy dokument programu Word na dysku jako plik DOCX lub DOC.

Poniższy fragment kodu pokazuje, jak przekonwertować zeskanowany plik PDF na dokument programu Word jako plik DOC lub DOCX programowo przy użyciu języka Java:

// Zainicjuj instancję AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Pobierz plik PDF do rozpoznania     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Rozpoznaj wejściowy plik PDF metodą RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Wydrukuj wynik
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Zainicjuj dokument Word z klasą Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Określ formatowanie czcionki
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Określ formatowanie akapitu
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Zapisz wyjściowy dokument programu Word. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Uzyskaj bezpłatną tymczasową licencję

Możesz testować interfejsy API bez żadnych ograniczeń, prosząc o darmową licencję tymczasową.

Wniosek

W tym artykule zbadałeś, jak przekonwertować zeskanowany plik PDF na dokument programu Word jako plik DOCX lub DOC programowo przy użyciu języka Java. Ponadto możesz zapoznać się z innymi funkcjami związanymi z OCR, odwiedzając dokumentację. W razie jakichkolwiek wątpliwości prosimy o kontakt na forum.

Zobacz też

Info: Być może zainteresuje Cię inny Java API (Aspose.Slides for Java), który pozwala konwertować prezentacje (do formatu PDF, dokumenty Word, itp.) oraz importować obrazy lub innych dokumentów do prezentacji.