PDF'den Word Java OCR'ye tarandı

Bir kamera veya tarayıcı aygıtı kullanılarak oluşturulan PDF dosyaları, taranan görüntüleri içerir. Bu tür görüntüler, metin seçimi veya düzenleme için işlenemez, bu nedenle taranan PDF’yi DOCX veya DOC biçimindeki Word belgelerine dönüştürmeniz gerekebilir. Bu makale, taranan bir PDF dosyasının Java kullanarak programlı bir şekilde Word dosyasına nasıl dönüştürüleceğini kapsar.

Taranan PDF’yi Word Dosyasına Dönüştürmek için Java API

Taranmış PDF belgelerini Aspose.OCR for Java API’yi kullanarak OCR işlemleriyle işleyebilir ve ardından programlı olarak Aspose.Words for Java API ile bir Word dosyası oluşturabilirsiniz. İndirilenler bölümünden JAR dosyalarını indirerek veya aşağıdaki Maven belirtimlerini kullanarak API’leri kurmanız yeterlidir:

Depo:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Bağımlılık:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Taranan PDF’yi Java Kullanarak Programlı Olarak Word Belgesine Dönüştürün

Taranmış bir PDF dosyasını optik karakter tanıma tekniği ile Word belgesine dönüştürebilirsiniz. Bu, taranan PDF’nin metne dönüştürüldüğü ve ardından metnin DOC veya DOCX biçiminde bir Word belgesine dönüştürüldüğü iki aşamalı bir işlemdir. Taranan PDF’yi bir Word belgesine dönüştürmek için aşağıdaki adımları izlemeniz gerekir:

  1. AsposeOCRPdf sınıf nesnesinin örneğini oluşturun.
  2. DocumentRecognitionSettings tipi nesneyi kullanarak PDF dosyasındaki görüntüleri tanıyın.
  3. String sınıf nesnesini belirtin ve metni kaydedin.
  4. Belge sınıfıyla yeni bir sözcük belgesi başlatın.
  5. Yazı tiplerini ve paragraf biçimlendirmesini ayarlayın.
  6. Son olarak, çıktı Word belgesini diske DOCX veya DOC dosyası olarak yazın.

Aşağıdaki kod parçacığı, taranan bir PDF dosyasının Java kullanılarak programlı olarak DOC veya DOCX dosyası olarak bir Word belgesine nasıl dönüştürüleceğini gösterir:

// Bir AsposeOcrPdf örneğini başlat
AsposeOCRPdf api = new AsposeOCRPdf();

// Tanıma için PDF dosyası alın     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Giriş PDF dosyasını RecognizePdf yöntemiyle tanıyın
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Sonucu yazdır
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Word belgesini Document sınıfıyla başlatın.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Yazı tipi biçimlendirmesini belirtin
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Paragraf biçimlendirmesini belirtin
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Çıktı Word belgesini kaydedin. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Ücretsiz Geçici Lisans Alın

Ücretsiz geçici lisans talep ederek API’leri herhangi bir sınırlama olmaksızın değerlendirebilirsiniz.

Çözüm

Bu makalede, taranmış bir PDF dosyasını Java kullanarak programlı olarak DOCX veya DOC dosyası olarak bir Word belgesine dönüştürmeyi incelediniz. Ayrıca, belgeleri ziyaret ederek OCR ile ilgili diğer özelliklere göz atabilirsiniz. Herhangi bir endişeniz olması durumunda, lütfen forumdan bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız

Bilgi: Sunumları (PDF’lere, word belgelerine vb.) ve import image dönüştürmenize olanak tanıyan başka bir Java API (Aspose.Slides for Java) ilginizi çekebilir ] veya diğer belgeleri sunumlara dönüştürün.