مسح PDF إلى Word Java OCR

تحتوي ملفات PDF التي تم إنشاؤها باستخدام كاميرا أو جهاز ماسح ضوئي على صور ممسوحة ضوئيًا. لا يمكن معالجة مثل هذه الصور لتحديد النص أو تحريره ، لذا قد تحتاج إلى تحويل ملفات PDF الممسوحة ضوئيًا إلى مستندات Word بتنسيق DOCX أو DOC. تتناول هذه المقالة كيفية تحويل ملف PDF ممسوح ضوئيًا إلى ملف Word برمجيًا باستخدام Java.

Java API لتحويل ملف PDF الممسوح ضوئيًا إلى ملف Word

يمكنك معالجة مستندات PDF الممسوحة ضوئيًا باستخدام عمليات التعرف الضوئي على الحروف باستخدام Aspose.OCR for Java API ثم إنشاء ملف Word باستخدام Aspose.Words for Java API برمجيًا. ما عليك سوى إعداد واجهات برمجة التطبيقات عن طريق تنزيل ملفات JAR من قسم التنزيلات أو باستخدام مواصفات Maven التالية:

مخزن:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

الاعتماد:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

تحويل ملف PDF الممسوح ضوئيًا إلى مستند Word برمجيًا باستخدام Java

يمكنك تحويل ملف PDF ممسوح ضوئيًا إلى مستند Word باستخدام تقنية التعرف الضوئي على الأحرف. هذه عملية من خطوتين حيث يتم تحويل ملف PDF الممسوح ضوئيًا إلى نص ثم يتم تحويل النص إلى مستند Word بتنسيق DOC أو DOCX. تحتاج إلى اتباع الخطوات أدناه لتحويل ملف PDF الممسوح ضوئيًا إلى مستند Word:

  1. إنشاء كائن فئة AsposeOCRPdf.
  2. التعرف على الصور من ملف PDF باستخدام كائن نوع DocumentRecognitionSettings.
  3. حدد كائن فئة String واحفظ النص.
  4. قم بتهيئة مستند كلمة جديد باستخدام فئة Document.
  5. اضبط تنسيق الخطوط والفقرات.
  6. أخيرًا ، اكتب مستند Word الناتج على القرص كملف DOCX أو DOC.

يوضح مقتطف الشفرة أدناه كيفية تحويل ملف PDF ممسوح ضوئيًا إلى مستند Word كملف DOC أو DOCX برمجيًا باستخدام Java:

// قم بتهيئة مثيل AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// احصل على ملف PDF للتعرف عليه     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// التعرف على ملف PDF المدخل باستخدام طريقة RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// نتيجة الطباعة
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// تهيئة مستند Word مع فئة المستند.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// حدد تنسيق الخط
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// حدد تنسيق الفقرة
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// حفظ مستند Word الناتج. 
doc.save("Scanned_PDF_to_Word_Java.docx");

احصل على رخصة مؤقتة مجانية

يمكنك تقييم واجهات برمجة التطبيقات بدون أي قيود من خلال طلب ترخيص مؤقت مجاني.

استنتاج

في هذه المقالة ، قمت باستكشاف كيفية تحويل ملف PDF ممسوح ضوئيًا إلى مستند Word كملف DOCX أو DOC برمجيًا باستخدام Java. علاوة على ذلك ، يمكنك إلقاء نظرة على الميزات الأخرى المتعلقة بـ OCR من خلال زيارة التوثيق. في حالة وجود أي مخاوف ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا

معلومات: قد تكون مهتمًا بواجهة برمجة تطبيقات Java أخرى (Aspose.Slides for Java) التي تتيح لك تحويل العروض التقديمية (إلى ملفات PDF ، مستندات word ، إلخ) و [استيراد الصور] 14 أو مستندات أخرى في العروض التقديمية.