اسکن PDF به Word Java OCR

فایل‌های PDF ایجاد شده با استفاده از دوربین یا دستگاه اسکنر حاوی تصاویر اسکن شده هستند. چنین تصاویری را نمی توان برای انتخاب متن یا ویرایش پردازش کرد، بنابراین ممکن است لازم باشد PDF اسکن شده را به اسناد Word در قالب DOCX یا DOC تبدیل کنید. این مقاله نحوه تبدیل یک فایل پی دی اف اسکن شده به یک فایل ورد را به صورت برنامه نویسی با استفاده از جاوا را پوشش می دهد.

Java API برای تبدیل PDF اسکن شده به فایل Word

می توانید اسناد PDF اسکن شده را با عملیات OCR با استفاده از Aspose.OCR for Java API دستکاری کنید و سپس یک فایل Word را با Aspose.Words for Java به صورت برنامه ریزی شده ایجاد کنید. به سادگی API ها را با دانلود فایل های JAR از بخش Downloads یا با استفاده از مشخصات Maven زیر تنظیم کنید:

مخزن:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

وابستگی:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

تبدیل PDF اسکن شده به سند ورد به صورت برنامه نویسی با استفاده از جاوا

شما می توانید یک فایل PDF اسکن شده را با تکنیک تشخیص کاراکتر نوری به سند Word تبدیل کنید. این یک فرآیند دو مرحله ای است که در آن PDF اسکن شده به متن تبدیل می شود و سپس متن به یک سند Word در فرمت DOC یا DOCX تبدیل می شود. برای تبدیل PDF اسکن شده به سند Word باید مراحل زیر را دنبال کنید:

  1. شیء کلاس AsposeOCRPdf را نمونه سازی کنید.
  2. با استفاده از شی نوع DocumentRecognitionSettings تصاویر را از فایل PDF تشخیص دهید.
  3. شیء کلاس String را مشخص کرده و متن را ذخیره کنید.
  4. یک سند word جدید را با کلاس Document راه اندازی کنید.
  5. قالب بندی فونت ها و پاراگراف ها را تنظیم کنید.
  6. در نهایت سند Word خروجی را به صورت فایل DOCX یا DOC روی دیسک بنویسید.

قطعه کد زیر نحوه تبدیل یک فایل پی‌دی‌اف اسکن‌شده به سند Word به‌عنوان فایل DOC یا DOCX را با استفاده از جاوا نشان می‌دهد:

// یک نمونه از AsposeOcrPdf را راه اندازی کنید
AsposeOCRPdf api = new AsposeOCRPdf();

// دریافت فایل PDF برای شناسایی     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// تشخیص فایل PDF ورودی با روش RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// نتیجه چاپ
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// سند word را با کلاس Document راه اندازی کنید.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// قالب بندی فونت را مشخص کنید
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// قالب بندی پاراگراف را مشخص کنید
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// ذخیره خروجی سند Word. 
doc.save("Scanned_PDF_to_Word_Java.docx");

مجوز موقت رایگان دریافت کنید

شما می توانید API ها را بدون هیچ محدودیتی با درخواست [مجوز موقت رایگان] ارزیابی کنید.

نتیجه

در این مقاله نحوه تبدیل یک فایل پی دی اف اسکن شده به سند Word به صورت فایل DOCX یا DOC را با استفاده از جاوا بررسی کرده اید. علاوه بر این، می‌توانید با مراجعه به مستندات به سایر ویژگی‌های مرتبط با OCR نگاهی بیندازید. در صورت هر گونه نگرانی، لطفاً با ما در [فروم 16 تماس بگیرید.

همچنین ببینید

اطلاعات: ممکن است به یکی دیگر از API های جاوا (Aspose.Slides for Java) علاقه داشته باشید که به شما امکان می دهد ارائه ها (به PDF، اسناد word و غیره) و [وارد کردن تصاویر] را تبدیل کنید. ] یا سایر اسناد در ارائه ها.