Відсканований PDF у Word Java OCR

Файли PDF, створені за допомогою камери або сканера, містять відскановані зображення. Такі зображення не можна обробити для виділення тексту чи редагування, тому вам може знадобитися конвертувати відскановані PDF-файли в документи Word у форматі DOCX або DOC. У цій статті розповідається про те, як програмно перетворити сканований файл PDF у файл Word за допомогою Java.

API Java для перетворення відсканованого PDF-файлу у файл Word

Ви можете керувати відсканованими PDF-документами за допомогою операцій OCR за допомогою Aspose.OCR for Java API, а потім програмно створити файл Word за допомогою Aspose.Words for Java API. Просто налаштуйте API, завантаживши файли JAR із розділу Завантаження або використовуючи такі специфікації Maven:

Репозиторій:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Залежність:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Програмно конвертуйте відсканований PDF-файл у документ Word за допомогою Java

Ви можете перетворити сканований PDF-файл на документ Word за допомогою техніки оптичного розпізнавання символів. Це двоетапний процес, під час якого сканований PDF-файл перетворюється на текст, а потім текст перетворюється на документ Word у форматі DOC або DOCX. Вам потрібно виконати наведені нижче дії, щоб перетворити сканований PDF-файл на документ Word:

  1. Створіть об’єкт класу AsposeOCRPdf.
  2. Розпізнавайте зображення з файлу PDF за допомогою об’єкта типу DocumentRecognitionSettings.
  3. Укажіть об’єкт класу String і збережіть текст.
  4. Ініціалізуйте новий документ Word за допомогою класу Document.
  5. Встановити форматування шрифтів і абзаців.
  6. Нарешті, запишіть вихідний документ Word на диск як файл DOCX або DOC.

Наведений нижче фрагмент коду демонструє, як програмним шляхом за допомогою Java конвертувати сканований файл PDF у документ Word як файл DOC або DOCX:

// Ініціалізуйте екземпляр AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Отримайте файл PDF для розпізнавання     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Розпізнати вхідний файл PDF за допомогою методу RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Роздрукувати результат
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Ініціалізація документа Word за допомогою класу Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Вкажіть форматування шрифту
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Вкажіть форматування абзацу
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Зберегти вихідний документ Word. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Отримайте безкоштовну тимчасову ліцензію

Ви можете оцінити API без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви досліджували, як програмним шляхом за допомогою Java конвертувати відсканований PDF-файл у документ Word як файл DOCX або DOC. Крім того, ви можете ознайомитися з іншими функціями, пов’язаними з OCR, відвідавши документацію. У разі будь-яких проблем, будь ласка, зв’яжіться з нами на форумі.

Дивись також

Інформація: Вас може зацікавити інший Java API (Aspose.Slides for Java), який дозволяє конвертувати презентації (у PDF-файли, документи Word тощо) та імпортувати зображення або інші документи в презентації.