Файли PDF, створені за допомогою камери або сканера, містять відскановані зображення. Такі зображення не можна обробити для виділення тексту чи редагування, тому вам може знадобитися конвертувати відскановані PDF-файли в документи Word у форматі DOCX або DOC. У цій статті розповідається про те, як програмно перетворити сканований файл PDF у файл Word за допомогою Java.
- API Java для перетворення відсканованого PDF-файлу у файл Word
- Програмно конвертуйте відсканований PDF-файл у документ Word за допомогою Java
API Java для перетворення відсканованого PDF-файлу у файл Word
Ви можете керувати відсканованими PDF-документами за допомогою операцій OCR за допомогою Aspose.OCR for Java API, а потім програмно створити файл Word за допомогою Aspose.Words for Java API. Просто налаштуйте API, завантаживши файли JAR із розділу Завантаження або використовуючи такі специфікації Maven:
Репозиторій:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Залежність:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.11</version>
<artifactId>aspose-words</artifactId>
<version>21.12</version>
</dependency>
Програмно конвертуйте відсканований PDF-файл у документ Word за допомогою Java
Ви можете перетворити сканований PDF-файл на документ Word за допомогою техніки оптичного розпізнавання символів. Це двоетапний процес, під час якого сканований PDF-файл перетворюється на текст, а потім текст перетворюється на документ Word у форматі DOC або DOCX. Вам потрібно виконати наведені нижче дії, щоб перетворити сканований PDF-файл на документ Word:
- Створіть об’єкт класу AsposeOCRPdf.
- Розпізнавайте зображення з файлу PDF за допомогою об’єкта типу DocumentRecognitionSettings.
- Укажіть об’єкт класу String і збережіть текст.
- Ініціалізуйте новий документ Word за допомогою класу Document.
- Встановити форматування шрифтів і абзаців.
- Нарешті, запишіть вихідний документ Word на диск як файл DOCX або DOC.
Наведений нижче фрагмент коду демонструє, як програмним шляхом за допомогою Java конвертувати сканований файл PDF у документ Word як файл DOC або DOCX:
// Ініціалізуйте екземпляр AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();
// Отримайте файл PDF для розпізнавання
String PdfPath = "multi_page.pdf";
DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);
// Розпізнати вхідний файл PDF за допомогою методу RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);
String text = "";
// Роздрукувати результат
for(RecognitionResult page : result) {
text.concat(page.recognitionAreasText.toString());
}
// Ініціалізація документа Word за допомогою класу Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Вкажіть форматування шрифту
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");
// Вкажіть форматування абзацу
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);
// Зберегти вихідний документ Word.
doc.save("Scanned_PDF_to_Word_Java.docx");
Отримайте безкоштовну тимчасову ліцензію
Ви можете оцінити API без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.
Висновок
У цій статті ви досліджували, як програмним шляхом за допомогою Java конвертувати відсканований PDF-файл у документ Word як файл DOCX або DOC. Крім того, ви можете ознайомитися з іншими функціями, пов’язаними з OCR, відвідавши документацію. У разі будь-яких проблем, будь ласка, зв’яжіться з нами на форумі.
Дивись також
Інформація: Вас може зацікавити інший Java API (Aspose.Slides for Java), який дозволяє конвертувати презентації (у PDF-файли, документи Word тощо) та імпортувати зображення або інші документи в презентації.