スキャンされたPDFからWordJavaOCRへ

カメラまたはスキャナーデバイスを使用して作成されたPDFファイルには、スキャンされた画像が含まれています。このような画像はテキストの選択や編集のために処理できないため、スキャンしたPDFをDOCXまたはDOC形式のWord文書に変換する必要がある場合があります。この記事では、スキャンしたPDFファイルをJavaを使用してプログラムでWordファイルに変換する方法について説明します。

スキャンしたPDFをWordファイルに変換するJavaAPI

Aspose.OCR for Java APIを使用してOCR操作でスキャンしたPDFドキュメントを操作し、Aspose.Words for JavaAPIを使用してプログラムでWordファイルを生成できます。 ダウンロードセクションからJARファイルをダウンロードするか、次のMaven仕様を使用して、APIを設定するだけです。

リポジトリ:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依存:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

スキャンしたPDFをJavaを使用してプログラムでWord文書に変換する

スキャンしたPDFファイルを光学式文字認識技術を使用してWord文書に変換できます。これは、スキャンされたPDFがテキストに変換されてから、テキストがDOCまたはDOCX形式のWord文書に変換される2段階のプロセスです。スキャンしたPDFをWord文書に変換するには、以下の手順に従う必要があります。

  1. AsposeOCRPdfクラスオブジェクトをインスタンス化します。
  2. DocumentRecognitionSettingsタイプのオブジェクトを使用してPDFファイルから画像を認識します。
  3. Stringクラスオブジェクトを指定し、テキストを保存します。
  4. Documentクラスで新しいWord文書を初期化します。
  5. フォントと段落の書式を設定します。
  6. 最後に、出力WordドキュメントをDOCXまたはDOCファイルとしてディスクに書き込みます。

以下のコードスニペットは、スキャンしたPDFファイルをJavaを使用してプログラムでDOCまたはDOCXファイルとしてWord文書に変換する方法を示しています。

// AsposeOcrPdfのインスタンスを初期化します
AsposeOCRPdf api = new AsposeOCRPdf();

// 認識のためにPDFファイルを取得する     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// RecognizePdfメソッドを使用して入力PDFファイルを認識します
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// 結果を印刷する
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// DocumentクラスでWord文書を初期化します。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// フォントの書式を指定する
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// 段落の書式を指定する
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// 出力Word文書を保存します。 
doc.save("Scanned_PDF_to_Word_Java.docx");

無料の一時ライセンスを取得する

無料の一時ライセンスをリクエストすることで、制限なしにAPIを評価できます。

結論

この記事では、スキャンしたPDFファイルをJavaを使用してプログラムでDOCXまたはDOCファイルとしてWord文書に変換する方法について説明しました。さらに、ドキュメントにアクセスすると、他のOCR関連の機能を確認できます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目

情報:プレゼンテーション(PDF、ワードドキュメントなど)や[画像のインポート][14に変換できる別のJavaAPI(Aspose.Slides for Java)に興味があるかもしれません。 ]または他のドキュメントをプレゼンテーションに。