Java でのドキュメント スキャン

このブログ投稿では、Java でのドキュメント スキャンについて説明します。ドキュメント管理システム、モバイル アプリ、または OCR (光学文字認識)、OMR (光学マーク認識) アプリケーションを構築している場合でも、このガイドは Java を使用してドキュメント スキャンを実装するために必要な情報を提供します。

Java ドキュメント スキャン API

Java でドキュメントをスキャンすると、物理ドキュメントをデジタル形式に変換するシームレスな方法が提供されます。文書管理の改善、共有と保存の容易化、検索機能の強化、紙の煩雑さの軽減など、数多くの利点をもたらします。 Java のクロスプラットフォーム互換性とサポートにより、Java はドキュメント スキャン機能を実装するための優れた選択肢となります。

Java での OCR ドキュメント スキャン

ドキュメント スキャン Java

OCR は、コンピューターが画像やスキャンされた文書からテキストを認識して抽出できるようにするテクノロジーです。 Aspose.OCR for Java を使用すると、Java アプリケーションに OCR 機能を組み込むことができ、さまざまなソースからテキストを抽出してプログラムで使用することが容易になります。

さらに、中国語だけでなく、27 のラテン文字、キリル文字も言語サポートされています。 OCR API は、スキャンされた画像、スマートフォンの写真、スクリーンショット、画像の特定の領域、スキャンされた PDF など、さまざまなタイプの入力を認識できます。

以下は、ドキュメント スキャンに関連する Aspose.OCR のいくつかの重要な機能のリストです。

  • テキスト抽出: 画像、スキャンしたファイル、または PDF ドキュメントからテキストを認識して抽出します。
  • 言語サポート: 英語、スペイン語、フランス語、ドイツ語など、さまざまな言語でテキストを抽出するための複数の言語をサポートします。
  • 高度な OCR アルゴリズム: 高度な OCR アルゴリズムを利用して、正確で信頼性の高いテキスト抽出を提供します。
  • 前処理オプション: ノイズ除去、歪み補正などの画像フィルターを適用して、入力画像の品質を向上させます。
  • 簡単な統合: Java アプリケーションに簡単に統合できるように設計されています。
  • リンクのスキャン: Web リンクとして提供された画像を認識します。
  • バッチ スキャン: 1 回の呼び出しで複数の画像を認識するためのさまざまなバッチ処理方法を提供します。
  • 他にもたくさん…

Java ドキュメント スキャン API について学習するには、次のリソースをさらに参照してください。

さらに、OCR 機能を備えたドキュメント スキャナ アプリケーションを作成するには、次のコード スニペットを側で試すことができます。

// このコード例は、認識されたテキストをスペル修正して保存する方法を示します。
// 認識する画像へのパス
String imagePath = "C:\\Files\\sample.jpg";
String resultPath = "C:\\Files\\MyResult.txt";

// OCR APIの作成
AsposeOCR api = new AsposeOCR();

// 認識設定の初期化
RecognitionSettings settings = new RecognitionSettings();

// 画像からテキストを認識する 
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// 修正したテキストを保存する
result.saveSpellCheckCorrectedText(resultPath, Format.Text, SpellCheckLanguage.Eng);

Java での OMR ドキュメント スキャン

Java スキャン ドキュメント

紙ベースのフォーム、アンケート、評価からデータを抽出して収集するのは、時間がかかり、間違いが発生しやすい作業です。 Aspose.OMR for Java を使用すると、スキャンしたドキュメントから情報を抽出するプロセスを簡素化できます。

Aspose.OMR for Java を使用して、OMR シートの構造とレイアウトを定義するカスタム OMR テンプレートを作成できます。同様に、抽出されたデータをエクスポートするための柔軟なオプションが含まれています。データは CSV、XML、JSON などのさまざまな形式で保存できるため、さまざまなシステムやアプリケーションと互換性があります。

以下は、Aspose.OMR for Java のドキュメント スキャン特性の一部です。

  • マーク認識: チェックボックス、バブル、影付き領域など、フォーム上に作成されたマークを正確に検出および認識する機能。
  • テンプレートの作成: 質問の配置、回答の選択肢、その他の要素など、フォームの外観を定義するカスタマイズ可能なテンプレートを作成します。
  • 精度と検証: マークの検出と認識の高精度を保証するアルゴリズムとメカニズム。
  • スキャンされた画像の補正: 回転された画像や遠近法 (側面から見た) の画像を処理する機能。
  • 他にもたくさん…

さらに、Java でのドキュメント スキャンの詳細については、次のリソースを参照してください。

さらに、Java を使用して OMR 機能を備えたドキュメント スキャナを作成するには、次のコード スニペットを使用できます。

// このコード例は、画像に対して OMR を実行してデータを抽出する方法を示しています。
// OMR テンプレート ファイルのパス
String templatePath = "C:\\Files\\OMR\\Sheet.omr";

// 画像ファイルのパス
String imagePath = "C:\\Files\\OMR\\Sheet1.png";

// OMR エンジンの初期化
OmrEngine engine = new OmrEngine();

// テンプレートプロセッサの取得
TemplateProcessor templateProcessor = engine.getTemplateProcessor(templatePath);

// 画像を認識する
RecognitionResult result = templateProcessor.recognizeImage(imagePath);

// CSVで結果を取得する
String csvResult = result.getCsv();

// CSVファイルの保存
PrintWriter wr = new PrintWriter(new FileOutputStream("C:\\Files\\OMR\\Sheet1.csv"), true);
wr.println(csvResult);

まとめ

Java でのドキュメント スキャンにより、スキャンされたドキュメントを処理する堅牢なアプリケーションを構築する可能性が広がります。ドキュメントをデジタル化すると、時間とリソースが節約されるだけでなく、ドキュメント管理機能が強化され、Java プロジェクトのより合理化された効率的なワークフローへの道が開かれます。

関連項目