OCR PDF i wyodrębnij tekst z PDF w C#

Plik PDF jest jednym z najczęściej używanych dokumentów biznesowych. W niektórych przypadkach może być konieczne programowe odczytanie zeskanowanych dokumentów PDF. Trudność wyodrębniania tekstu z zeskanowanych plików PDF doprowadziła do opracowania narzędzi, które ułatwiają czytanie i pobieranie tekstu z takich dokumentów PDF. W zależności od zawartości dokumentu wyodrębnianie tekstu z plików PDF może być przydatne z wielu powodów. W tym artykule dowiemy się, jak OCR dokumentów PDF i wyodrębnić tekst z PDF w C#.

W tym artykule zostaną omówione następujące tematy:

  1. OCR PDF to Text C# API
  2. OCR PDF i wyodrębnij tekst z PDF
  3. Wykonaj OCR w PDF i zapisz tekst
  4. OCR PDF do pliku Word
  5. OCR PDF do JSON

OCR PDF do Text C# API

Będziemy używać API Aspose.OCR for .NET do wykonywania OCR na dokumencie PDF. Może rozpoznawać zeskanowane obrazy, zdjęcia ze smartfona, zrzuty ekranu i obszary obrazów. API zwraca rozpoznane wyniki tekstowe w najpopularniejszych formatach wymiany dokumentów i danych. Oprócz konwersji obrazów na tekst, interfejs API może również tworzyć przeszukiwalne pliki PDF na podstawie skanów. Ponadto jest w stanie automatycznie poprawiać błędy ortograficzne w rozpoznawanych tekstach.

Interfejs API udostępnia klasę AsposeOcr, która zapewnia różne metody wykonywania operacji OCR. Zapewnia metodę RecognizePdf(string, DocumentRecognitionSettings) do rozpoznawania tekstu z dostarczonego dokumentu PDF. Klasa DocumentRecognitionSettings interfejsu API udostępnia ustawienia procesu rozpoznawania plików PDF. Klasa RecognitionResult reprezentuje wyniki rozpoznawania obrazu.

Proszę pobierz bibliotekę DLL interfejsu API lub zainstaluj ją za pomocą NuGet.

PM> Install-Package Aspose.OCR

OCR PDF i wyodrębnij tekst z PDF w C#

Możemy wykonać OCR na dokumentach PDF i wyodrębnić rozpoznany tekst, wykonując czynności podane poniżej:

  1. Najpierw utwórz instancję klasy AsposeOcr.
  2. Następnie zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Następnie określ język, który ma być używany do OCR.
  4. Następnie uzyskaj RecognitionResult, wywołując metodę RecognizePdf(). Pobiera ścieżkę obrazu i obiekt DocumentRecognitionSettings jako argumenty.
  5. Na koniec przejrzyj listę RecognitionResult i pokaż zidentyfikowany tekst.

Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i wyodrębnić rozpoznany tekst w języku C#.

// Ten przykładowy kod pokazuje, jak OCR dokumentów PDF i wyodrębnić rozpoznany tekst.
// Zainicjuj silnik PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Zainicjuj ustawienia rozpoznawania
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Określ język dla OCR. Domyślnie w wielu językach
recognitionSettings.Language = Language.Eng;

// Rozpoznaj tekst z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\scanned-pdf.pdf", recognitionSettings);

// Pokaż rozpoznany tekst
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF i wyodrębnij tekst z PDF w C#

OCR PDF i wyodrębnij tekst z PDF w C#

Wykonaj OCR na PDF i zapisz tekst w C#

Możemy wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonując czynności podane poniżej:

  1. Najpierw utwórz instancję klasy AsposeOcr.
  2. Następnie zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Następnie określ język, który ma być używany do OCR.
  4. Następnie wywołaj metodę RecognizePdf(), aby uzyskać RecognitionResult. Pobiera ścieżkę obrazu i obiekt DocumentRecognitionSettings jako argumenty.
  5. Na koniec zapisz tekst przy użyciu metody SaveMultipageDocument(). Pobiera ścieżkę pliku wyjściowego, obiekt SaveFormat i RecognitionResult jako argumenty.

Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i zapisać rozpoznany tekst w języku C#.

// Ten przykładowy kod pokazuje, jak OCR dokumentów PDF i wyodrębnić rozpoznany tekst.
// Zainicjuj silnik PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Zainicjuj ustawienia rozpoznawania
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Określ język dla OCR. Domyślnie w wielu językach
recognitionSettings.Language = Language.Eng;

// Rozpoznaj tekst z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\scanned-pdf.pdf", recognitionSettings);

// Zapisz rozpoznany tekst
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Wykonaj OCR na PDF i zapisz tekst w C#

Wykonaj OCR na PDF i zapisz tekst w C#

OCR PDF i konwertuj zeskanowany plik PDF na Word w C#

Możemy wykonać OCR na zeskanowanych dokumentach PDF i zapisać rozpoznany tekst w dokumencie Word, wykonując czynności wymienione wcześniej. Jednak musimy tylko określić SaveFormat.Docx w ostatnim kroku.

Poniższy przykładowy kod pokazuje, jak OCR PDF i zapisać rozpoznany tekst jako dokument programu Word w języku C#.

// Ten przykład kodu pokazuje, jak OCR dokumentów PDF i zapisać rozpoznany tekst jako DOCX.
// Zainicjuj silnik PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Zainicjuj ustawienia rozpoznawania
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Określ język dla OCR. Domyślnie w wielu językach
recognitionSettings.Language = Language.Eng;

// Rozpoznaj tekst z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\scanned-pdf.pdf", recognitionSettings);

// Zapisz rozpoznany tekst jako DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF i konwertuj zeskanowany plik PDF na Word w C#

OCR PDF i konwertuj zeskanowany plik PDF na Word w C#

OCR PDF i Konwertuj PDF na JSON w C#

Możemy wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst w pliku JSON, wykonując czynności wspomniane wcześniej. Jednak musimy tylko określić SaveFormat.Json w ostatnim kroku.

Poniższy przykładowy kod pokazuje, jak OCR PDF i zapisać rozpoznany tekst jako plik JSON w języku C#.

// Ten przykładowy kod pokazuje, jak OCR dokumentów PDF i zapisać rozpoznany tekst jako JSON.
// Zainicjuj silnik PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Zainicjuj ustawienia rozpoznawania
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Określ język dla OCR. Domyślnie w wielu językach
recognitionSettings.Language = Language.Eng;

// Rozpoznaj tekst z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\scanned-pdf.pdf", recognitionSettings);

// Zapisz rozpoznany tekst jako JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz uzyskać bezpłatną tymczasową licencję, aby wypróbować bibliotekę bez ograniczeń ewaluacyjnych.

Wniosek

W tym artykule nauczyliśmy się, jak wykonywać OCR na dokumentach PDF i wyodrębniać tekst z PDF w C#. Widzieliśmy również, jak zapisać rozpoznany tekst jako plik TXT, DOCX i JSON. Poza tym możesz dowiedzieć się więcej o Aspose.OCR for .NET API korzystając z dokumentacji. W przypadku jakichkolwiek niejasności prosimy o kontakt na naszym forum.

Zobacz też