zeskanowany pdf do tekstu csharp

Zeskanowany plik PDF to w zasadzie jeden lub więcej płaskich obrazów przechwyconych przez skaner lub aparat. Nie można kopiować, wklejać ani przetwarzać informacji z takich plików. W tym artykule opisano, jak przekonwertować zeskanowany plik PDF na tekst w języku C#.

Konwersja zeskanowanego pliku PDF na tekst – instalacja C# API

Aspose.OCR for .NET API służy do wykonywania operacji OCR. Może rozpoznawać znaki optycznie z obrazów lub zeskanowanych dokumentów PDF. Skonfiguruj interfejs API, pobierając plik DLL z sekcji New Releases lub za pomocą następującego polecenia instalacyjnego NuGet.

PM> Install-Package Aspose.OCR

Konwertuj zeskanowany plik PDF na ciąg tekstowy w języku C#

Zeskanowany plik PDF można przekonwertować na ciąg tekstowy, wykonując na nim operacje OCR. Aby wydrukować tekst z zeskanowanego dokumentu PDF, wykonaj poniższe czynności:

  1. Określ ustawienie rozpoznawania zeskanowanego pliku PDF.
  2. Zainicjuj instancję klasy AsposeOcr.
  3. Zainicjuj obiekt klasy RecognitionResult.
  4. Wydrukuj tekst po rozpoznaniu go z zeskanowanego pliku PDF.

Poniższy fragment kodu pokazuje, jak rozpoznać tekst z zeskanowanego pliku PDF w języku C#:

// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Określ ustawienie rozpoznawania zeskanowanego pliku PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Zainicjuj obiekt klasy RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Drukuj tekst po rozpoznaniu go z zeskanowanego pliku PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Konwertuj zeskanowany plik PDF na plik TXT programowo w języku C#

Zeskanowany plik PDF można przekonwertować na plik TXT, wykonując następujące czynności:

  1. Utwórz instancję obiektu klasy AsposeOcr.
  2. Utwórz obiekt klasy DocumentRecognitionSettings.
  3. Zapisz wyniki rozpoznawania i zainicjuj instancję klasy StringBuilder.
  4. Zapisz wynik w pliku TXT.

Poniższy fragment kodu wyjaśnia, jak programowo przekonwertować zeskanowany plik PDF na plik TXT w języku C#:

// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznawanie obrazów z plików PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Zapisz wyniki rozpoznawania
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Zainicjuj obiekt klasy StringBuilder
StringBuilder builder = new StringBuilder();

// Zapisz wynik w pliku TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz poprosić o bezpłatną licencję ewaluacyjną, aby przetestować interfejs API w pełni.

Wniosek

W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na ciąg tekstowy lub plik tekstowy przy użyciu języka C#. Ponadto możesz sprawdzić kilka innych funkcji API odwiedzając dokumentacja. W razie jakichkolwiek wątpliwości prosimy o kontakt pod adresem forum.

Zobacz też