Zeskanowany plik PDF do przeszukiwania za pomocą OCR w C#

Pliki PDF są czasami oparte na obrazach, które są zwykle tworzone za pomocą skanera lub urządzenia do przetwarzania obrazu. Zeskanowany plik PDF można przekonwertować na plik PDF z możliwością wyszukiwania za pomocą funkcji OCR, aby można było edytować lub aktualizować tekst w dokumencie. Zgodnie z tym scenariuszem w tym artykule wyjaśniono, jak przekonwertować zeskanowany plik PDF na plik PDF z możliwością wyszukiwania za pomocą operacji OCR programowo przy użyciu języka C#.

Zeskanowany plik PDF do przeszukiwalnego pliku PDF przez OCR — instalacja C# API

Możesz wykonywać operacje OCR na zeskanowanym pliku PDF za pomocą Aspose.OCR for .NET API. Po prostu skonfiguruj interfejs API, pobierając plik DLL z sekcji New Releases lub używając następującego polecenia instalacji NuGet:

PM> Install-Package Aspose.OCR

Konwertuj zeskanowany plik PDF na przeszukiwalny plik PDF programowo za pomocą C#

Możesz przekonwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania, jednocześnie optycznie rozpoznając tekst, wykonując poniższe czynności:

  1. Zainicjuj instancję klasy AsposeOcr.
  2. Rozpoznawanie obrazów z plików PDF za pomocą metody RecognizePdf.
  3. Ustaw różne właściwości rozpoznawania OCR za pomocą klasy DocumentRecognitionSettings.
  4. Zapisz wynik OCR jako przeszukiwalny plik PDF.

Poniższy fragment kodu wyjaśnia, jak programowo przekonwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania przy użyciu języka C#:

// Zeskanowana wielostronicowa ścieżka PDF
string fullPath = "multi_page.pdf";

// Zainicjuj obiekt klasy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznawanie obrazów z plików PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Zapisz wynik jako przeszukiwalny plik PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz ocenić tę funkcję, aby rozpoznawać tekst w zeskanowanym pliku PDF z operacjami OCR bez żadnych ograniczeń, prosząc o darmową licencję tymczasową.

Wniosek

W tym artykule nauczyłeś się, jak przekonwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania, wykonując na nim operacje OCR programowo w języku C#. Ponadto możesz sprawdzić kilka innych funkcji związanych z OCR oferowanych przez API, odwiedzając dokumentację. Prosimy o kontakt na forum w przypadku jakichkolwiek pytań.

Zobacz też