Zeskanowany plik PDF to w zasadzie jeden lub więcej płaskich obrazów przechwyconych przez skaner lub aparat. Nie można kopiować, wklejać ani przetwarzać informacji z takich plików. W tym artykule opisano, jak przekonwertować zeskanowany plik PDF na tekst w języku C#.
- Konwersja zeskanowanego pliku PDF na tekst – instalacja C# API
- Konwertuj zeskanowany plik PDF na ciąg tekstowy w języku C#
- Konwertuj zeskanowany plik PDF na plik TXT programowo w języku C#
Konwersja zeskanowanego pliku PDF na tekst – instalacja C# API
Aspose.OCR for .NET API służy do wykonywania operacji OCR. Może rozpoznawać znaki optycznie z obrazów lub zeskanowanych dokumentów PDF. Skonfiguruj interfejs API, pobierając plik DLL z sekcji New Releases lub za pomocą następującego polecenia instalacyjnego NuGet.
PM> Install-Package Aspose.OCR
Konwertuj zeskanowany plik PDF na ciąg tekstowy w języku C#
Zeskanowany plik PDF można przekonwertować na ciąg tekstowy, wykonując na nim operacje OCR. Aby wydrukować tekst z zeskanowanego dokumentu PDF, wykonaj poniższe czynności:
- Określ ustawienie rozpoznawania zeskanowanego pliku PDF.
- Zainicjuj instancję klasy AsposeOcr.
- Zainicjuj obiekt klasy RecognitionResult.
- Wydrukuj tekst po rozpoznaniu go z zeskanowanego pliku PDF.
Poniższy fragment kodu pokazuje, jak rozpoznać tekst z zeskanowanego pliku PDF w języku C#:
// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Określ ustawienie rozpoznawania zeskanowanego pliku PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Zainicjuj obiekt klasy RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Drukuj tekst po rozpoznaniu go z zeskanowanego pliku PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Konwertuj zeskanowany plik PDF na plik TXT programowo w języku C#
Zeskanowany plik PDF można przekonwertować na plik TXT, wykonując następujące czynności:
- Utwórz instancję obiektu klasy AsposeOcr.
- Utwórz obiekt klasy DocumentRecognitionSettings.
- Zapisz wyniki rozpoznawania i zainicjuj instancję klasy StringBuilder.
- Zapisz wynik w pliku TXT.
Poniższy fragment kodu wyjaśnia, jak programowo przekonwertować zeskanowany plik PDF na plik TXT w języku C#:
// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Rozpoznawanie obrazów z plików PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Zapisz wyniki rozpoznawania
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Zainicjuj obiekt klasy StringBuilder
StringBuilder builder = new StringBuilder();
// Zapisz wynik w pliku TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Uzyskaj bezpłatną licencję ewaluacyjną
Możesz poprosić o bezpłatną licencję ewaluacyjną, aby przetestować interfejs API w pełni.
Wniosek
W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na ciąg tekstowy lub plik tekstowy przy użyciu języka C#. Ponadto możesz sprawdzić kilka innych funkcji API odwiedzając dokumentacja. W razie jakichkolwiek wątpliwości prosimy o kontakt pod adresem forum.