skannade pdf till text csharp

En skannad PDF-fil innehåller en eller flera platta bilder som tagits med en skanner eller en kamera. Du kan inte kopiera, klistra in eller bearbeta information från sådana filer. Den här artikeln tar upp hur du konverterar en skannad PDF till text i C#.

Skannad PDF till textkonvertering – C# API-installation

Aspose.OCR for .NET API används för att utföra OCR-operationer. Den kan känna igen tecknen optiskt från bilder eller skannade PDF-dokument. Vänligen konfigurera API:et genom att ladda ner DLL-filen från avsnittet New Releases eller med följande installationskommando NuGet.

PM> Install-Package Aspose.OCR

Konvertera skannad PDF till textsträng i C#

Du kan konvertera en skannad PDF-fil till en textsträng genom att utföra OCR-operationer på den. Du måste följa stegen nedan för att skriva ut texten från ett skannat PDF-dokument:

  1. Ange inställningen för att känna igen den skannade PDF-filen.
  2. Initiera klassinstansen AsposeOcr.
  3. Initiera klassobjektet RecognitionResult.
  4. Skriv ut texten efter att ha känt igen den från en skannad PDF.

Följande kodsnutt visar hur man känner igen text från skannad PDF i C#:

// Initiera AsposeOcr-klassinstansen
AsposeOcr api = new AsposeOcr();

// Ange inställningen för att känna igen den skannade PDF-filen
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Initiera RecognitionResult klassobjekt
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Skriv ut text efter att ha identifierat den från skannad PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Konvertera skannad PDF till TXT-fil Programmatiskt i C#

Du kan konvertera en skannad PDF-fil till en TXT-fil med följande steg:

  1. Instantiera klassobjektet AsposeOcr.
  2. Skapa DocumentRecognitionSettings klassobjekt.
  3. Spara igenkänningsresultat och initiera klassinstansen StringBuilder.
  4. Spara resultatet i en TXT-fil.

Kodavsnittet nedan förklarar hur man konverterar en skannad PDF-fil till en TXT-fil programmatiskt i C#:

// Initiera AsposeOcr-klassinstansen
AsposeOcr api = new AsposeOcr();

// Känn igen bilder från PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Spara igenkänningsresultat
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Initiera StringBuilder-klassobjekt
StringBuilder builder = new StringBuilder();

// Spara resultatet i en TXT-fil
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Få gratis utvärderingslicens

Du kan begära en gratis utvärderingslicens för att testa API:t i dess fulla kapacitet.

Slutsats

I den här artikeln har du lärt dig hur du konverterar en skannad PDF till en textsträng eller en textfil programmatiskt med C#. Dessutom kan du kontrollera flera andra funktioner i API:t genom att besöka dokumentation. Kontakta oss gärna på forum om du har några problem.

Se även