OCR PDF och extrahera text från PDF i C#

En PDF-fil är ett av de vanligaste affärsdokumenten. I vissa fall kan vi behöva läsa skannade PDF-dokument programmatiskt. Svårigheten att extrahera text från skannade PDF-filer har lett till utvecklingen av verktyg som gör det lättare att läsa och hämta text från sådana PDF-dokument. Beroende på innehållet i ditt dokument kan det vara användbart att extrahera text från PDF-filer av flera skäl. I den här artikeln kommer vi att lära oss hur man OCR PDF-dokument och extraherar text från PDF i C#.

Följande ämnen kommer att behandlas i den här artikeln:

  1. OCR PDF till Text C# API
  2. OCR PDF och extrahera text från PDF
  3. Utför OCR på PDF och spara text
  4. OCR PDF till Word-fil
  5. OCR PDF till JSON

OCR PDF till Text C# API

Vi kommer att använda Aspose.OCR for .NET API för att utföra OCR på PDF-dokument. Den kan känna igen skannade bilder, smartphonefoton, skärmdumpar och bildområden. API:et returnerar igenkända textresultat i de mest populära dokument- och datautbytesformaten. Förutom att konvertera bilder till text kan API:et även skapa sökbara PDF-filer baserat på skanningar. Dessutom kan den autokorrigera stavfel i igenkända texter.

API tillhandahåller klassen AsposeOcr som tillhandahåller olika metoder för att utföra OCR-operationer. Den tillhandahåller metoden RecognizePdf(string, DocumentRecognitionSettings) för att känna igen texten från det medföljande PDF-dokumentet. Klassen DocumentRecognitionSettings i API:t tillhandahåller inställningar för PDF-igenkänningsprocessen. Klassen RecognitionResult representerar resultatet av bildigenkänningen.

Vänligen antingen ladda ned API:ets DLL eller installera den med NuGet.

PM> Install-Package Aspose.OCR

OCR PDF och extrahera text från PDF i C#

Vi kan utföra OCR på PDF-dokument och extrahera den igenkända texten genom att följa stegen nedan:

  1. Skapa först en instans av klassen AsposeOcr.
  2. Initiera sedan ett objekt av klassen DocumentRecognitionSettings.
  3. Ange sedan vilket språk som ska användas för OCR.
  4. Efter det får du RecognitionResult genom att anropa RecognizePdf()-metoden. Den tar bildsökvägen och DocumentRecognitionSettings-objektet som argument.
  5. Slutligen, gå igenom listan RecognitionResult och visa den identifierade texten.

Följande exempelkod visar hur man OCR PDF-dokument och extraherar den igenkända texten i C#.

// Detta kodexempel visar hur man OCR PDF-dokument och extraherar den igenkända texten.
// Initiera PCR-motorn
AsposeOcr recognitionEngine = new AsposeOcr();

// Initiera igenkänningsinställningar
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Ange språk för OCR. Flerspråkig som standard
recognitionSettings.Language = Language.Eng;

// Känna igen text från PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Visa den igenkända texten
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF och extrahera text från PDF i C#

OCR PDF och extrahera text från PDF i C#

Utför OCR på PDF och spara text i C#

Vi kan utföra OCR på PDF-dokument och spara den igenkända texten genom att följa stegen nedan:

  1. Skapa först en instans av klassen AsposeOcr.
  2. Initiera sedan ett objekt av klassen DocumentRecognitionSettings.
  3. Ange sedan vilket språk som ska användas för OCR.
  4. Efter det, anropa metoden RecognizePdf() för att få RecognitionResult. Den tar bildsökvägen och DocumentRecognitionSettings-objektet som argument.
  5. Slutligen sparar du texten med metoden SaveMultipageDocument(). Det tar utdatafilens sökväg, SaveFormat och RecognitionResult-objektet som argument.

Följande exempelkod visar hur man OCR PDF-dokument och sparar den igenkända texten i C#.

// Detta kodexempel visar hur man OCR PDF-dokument och extraherar den igenkända texten.
// Initiera PCR-motorn
AsposeOcr recognitionEngine = new AsposeOcr();

// Initiera igenkänningsinställningar
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Ange språk för OCR. Flerspråkig som standard
recognitionSettings.Language = Language.Eng;

// Känn igen text från PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Spara den igenkända texten
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Utför OCR på PDF och spara text i C#

Utför OCR på PDF och spara text i C#

OCR PDF och konvertera skannad PDF till Word i C#

Vi kan utföra OCR på skannade PDF-dokument och spara den igenkända texten i Word-dokument genom att följa stegen som nämnts tidigare. Men vi behöver bara ange SaveFormat.Docx i det sista steget.

Följande exempelkod visar hur man OCR PDF och sparar den igenkända texten som ett Word-dokument i C#.

// Detta kodexempel visar hur man OCR PDF-dokument och sparar den igenkända texten som DOCX.
// Initiera PCR-motorn
AsposeOcr recognitionEngine = new AsposeOcr();

// Initiera igenkänningsinställningar
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Ange språk för OCR. Flerspråkig som standard
recognitionSettings.Language = Language.Eng;

// Känn igen text från PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Spara den igenkända texten som DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF och konvertera skannad PDF till Word i C#

OCR PDF och konvertera skannad PDF till Word i C#

OCR PDF och konvertera PDF till JSON i C#

Vi kan utföra OCR på PDF-dokument och spara den igenkända texten i en JSON-fil genom att följa stegen som nämnts tidigare. Men vi behöver bara ange SaveFormat.Json i det sista steget.

Följande exempelkod visar hur man OCR PDF och sparar den igenkända texten som en JSON-fil i C#.

// Detta kodexempel visar hur man OCR PDF-dokument och sparar den igenkända texten som JSON.
// Initiera PCR-motorn
AsposeOcr recognitionEngine = new AsposeOcr();

// Initiera igenkänningsinställningar
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Ange språk för OCR. Flerspråkig som standard
recognitionSettings.Language = Language.Eng;

// Känn igen text från PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Spara den igenkända texten som JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Skaffa en gratis utvärderingslicens

Du kan få en gratis tillfällig licens för att prova biblioteket utan utvärderingsbegränsningar.

Slutsats

I den här artikeln har vi lärt oss hur man utför OCR på PDF-dokument och extraherar text från PDF i C#. Vi har också sett hur man sparar den igenkända texten som en TXT, DOCX och JSON fil. Dessutom kan du lära dig mer om Aspose.OCR för .NET API med hjälp av dokumentation. I händelse av oklarheter, var god kontakta oss på vårt forum.

Se även