Zeskanowany PDF do programu Word OCR csharp

Zeskanowane pliki PDF zawierają obrazy, w których nie można zaznaczyć ani edytować tekstu. W niektórych sytuacjach może być konieczne przekonwertowanie zeskanowanego pliku PDF na dokument programu Word. W tym artykule dowiesz się, jak programowo przekonwertować zeskanowany plik PDF na dokument programu Word w formacie DOCX lub DOC przy użyciu języka C#:

Zeskanowany plik PDF do programu Word DOCX Converter – instalacja C# API

Możesz pracować ze zeskanowanymi plikami PDF, wykonując operacje OCR za pomocą interfejsu API Aspose.OCR for .NET, a następnie utworzyć dokument programu Word za pomocą interfejsu API Aspose.Words for .NET programowo przy użyciu języka C#. Możesz skonfigurować interfejsy API, pobierając pliki DLL z New Releases lub za pomocą następujących poleceń instalacyjnych NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Konwertuj zeskanowany plik PDF na dokument programu Word programowo przy użyciu języka C#

Możesz konwertować zeskanowane pliki PDF na dokumenty Word, rozpoznając tekst optycznie. Operacje OCR konwertują zeskanowany plik PDF na tekst, a następnie dokument Word jest generowany w formacie DOC lub DOCX. Wykonaj poniższe czynności, aby przekonwertować zeskanowany plik PDF na dokument programu Word:

  1. Zainicjuj instancję klasy AsposeOcr.
  2. Rozpoznawaj obrazy z plików PDF za pomocą klasy DocumentRecognitionSettings.
  3. Zainicjuj obiekt klasy StringBuilder i zapisz tekst.
  4. Zainicjuj dokument Word z klasą Document.
  5. Określ czcionkę i formatowanie akapitu.
  6. Zapisz wyjściowy dokument programu Word jako plik DOCX lub DOC.

Poniższy fragment kodu pokazuje, jak programowo przekonwertować zeskanowany plik PDF na dokument programu Word przy użyciu języka C#:

// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznawaj obrazy z plików PDF za pomocą klasy DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Zapisz wyniki rozpoznawania
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Zainicjuj obiekt klasy StringBuilder
StringBuilder text = new StringBuilder();

// Zapisz wynik jako tekst
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Zainicjuj dokument Word z klasą Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Określ formatowanie czcionki
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Określ formatowanie akapitu
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Zapisz wyjściowy dokument programu Word. 
doc.Save("Scanned_PDF_to_Word.docx");

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz w pełni przetestować interfejsy API, prosząc o bezpłatną licencję tymczasową.

Wniosek

W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na dokument programu Word w formacie DOCX lub DOC przy użyciu języka C#. Ponadto możesz zapoznać się z kilkoma innymi funkcjami związanymi z OCR, odwiedzając dokumentację. W przypadku jakichkolwiek pytań prosimy o kontakt z nami na forum.

Zobacz też

Wskazówka: jeśli kiedykolwiek będziesz potrzebować uzyskać dokument Word z prezentacji PowerPoint, możesz użyć konwertera Aspose Presentation to Word Document.