Zeskanowane pliki PDF zawierają obrazy, w których nie można zaznaczyć ani edytować tekstu. W niektórych sytuacjach może być konieczne przekonwertowanie zeskanowanego pliku PDF na dokument programu Word. W tym artykule dowiesz się, jak programowo przekonwertować zeskanowany plik PDF na dokument programu Word w formacie DOCX lub DOC przy użyciu języka C#:
- Zeskanowany plik PDF do programu Word DOCX Converter – instalacja C# API
- Konwertuj zeskanowany plik PDF na dokument programu Word programowo przy użyciu języka C#
Zeskanowany plik PDF do programu Word DOCX Converter – instalacja C# API
Możesz pracować ze zeskanowanymi plikami PDF, wykonując operacje OCR za pomocą interfejsu API Aspose.OCR for .NET, a następnie utworzyć dokument programu Word za pomocą interfejsu API Aspose.Words for .NET programowo przy użyciu języka C#. Możesz skonfigurować interfejsy API, pobierając pliki DLL z New Releases lub za pomocą następujących poleceń instalacyjnych NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Konwertuj zeskanowany plik PDF na dokument programu Word programowo przy użyciu języka C#
Możesz konwertować zeskanowane pliki PDF na dokumenty Word, rozpoznając tekst optycznie. Operacje OCR konwertują zeskanowany plik PDF na tekst, a następnie dokument Word jest generowany w formacie DOC lub DOCX. Wykonaj poniższe czynności, aby przekonwertować zeskanowany plik PDF na dokument programu Word:
- Zainicjuj instancję klasy AsposeOcr.
- Rozpoznawaj obrazy z plików PDF za pomocą klasy DocumentRecognitionSettings.
- Zainicjuj obiekt klasy StringBuilder i zapisz tekst.
- Zainicjuj dokument Word z klasą Document.
- Określ czcionkę i formatowanie akapitu.
- Zapisz wyjściowy dokument programu Word jako plik DOCX lub DOC.
Poniższy fragment kodu pokazuje, jak programowo przekonwertować zeskanowany plik PDF na dokument programu Word przy użyciu języka C#:
// Zainicjuj instancję klasy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Rozpoznawaj obrazy z plików PDF za pomocą klasy DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Zapisz wyniki rozpoznawania
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Zainicjuj obiekt klasy StringBuilder
StringBuilder text = new StringBuilder();
// Zapisz wynik jako tekst
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Zainicjuj dokument Word z klasą Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Określ formatowanie czcionki
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Określ formatowanie akapitu
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Zapisz wyjściowy dokument programu Word.
doc.Save("Scanned_PDF_to_Word.docx");
Uzyskaj bezpłatną licencję ewaluacyjną
Możesz w pełni przetestować interfejsy API, prosząc o bezpłatną licencję tymczasową.
Wniosek
W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na dokument programu Word w formacie DOCX lub DOC przy użyciu języka C#. Ponadto możesz zapoznać się z kilkoma innymi funkcjami związanymi z OCR, odwiedzając dokumentację. W przypadku jakichkolwiek pytań prosimy o kontakt z nami na forum.
Zobacz też
Wskazówka: jeśli kiedykolwiek będziesz potrzebować uzyskać dokument Word z prezentacji PowerPoint, możesz użyć konwertera Aspose Presentation to Word Document.