PDF till Word OCR Python

Att konvertera skannade PDF-filer till Word-dokument erbjuder flera fördelar som att redigera texten i dokumentet, vilket gör det enkelt att göra ändringar eller uppdateringar. Det möjliggör också sökbarhet i text, vilket är ovärderligt för stora dokument eller vid forskning. Dessutom kan du också utföra stavningskontroll för att korrigera eventuella stavfel eller felstavade ord medan du utför OCR i Python. Följaktligen förklarar den här artikeln hur man konverterar skannade PDF-dokument till Word-dokument med OCR i Python med hjälp av Aspose.OCR for Python via .NET-biblioteket.

PDF till Word med OCR – Python API-installation

Innan vi dyker in i textigenkänning, låt oss se till att vi har den nödvändiga miljön inställd för att köra OCR i Python. Se till att du har Python installerat på ditt system, helst version 3.x eller senare, tillsammans med en pålitlig kodredigerare eller integrerad utvecklingsmiljö (IDE) som Visual Studio Code eller IDLE etc. Sedan måste du konfigurera Aspose.OCR för Python via .NET medan du kommer åt det från avsnittet Nya utgåvor eller från PyPi med följande installationskommando:

pip install aspose-ocr-python-net

Konvertera skannad PDF till Word med OCR i Python

Du kan konvertera en skannad PDF till Word med OCR genom att följa stegen nedan:

  1. Initiera API:t med klassen AsposeOcr.
  2. Ställ in olika inställningar för igenkänningen.
  3. Känn igen texten med OCR och spara den utgående DOCX Word-filen.

Följande kodsnutt visar hur man konverterar skannad PDF till Word med OCR i Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF till Word med OCR och stavningskontroll i Python

OCR-motorer kan ibland skapa felaktigheter, särskilt när de hanterar komplexa layouter, handstil eller skanningar av låg kvalitet. I sådana fall spelar stavningskorrigering en avgörande roll för att förbättra noggrannheten hos den konverterade texten. Det här avsnittet tar särskilt upp PDF till Word-konvertering med OCR och stavningskontrollfunktionen i Python. Du måste följa stegen nedan för att uppfylla dessa krav:

  1. Initiera en instans av klassen AsposeOcr.
  2. Ställ in olika egenskaper med klassen RecognitionSettings.
  3. Känn igen PDF-filen med OCR och stavningskontrollera den extraherade strängen.
  4. Exportera Word-dokumentet i DOCX-format.

Exempelkoden nedan förklarar hur man konverterar en PDF till ett Word-dokument med OCR i Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Skaffa en gratis utvärderingslicens

Du kan få en gratis tillfällig licens för att undvika utvärderingsbegränsningar och vattenstämplar.

Summering

I det här blogginlägget har vi utforskat hur man konverterar skannade PDF-filer till Word-dokument med OCR i Python. Vi diskuterade vikten av OCR och dess fördelar, gav en steg-för-steg-guide för att ställa in miljön, extrahera text från PDF-dokumentet med olika tillvägagångssätt samtidigt som vi angav flera inställningar och spara den i ett Word-dokument. Den här guiden låter dig automatisera konverteringen av skannade PDF-filer till redigerbara Word-dokument med Python och OCR, vilket öppnar upp en värld av möjligheter för dataextraktion och manipulation. Om du behöver diskutera något av dina problem får du gärna skriva till oss på gratis supportforum.

Se även