Wyodrębnij tekst z pliku PDF w Python

Podczas przetwarzania plików PDF często zachodzi potrzeba wyodrębnienia treści ze stron jako zwykłego tekstu. Ten zwykły tekst może być dalej używany do różnych celów, takich jak analiza tekstu, przetwarzanie tekstu itp. W tym artykule dowiesz się, jak wyodrębnić tekst z pliku PDF w Python. Za pomocą przykładów kodu artykuł pokaże, jak przeprowadzić ekstrakcję tekstu z całego pliku PDF lub pojedynczej strony.

Biblioteka Python do wyodrębniania tekstu z pliku PDF

Aby wyodrębnić tekst z plików PDF, użyjemy Aspose.PDF for Python. Jest to potężna biblioteka do manipulacji plikami PDF, która umożliwia tworzenie i przetwarzanie plików PDF. Ponadto umożliwia konwersję plików PDF do innych formatów.

Możesz zainstalować Aspose.PDF dla języka Python za pomocą następującego polecenia pip.

pip install aspose-pdf

Wyodrębnij tekst z pliku PDF w Python

Poniżej przedstawiono kroki, aby wyodrębnić tekst z pliku PDF w Python.

  • Użyj klasy Document, aby załadować plik PDF.
  • Utwórz instancję klasy TextDevice.
  • Rozpocznij pętlę tyle razy, ile stron.
  • W każdej iteracji wyodrębnij tekst ze strony za pomocą metody TextDevice.process() i zapisz wyodrębniony tekst w pliku .txt.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z pliku PDF w języku Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Otwórz dokument PDF
document = ap.Document("input.pdf")

# Utwórz urządzenie tekstowe
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Eksportuj stronę do TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Wyodrębnij tekst z określonej strony w formacie PDF

Możesz także wyodrębnić tekst z określonej strony pliku PDF, używając numeru strony w tablicy Document.pages. Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z określonej strony w formacie PDF.

import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("input.pdf")

# Utwórz urządzenie tekstowe
textDevice = ap.devices.TextDevice()

# Wyodrębnij tekst z pierwszej strony
textDevice.process(document.pages[1], "extracted_text.txt")

Wyodrębnij tekst z pliku PDF online

Możesz także użyć naszego narzędzia do wyodrębniania tekstu PDF online, aby wyodrębnić tekst z plików PDF. Jest to bezpłatne narzędzie, z którego można korzystać bez żadnej subskrypcji ani rejestracji.

Bezpłatna biblioteka wyodrębniania tekstu PDF

Uzyskaj darmową licencję tymczasową i wyodrębniaj tekst z plików PDF bez żadnych ograniczeń.

Przeglądaj bibliotekę PDF w języku Python

Możesz dowiedzieć się więcej o bibliotece PDF Python, korzystając z dokumentacji. Ponadto możesz zamieścić swoje zapytania na naszym forum.

Wniosek

W tym artykule nauczyłeś się, jak wyodrębnić tekst z pliku PDF w Python. Kroki i przykłady kodu pokazały, jak wyodrębnić tekst z całego pliku PDF lub określonej strony. Możesz łatwo zainstalować bibliotekę i przeprowadzić ekstrakcję tekstu z aplikacji Python.

Zobacz też