Podczas przetwarzania plików PDF często zachodzi potrzeba wyodrębnienia treści ze stron jako zwykłego tekstu. Ten zwykły tekst może być dalej używany do różnych celów, takich jak analiza tekstu, przetwarzanie tekstu itp. W tym artykule dowiesz się, jak wyodrębnić tekst z pliku PDF w Python. Za pomocą przykładów kodu artykuł pokaże, jak przeprowadzić ekstrakcję tekstu z całego pliku PDF lub pojedynczej strony.
- Biblioteka Python do wyodrębniania tekstu z pliku PDF
- Wyodrębnij tekst z pliku PDF w Python
- Wyodrębnij tekst ze strony w formacie PDF
- Ekstraktor tekstu PDF online
Biblioteka Python do wyodrębniania tekstu z pliku PDF
Aby wyodrębnić tekst z plików PDF, użyjemy Aspose.PDF for Python. Jest to potężna biblioteka do manipulacji plikami PDF, która umożliwia tworzenie i przetwarzanie plików PDF. Ponadto umożliwia konwersję plików PDF do innych formatów.
Możesz zainstalować Aspose.PDF dla języka Python za pomocą następującego polecenia pip.
pip install aspose-pdf
Wyodrębnij tekst z pliku PDF w Python
Poniżej przedstawiono kroki, aby wyodrębnić tekst z pliku PDF w Python.
- Użyj klasy Document, aby załadować plik PDF.
- Utwórz instancję klasy TextDevice.
- Rozpocznij pętlę tyle razy, ile stron.
- W każdej iteracji wyodrębnij tekst ze strony za pomocą metody TextDevice.process() i zapisz wyodrębniony tekst w pliku .txt.
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z pliku PDF w języku Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Otwórz dokument PDF
document = ap.Document("input.pdf")
# Utwórz urządzenie tekstowe
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Eksportuj stronę do TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Wyodrębnij tekst z określonej strony w formacie PDF
Możesz także wyodrębnić tekst z określonej strony pliku PDF, używając numeru strony w tablicy Document.pages. Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z określonej strony w formacie PDF.
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("input.pdf")
# Utwórz urządzenie tekstowe
textDevice = ap.devices.TextDevice()
# Wyodrębnij tekst z pierwszej strony
textDevice.process(document.pages[1], "extracted_text.txt")
Wyodrębnij tekst z pliku PDF online
Możesz także użyć naszego narzędzia do wyodrębniania tekstu PDF online, aby wyodrębnić tekst z plików PDF. Jest to bezpłatne narzędzie, z którego można korzystać bez żadnej subskrypcji ani rejestracji.
Bezpłatna biblioteka wyodrębniania tekstu PDF
Uzyskaj darmową licencję tymczasową i wyodrębniaj tekst z plików PDF bez żadnych ograniczeń.
Przeglądaj bibliotekę PDF w języku Python
Możesz dowiedzieć się więcej o bibliotece PDF Python, korzystając z dokumentacji. Ponadto możesz zamieścić swoje zapytania na naszym forum.
Wniosek
W tym artykule nauczyłeś się, jak wyodrębnić tekst z pliku PDF w Python. Kroki i przykłady kodu pokazały, jak wyodrębnić tekst z całego pliku PDF lub określonej strony. Możesz łatwo zainstalować bibliotekę i przeprowadzić ekstrakcję tekstu z aplikacji Python.