Wyodrębnij tekst z pliku PDF w Python

Jako programista być może będziesz musiał przetworzyć kilka plików PDF i wyodrębnić z nich tekst. Ekstrakcja tekstu z pliku PDF może być wymagana do różnych celów, takich jak analiza tekstu. W tym artykule pokażemy, jak łatwo jest wyodrębnić tekst z pliku PDF w Python. Ponadto dowiesz się, jak wyodrębnić tekst i zapisać go w pliku TXT.

Biblioteka Python do wyodrębniania tekstu z pliku PDF — bezpłatne pobieranie

Aspose.Words for Python to niesamowita biblioteka, która pozwala bezproblemowo tworzyć i przetwarzać dokumenty tekstowe. Możesz manipulować dokumentami w popularnych formatach, takich jak DOC, DOCX i PDF. Zamierzamy użyć tej biblioteki do przeprowadzenia ekstrakcji tekstu w naszych plikach PDF. Możesz zainstalować bibliotekę z PyPI za pomocą następującego polecenia pip.

> pip install aspose-words

Jak wyodrębnić tekst z pliku PDF w Python

Aspose.Words for Python sprawiło, że ekstrakcja tekstu PDF jest niezwykle łatwa, ukrywając złożone operacje przed użytkownikiem. Wystarczy załadować plik PDF i zapisać wyodrębniony tekst. Poniższe kroki pokazują, jak wyodrębnić tekst z pliku PDF przy użyciu Aspose.Words dla języka Python.

  • Załaduj plik PDF z żądanej lokalizacji.
  • Wyodrębnij i zapisz tekst w pliku .txt.

I to jest to. Następnie możesz przetworzyć plik .txt i manipulować zwykłym tekstem wyodrębnionym z pliku PDF.

Przyjrzyjmy się teraz, jak programowo wyodrębnić tekst z pliku PDF w Python.

Ekstrakcja tekstu z PDF w Python

Poniżej przedstawiono kroki wraz z klasami i metodami ekstrakcji tekstu PDF w Python.

  • Załaduj plik PDF za pomocą klasy Document.
  • Wyodrębnij tekst z pliku PDF do pliku .txt za pomocą metody Document.save(fileName).

Poniższy przykładowy kod przedstawia wyodrębnianie tekstu z pliku PDF w języku Python.

# Importuj moduł Aspose.Words for Python
import aspose.words as aw

# Załaduj plik PDF
pdf = aw.Document("file.pdf")

# Wyodrębnij i zapisz tekst w pliku TXT
pdf.save("extracted-text.txt")

Poniższy zrzut ekranu pokazuje wejściowy plik PDF, którego użyliśmy do wyodrębnienia tekstu.

PDF do wyodrębniania tekstu w Python

Poniższy zrzut ekranu przedstawia wyodrębniony tekst w pliku TXT.

Wyodrębniony tekst z PDF do TXT

PDF Text Extractor dla Python — Uzyskaj bezpłatną licencję

Możesz uzyskać bezpłatną tymczasową licencję, aby wyodrębnić tekst z pliku PDF bez ograniczeń ewaluacyjnych.

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać tekst z plików PDF w Python. Widziałeś, jak łatwo i szybko możesz wyodrębnić tekst z pliku PDF i zapisać go programowo w pliku TXT. Teraz możesz zaimplementować ekstrakcję tekstu dla partii plików PDF w swoich aplikacjach Python.

Poznaj Aspose’ PDF Text Extractor dla Python

Możesz poznać inne funkcje Aspose.Words for Python, korzystając z dokumentacji. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.

Zobacz też