Jako programista być może będziesz musiał przetworzyć kilka plików PDF i wyodrębnić z nich tekst. Ekstrakcja tekstu z pliku PDF może być wymagana do różnych celów, takich jak analiza tekstu. W tym artykule pokażemy, jak łatwo jest wyodrębnić tekst z pliku PDF w Python. Ponadto dowiesz się, jak wyodrębnić tekst i zapisać go w pliku TXT.
- Biblioteka Python do wyodrębniania tekstu z plików PDF
- Jak wyodrębnić tekst z pliku PDF
- Ekstrakcja tekstu z pliku PDF w Python
Biblioteka Python do wyodrębniania tekstu z pliku PDF — bezpłatne pobieranie
Aspose.Words for Python to niesamowita biblioteka, która pozwala bezproblemowo tworzyć i przetwarzać dokumenty tekstowe. Możesz manipulować dokumentami w popularnych formatach, takich jak DOC, DOCX i PDF. Zamierzamy użyć tej biblioteki do przeprowadzenia ekstrakcji tekstu w naszych plikach PDF. Możesz zainstalować bibliotekę z PyPI za pomocą następującego polecenia pip.
> pip install aspose-words
Jak wyodrębnić tekst z pliku PDF w Python
Aspose.Words for Python sprawiło, że ekstrakcja tekstu PDF jest niezwykle łatwa, ukrywając złożone operacje przed użytkownikiem. Wystarczy załadować plik PDF i zapisać wyodrębniony tekst. Poniższe kroki pokazują, jak wyodrębnić tekst z pliku PDF przy użyciu Aspose.Words dla języka Python.
- Załaduj plik PDF z żądanej lokalizacji.
- Wyodrębnij i zapisz tekst w pliku .txt.
I to jest to. Następnie możesz przetworzyć plik .txt i manipulować zwykłym tekstem wyodrębnionym z pliku PDF.
Przyjrzyjmy się teraz, jak programowo wyodrębnić tekst z pliku PDF w Python.
Ekstrakcja tekstu z PDF w Python
Poniżej przedstawiono kroki wraz z klasami i metodami ekstrakcji tekstu PDF w Python.
- Załaduj plik PDF za pomocą klasy Document.
- Wyodrębnij tekst z pliku PDF do pliku .txt za pomocą metody Document.save(fileName).
Poniższy przykładowy kod przedstawia wyodrębnianie tekstu z pliku PDF w języku Python.
# Importuj moduł Aspose.Words for Python
import aspose.words as aw
# Załaduj plik PDF
pdf = aw.Document("file.pdf")
# Wyodrębnij i zapisz tekst w pliku TXT
pdf.save("extracted-text.txt")
Poniższy zrzut ekranu pokazuje wejściowy plik PDF, którego użyliśmy do wyodrębnienia tekstu.
Poniższy zrzut ekranu przedstawia wyodrębniony tekst w pliku TXT.
PDF Text Extractor dla Python — Uzyskaj bezpłatną licencję
Możesz uzyskać bezpłatną tymczasową licencję, aby wyodrębnić tekst z pliku PDF bez ograniczeń ewaluacyjnych.
Wniosek
W tym artykule nauczyłeś się, jak wyodrębniać tekst z plików PDF w Python. Widziałeś, jak łatwo i szybko możesz wyodrębnić tekst z pliku PDF i zapisać go programowo w pliku TXT. Teraz możesz zaimplementować ekstrakcję tekstu dla partii plików PDF w swoich aplikacjach Python.
Poznaj Aspose’ PDF Text Extractor dla Python
Możesz poznać inne funkcje Aspose.Words for Python, korzystając z dokumentacji. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.