Jeśli szukasz prostej metody wyodrębniania obrazów z pliku PDF przy użyciu Python, ten artykuł zawiera cenne rozwiązanie. Wykonując kilka prostych kroków, możesz nauczyć się, jak wydajnie przetwarzać plik PDF i wyodrębniać jego obrazy. Zobaczmy więc, jak wyodrębnić obrazy z pliku PDF w Python.
- Biblioteka Python do wyodrębniania obrazów z plików PDF
- Wyodrębnianie obrazów z PDF w Python
- Internetowy ekstraktor obrazów PDF
Biblioteka Python do wyodrębniania obrazów w formacie PDF
Aby wyodrębnić obrazy z pliku PDF, użyjemy Aspose.PDF for Python. Jest to solidna biblioteka PDF, która pozwala bez wysiłku tworzyć i przetwarzać pliki PDF. Ponadto pozwala analizować plik PDF i wyodrębniać obrazy w kilku wierszach kodu. Użyj następującego polecenia pip, aby zainstalować bibliotekę w swojej aplikacji.
> pip install aspose-pdf
Jak wyodrębnić obrazy z pliku PDF w Python
Poniżej przedstawiono kroki, które wykonamy, aby wyodrębnić obrazy z pliku PDF.
- Załaduj plik PDF.
- Przeglądaj strony w pliku PDF.
- Wyodrębnij obrazy jeden po drugim.
- Zapisz wyodrębnione obrazy.
Przekształćmy teraz te kroki w kod Python i wyodrębnijmy obrazy z pliku PDF.
Ekstrakcja obrazu PDF w Python
Poniżej przedstawiono kroki, aby wyodrębnić obrazy z pliku PDF w Python.
- Najpierw załaduj plik PDF przy użyciu klasy Document.
- Przeglądaj strony pliku PDF za pomocą kolekcji document.pages.
- Dla każdej strony uzyskaj dostęp do każdego XImage w kolekcji resources.images.
- Zapisz każdy obraz w żądanej lokalizacji za pomocą metody XImage.save().
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku PDF w języku Python.
import aspose.pdf as ap
import aspose.pydrawing as drawing
# Załaduj plik PDF
document = ap.Document("document.pdf")
image_counter = 1
image_name = "image_{counter}.jpg"
# Przejrzyj wszystkie strony
for page in document.pages:
# Zapętlaj obrazy na stronie
for image in page.resources.images:
# Utwórz obiekt strumienia pamięci, aby zapisać obraz
with open(image_name.format(counter=image_counter), "wb") as stream:
# Zapisz obraz
image.save(stream, drawing.imaging.ImageFormat.jpeg)
image_counter = image_counter + 1
Internetowy ekstraktor obrazów PDF
Udostępniamy również internetowy parser PDF, który jest oparty na Aspose.PDF for Python. Możesz użyć tego bezpłatnego narzędzia do analizowania plików PDF i wyodrębniania obrazów.
Biblioteka PDF w Python
Możesz uzyskać bezpłatną licencję tymczasową i wyodrębniać obrazy z plików PDF bez żadnych ograniczeń.
Ponadto możesz dowiedzieć się więcej o bibliotece Python PDF, korzystając z dokumentacji. Możesz również zamieścić swoje zapytania na naszym forum.
Wniosek
W tym artykule nauczyłeś się, jak wyodrębniać obrazy z pliku PDF w Python. Przewodnik krok po kroku i przykładowy kod pokazują, jak analizować plik PDF i wyodrębniać obrazy z każdej strony. Ponadto udostępniliśmy bezpłatną aplikację online do wyodrębniania tekstu i obrazów PDF. Możesz korzystać z tej aplikacji z dowolnego urządzenia z dostępem do Internetu.