Wyodrębnij obrazy z PDF Python

Jeśli szukasz prostej metody wyodrębniania obrazów z pliku PDF przy użyciu Python, ten artykuł zawiera cenne rozwiązanie. Wykonując kilka prostych kroków, możesz nauczyć się, jak wydajnie przetwarzać plik PDF i wyodrębniać jego obrazy. Zobaczmy więc, jak wyodrębnić obrazy z pliku PDF w Python.

Biblioteka Python do wyodrębniania obrazów w formacie PDF

Aby wyodrębnić obrazy z pliku PDF, użyjemy Aspose.PDF for Python. Jest to solidna biblioteka PDF, która pozwala bez wysiłku tworzyć i przetwarzać pliki PDF. Ponadto pozwala analizować plik PDF i wyodrębniać obrazy w kilku wierszach kodu. Użyj następującego polecenia pip, aby zainstalować bibliotekę w swojej aplikacji.

> pip install aspose-pdf 

Jak wyodrębnić obrazy z pliku PDF w Python

Poniżej przedstawiono kroki, które wykonamy, aby wyodrębnić obrazy z pliku PDF.

  • Załaduj plik PDF.
  • Przeglądaj strony w pliku PDF.
  • Wyodrębnij obrazy jeden po drugim.
  • Zapisz wyodrębnione obrazy.

Przekształćmy teraz te kroki w kod Python i wyodrębnijmy obrazy z pliku PDF.

Ekstrakcja obrazu PDF w Python

Poniżej przedstawiono kroki, aby wyodrębnić obrazy z pliku PDF w Python.

  • Najpierw załaduj plik PDF przy użyciu klasy Document.
  • Przeglądaj strony pliku PDF za pomocą kolekcji document.pages.
  • Dla każdej strony uzyskaj dostęp do każdego XImage w kolekcji resources.images.
  • Zapisz każdy obraz w żądanej lokalizacji za pomocą metody XImage.save().

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku PDF w języku Python.

import aspose.pdf as ap
import aspose.pydrawing as drawing

# Załaduj plik PDF
document = ap.Document("document.pdf")

image_counter = 1
image_name = "image_{counter}.jpg"

# Przejrzyj wszystkie strony
for page in document.pages:

    # Zapętlaj obrazy na stronie
   for image in page.resources.images: 
        
        # Utwórz obiekt strumienia pamięci, aby zapisać obraz
        with open(image_name.format(counter=image_counter), "wb") as stream:
           
            # Zapisz obraz
            image.save(stream, drawing.imaging.ImageFormat.jpeg)
            image_counter = image_counter + 1

Internetowy ekstraktor obrazów PDF

Udostępniamy również internetowy parser PDF, który jest oparty na Aspose.PDF for Python. Możesz użyć tego bezpłatnego narzędzia do analizowania plików PDF i wyodrębniania obrazów.

Biblioteka PDF w Python

Możesz uzyskać bezpłatną licencję tymczasową i wyodrębniać obrazy z plików PDF bez żadnych ograniczeń.

Ponadto możesz dowiedzieć się więcej o bibliotece Python PDF, korzystając z dokumentacji. Możesz również zamieścić swoje zapytania na naszym forum.

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać obrazy z pliku PDF w Python. Przewodnik krok po kroku i przykładowy kod pokazują, jak analizować plik PDF i wyodrębniać obrazy z każdej strony. Ponadto udostępniliśmy bezpłatną aplikację online do wyodrębniania tekstu i obrazów PDF. Możesz korzystać z tej aplikacji z dowolnego urządzenia z dostępem do Internetu.

Zobacz też