Parse PDF w Python: Potężny przewodnik krok po kroku

Jak analizować PDF w Python: Potężny przewodnik krok po kroku

Parsowanie PDF oznacza wydobywanie danych strukturalnych lub niestrukturalnych z pliku PDF. Może to być trudne z powodu złożonej struktury PDF-ów. W przeciwieństwie do zwykłego tekstu lub uporządkowanych formatów takich jak JSON i XML, PDF-y przechowują zawartość w sposób, który nie zawsze podąża za liniowym porządkiem. Wydobywanie tekstu, tabel, obrazów i metadanych wymaga niezawodnej, dokładnej i efektywnej biblioteki do parsowania PDF w Python. W tym artykule dowiemy się, jak parsować PDF w Python, używając Aspose.PDF for Python. Na końcu tego przewodnika będ

Ten artykuł porusza następujące tematy:

Aspose.PDF: Najlepsza biblioteka do analizy PDF w Python
Analizuj PDF i wyodrębnij tekst w Python
Jak analizować tabele z pliku PDF w Python
Analiza metadanych PDF: Uzyskaj informacje o pliku PDF w Python
Parsowanie obrazów z pliku PDF w Python
Jak analizować adnotacje PDF w Python

Aspose.PDF: Najlepsza biblioteka parsera PDF w Python

Aspose.PDF for Python jest jedną z najlepszych bibliotek do analizy PDF w Python dostępnych dzisiaj. Oferuje wysoką dokładność, obsługuje ekstrakcję danych z zachowaniem struktury, a nawet działa z zeskanowanymi PDF-ami dzięki wsparciu OCR.

Aspose.PDF wyróżnia się wśród bibliotek parserów PDF w Python z kilku powodów:

Wysoka dokładność: Wydobywa tekst i tabele z precyzją.
Wsparcie dla danych strukturalnych: Działa z tabelami, obrazami i metadanymi.
Brak Zewnętrznych Zależności: Lekka, samodzielna biblioteka.
Wielokrotne formaty wyjściowe: Konwertuj pliki PDF na tekst, XLSX, DOCX, HTML i formaty obrazów.
Bezpieczeństwo i niezawodność: Obsługuje złożone struktury PDF bez uszkadzania danych.

W porównaniu do alternatyw open-source, Aspose.PDF oferuje bardziej solidne i bogate w funkcje rozwiązanie, co czyni je idealnym do aplikacji przedsiębiorstw i systemów automatyzacji dokumentów.

Instalacja i konfiguracja

Instalacja Aspose.PDF for Python jest prosta. Pobierz go z releases lub uruchom następujące pip polecenie:

pip install aspose-pdf

Aby zacząć używać Aspose.PDF w swojej aplikacji Python, zaimportuj potrzebny moduł:

import aspose.pdf as ap

Ekstrakcja tekstu: Parsowanie PDF w Python

Parsowanie tekstu z pliku PDF jest jedną z kluczowych funkcji bibliotek do parsowania PDF w Python. Możemy wyodrębnić tekst ze wszystkich stron dokumentu PDF lub z konkretnej strony lub regionu dokumentu PDF. W nadchodzących sekcjach nauczymy się, jak:

Parsowanie tekstu ze wszystkich stron PDF w Python
Analizuj tekst z określonej strony w pliku PDF
Parse Text from a Specific Region in a PDF
Ekstrakcja tekstu z wielokolumnowych plików PDF
Wzmocnione przetwarzanie tekstu z ScaleFactor
Analiza tekstu w PDF: Alternatywne podejście

Parsuj tekst ze wszystkich stron PDF w Python

Aspose.PDF for Python zapewnia efektywny sposób na wyodrębnienie tekstu z dokumentów PDF za pomocą klas Document i TextAbsorber. Klasa Document jest używana do wczytywania pliku PDF, podczas gdy klasa TextAbsorber jest odpowiedzialna za wyodrębnianie treści tekstowej ze wszystkich stron. Metoda accept() przetwarza każdą stronę i wyodrębnia tekst, który można następnie przechowywać lub wyświetlać według potrzeb.

Kroki do wyodrębnienia tekstu ze wszystkich stron pliku PDF w Python

Załaduj dokument PDF za pomocą klasy Document.
Utwórz instancję klasy TextAbsorber, aby obsłużyć ekstrakcję tekstu.
Call the accept() method on the pages collection, allowing TextAbsorber to process all pages.
Pobierz wyodrębniony tekst za pomocą właściwości text instancji TextAbsorber.
Print the extracted text.

Poniższy przykład kodu pokazuje, jak analizować tekst ze wszystkich stron pliku PDF w Python.

# Ten przykład kodu pokazuje, jak wyodrębnić tekst ze wszystkich stron dokumentu PDF w Python.
import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Zadzwoń do metody accept, aby przetworzyć wszystkie strony
document.pages.accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Zdefiniuj ścieżkę pliku
file_path = "extracted-text.txt"

# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Przeanalizuj tekst z konkretnej strony w pliku PDF

Możemy również wyodrębnić tekst z konkretnej strony dokumentu PDF, lekko modyfikując wcześniejsze podejście. Zamiast przetwarzać cały dokument, wystarczy wywołać metodę accept() na żądanej stronie obiektu Document. Po prostu określ numer strony, używając jej indeksu, a Aspose.PDF wyodrębni tekst tylko z tej strony. Ta metoda jest przydatna w przypadku dużych plików PDF, gdy potrzebujesz tylko danych z określonej sekcji, poprawiając efektywność i wydajność.

Poniższy przykład kodu pokazuje, jak analizować tekst z określonej strony PDF w Python.

# Ten przykład kodu pokazuje, jak wyodrębnić tekst z konkretnej strony dokumentu PDF w Python.
import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Zadzwoń do metody accept, aby przetworzyć wszystkie strony.
document.pages[1].accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Zdefiniuj ścieżkę do pliku
file_path = "extracted-text.txt"

# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Analizuj tekst z określonego obszaru w pliku PDF

Czasami możemy potrzebować wyodrębnić tekst z określonej sekcji strony PDF, a nie pobierać treści z całego dokumentu. Aby skierować się do konkretnego obszaru, użyj właściwości Rectangle z TextSearchOptions. Ta właściwość akceptuje obiekt Rectangle, który definiuje współrzędne pożądanego regionu. Określając ten zasięg, możemy wyodrębnić tekst tylko z wybranego obszaru, ignorując resztę treści strony.

Kroki do wyodrębnienia tekstu z konkretnego obszaru strony

Załaduj dokument PDF za pomocą klasy Document.
Utwórz instancję klasy TextAbsorber, aby przechwycić tekst z dokumentu.
Zdefiniuj obszar docelowy za pomocą TextSearchOptions.Rectangle, który określa obszar do wyodrębnienia tekstu.
Zastosuj ekstrakcję tekstu na konkretnej stronie, wywołując metodę accept() na wybranej stronie.
Pobierz wyodrębniony tekst z właściwości Text obiektu TextAbsorber.
Process the output as needed.

Następujący przykład kodu pokazuje, jak analizować tekst z określonego obszaru strony PDF w Python.

# Ten przykład kodu pokazuje, jak wyodrębnić tekst z konkretnego obszaru strony w dokumencie PDF przy użyciu Python.
import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("sample.pdf")

# Utwórz obiekt TextAbsorber, aby wyodrębnić tekst.
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)

# Accept the absorber for the first page
document.pages[1].accept(absorber)

# Get the extracted text
extracted_text = absorber.text

# Zdefiniuj ścieżkę pliku
file_path = "extracted-text.txt"

# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

To podejście pozwala na precyzyjne wydobywanie tekstu z komórek tabel, pól formularzy lub dowolnie zdefiniowanej sekcji strony, co czyni je idealnym do automatyzacji dokumentów i analizy danych.

Ekstrakcja tekstu z wielokolumnowych plików PDF

Dokumenty PDF często zawierają mieszankę elementów takich jak tekst, obrazy, adnotacje, załączniki i wykresy. Podczas pracy z plikami PDF o wielu kolumnach, wydobywanie tekstu przy zachowaniu oryginalnego układu może być wyzwaniem.

Aspose.PDF for Python upraszcza ten proces, pozwalając programistom na manipulację właściwościami tekstu przed ekstrakcją. Poprzez dostosowanie rozmiarów czcionek i następnie ekstrakcję tekstu, możesz uzyskać czystszy i bardziej uporządkowany wynik. Następujące kroki demonstrują, jak zastosować tę metodę do dokładnej ekstrakcji tekstu z wielokolumnowych plików PDF.

Kroki, aby wyodrębnić tekst z pliku PDF wielokolumnowego w Python

Załaduj dokument PDF za pomocą klasy Document.
Utwórz instancję TextFragmentAbsorber, aby zlokalizować i wyodrębnić poszczególne fragmenty tekstu z dokumentu.
Odzyskaj wszystkie wykryte fragmenty tekstu i zmniejsz ich rozmiar czcionki o 70%, aby zwiększyć dokładność ekstrakcji.
Przechowaj zmodyfikowany dokument w strumieniu pamięci, aby uniknąć zapisywania pliku pośredniego.
Załaduj PDF z strumienia pamięci, aby przetworzyć dostosowany tekst.
Użyj TextAbsorber, aby odzyskać ustrukturyzowany tekst z zmodyfikowanego dokumentu.
Zapisz wyodrębniony tekst do pliku .txt, aby go dalej wykorzystać.

Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z wielokolumowego PDF, zachowując układ.

# Ten przykład kodu pokazuje, jak wydobyć tekst z PDF-a wielokolumnowego w Python.
import io
import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("multi-column-sample.pdf")

# Utwórz obiekt TextFragmentAbsorber, aby wyodrębnić tekst.
text_fragment_absorber = ap.text.TextFragmentAbsorber()

# Accept the absorber for the first page
document.pages.accept(text_fragment_absorber)

# Uzyskaj zbiór wyodrębnionych fragmentów tekstu
text_fragment_collection = text_fragment_absorber.text_fragments

# Zredukować rozmiar czcionki o co najmniej 70%, aby poprawić ekstrakcję tekstu
for text_fragment in text_fragment_collection:
    text_fragment.text_state.font_size *= 0.7

# Zapisz zmodyfikowany dokument do strumienia w pamięci
source_stream = io.BytesIO()
document.save(source_stream)

# Przeładuj dokument z strumienia pamięciowego
source_stream.seek(0)
dest_document = ap.Document(source_stream)

# Zainicjalizuj TextAbsorber, aby wyodrębnić zaktualizowany tekst
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text

# Zapisz wyekstrahowany tekst do pliku
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

Ta metoda zapewnia, że tekst wyodrębniony z wielokolumnowych plików PDF zachowuje swój oryginalny układ tak dokładnie, jak to możliwe.

Zaawansowane parsowanie tekstu z ScaleFactor

Aspose.PDF for Python pozwala na analizowanie plików PDF i wydobywanie tekstu z konkretnej strony z zaawansowanymi opcjami ekstrakcji tekstu, takimi jak tryb formatowania tekstu i współczynnik skali. Opcje te pomagają w dokładnym wydobywaniu tekstu z złożonych plików PDF, w tym dokumentów wielokolumnowych.

Korzystając z opcji ScaleFactor, możemy dostosować wewnętrzną siatkę tekstu w celu poprawy precyzji. Współczynnik skali między 1 a 0.1 działa jak redukcja czcionki, pomagając w poprawnym wyrównaniu wyodrębnionego tekstu. Wartości między 0.1 a -0.1 są traktowane jak zero, co umożliwia automatyczne skalowanie na podstawie średniej szerokości glifu najczęściej używanej czcionki na stronie. Jeśli nie ustawiono ScaleFactor, zastosowana jest domyślna wartość 1.0, co zapewnia brak dostosowań skalowania. W przypadku dużych zadań wyodrębniania tekstu zaleca się auto-skalowanie (ScaleFactor = 0), ale ręczne ustawienie ScaleFactor = 0.5 może popraw

Kroki do wyodrębnienia tekstu z konkretnej strony z współczynnikiem skali

Załaduj dokument PDF za pomocą klasy Document.
Utwórz instancję TextAbsorber, aby wyodrębnić tekst.
Ustaw TextExtractionOptions w trybie PURE dla dokładnego wyodrębnienia.
Dostosuj scalefactor, aby zoptymalizować rozpoznawanie tekstu w wielokolumnowych plikach PDF.
Zadzwoń accept() na kolekcji pages, aby wyodrębnić tekst.
Zapisz wyodrębnioną treść w pliku tekstowym.

# Ten przykład kodu pokazuje, jak wyodrębnić tekst z określonego obszaru strony w dokumencie PDF za pomocą Python.
import aspose.pdf as ap

# Otwórz dokument PDF
document = ap.Document("sample.pdf")

# Zainicjuj TextAbsorber z opcjami ekstrakcji tekstu
text_absorber = ap.text.TextAbsorber()

# Ustaw opcje wydobywania
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5  # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options

# Wyodrębnij tekst z określonej strony
document.pages.accept(text_absorber)

# Get extracted text
extracted_text = text_absorber.text

# Zapisz wyodrębniony tekst do pliku
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

Analiza tekstu w PDF: Alternatywne podejście

Aspose.PDF for Python oferuje również alternatywne podejście do ekstrakcji tekstu za pomocą klasy TextDevice. Przeczytaj więcej o extracting text from PDF using the TextDevice.

Jak analizować tabele z pliku PDF w Python

Parsowanie tabel z plików PDF jest kluczowe dla analizy danych, automatyzacji i raportowania. Pliki PDF często zawierają uporządkowane dane w formie tabelarycznej, które mogą być trudne do wyodrębnienia przy użyciu standardowych metod ekstrakcji tekstu. Na szczęście Aspose.PDF for Python oferuje potężny sposób na ekstrakcję tabel z wysoką dokładnością, zachowując ich strukturę i zawartość.

Klasa TableAbsorber jest specjalnie zaprojektowana do wykrywania i wydobywania tabel z stron PDF. Przetwarza każdą stronę, identyfikuje tabele i odzyskuje poszczególne wiersze i komórki, zachowując ich strukturę. Poniżej znajdują się kroki do wydobywania tabel z dokumentu PDF za pomocą Aspose.PDF for Python.

Kroki do parsowania tabel z pliku PDF w Python

Załaduj plik PDF zawierający tabele za pomocą klasy Document.
Przejdź przez kolekcję pages dokumentu, aby przetworzyć każdą stronę indywidualnie.
Utwórz instancję klasy TableAbsorber, aby wykrywać i wyodrębniać tabele.
Wywołaj metodę visit(), aby zidentyfikować tabele na bieżącej stronie.
Iterate through the list of extracted tables and retrieve rows and cells.
Uzyskaj textfragments każdej komórki i wyodrębnij tekst za pomocą właściwości segments.
Zapisz wyodrębnione dane tabeli do dalszej analizy lub wyświetl je w konsoli.

# Ten przykład kodu pokazuje, jak wydobywać tabele z dokumentu PDF w Python.
import aspose.pdf as ap

# Załaduj plik PDF
document = pdf.Document("sample.pdf")

# Przetwórz wszystkie strony
for page in document.pages:
    # Zainicjalizuj obiekt TableAbsorber
    absorber = ap.text.TableAbsorber()
    # Zidentyfikuj tabele na bieżącej stronie
    absorber.visit(page)
    # Przejdź przez wyodrębnione tabele
   for table in absorber.table_list:
        # Iterate through all the rows in the table
       for row in table.row_list:
            # Iteruj przez wszystkie kolumny w wierszu
           for cell in row.cell_list:
                # Fetch the text fragments
                text_fragment_collection = cell.text_fragments
                # Iterate through the text fragments
               for fragment in text_fragment_collection:
                    # Print the text
                    print(fragment.text)

Postępując zgodnie z tymi krokami, możesz efektywnie wyodrębniać tabele z plików PDF, co ułatwia przetwarzanie i analizowanie uporządkowanych danych.

Analizuj metadane PDF: Uzyskaj informacje o pliku PDF w Python

Kiedy pracujesz z plikami PDF, często konieczne jest uzyskanie metadanych, takich jak autor, data utworzenia, słowa kluczowe i tytuł. Aspose.PDF for Python ułatwia to, udostępniając dostęp do obiektu DocumentInfo za pośrednictwem właściwości Info klasy Document. Dzięki temu możesz programowo wyodrębnić istotne właściwości dokumentu.

Kroki do analizy metadanych PDF

Użyj klasy Document, aby otworzyć żądany plik PDF.
Pobierz obiekt DocumentInfo za pomocą właściwości info.
Uzyskaj szczegółowe informacje, takie jak autor, data utworzenia, tytuł, temat i słowa kluczowe.
Drukuj metadane lub zapisz je do dalszego przetwarzania.

Poniższy skrypt Python pokazuje, jak uzyskać i wyświetlić kluczowe szczegóły z pliku PDF w Python:

# Ten przykład kodu pokazuje, jak wyodrębnić informacje o pliku w Python.
import aspose.pdf as ap

# Załaduj dokument PDF
document = ap.Document("Sample.pdf")

# Pobierz informacje o dokumencie
doc_info = document.info

# Wyświetl metadane dokumentu
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")

Analiza obrazów z pliku PDF za pomocą Python

Możemy zanalizować dokument PDF i efektywnie odzyskać obrazy osadzone w dokumencie. Możemy wydobyć obrazy wysokiej jakości z konkretnych stron i zapisać je osobno do dalszego użytku.

Każda strona PDF przechowuje swoje obrazy w zbiorze zasobów, a konkretnie w kolekcji XImage. Aby wyodrębnić obraz, uzyskaj dostęp do pożądanej strony, pobierz obraz z kolekcji Images za pomocą jego indeksu i zapisz go.

Kroki do wyodrębniania obrazów z pliku PDF w Python

Załaduj plik PDF zawierający obraz przy użyciu klasy Document.
Zretrievuj konkretną stronę, z której chcesz wyodrębnić obraz.
Uzyskaj dostęp do kolekcji Images zasobów strony i określ indeks obrazu.
Zapisz wyodrębniony obraz za pomocą strumienia.

Przykład poniższego kodu pokazuje, jak parsować obrazy z pliku PDF w Python.

# Ten przykład kodu pokazuje, jak wydobywać obrazy z pliku PDF w Python
import aspose.pdf as ap

# Open document
document = ap.Document("Sample.pdf")

# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]

# Zdefiniuj ścieżkę wyjściowego obrazu
output_image_path = "OutputImage.jpg"

# Zapisz wyodrębniony obraz
with open(output_image_path, "wb") as output_image:
    output_image.write(x_image.to_stream().read())

Ta metoda zapewnia łatwy i wydajny sposób ekstrakcji obrazów z plików PDF, jednocześnie zachowując ich jakość. Dzięki Aspose.PDF for Python możesz zautomatyzować ekstrakcję obrazów w różnych zastosowaniach, takich jak przetwarzanie dokumentów , archiwizacja danych i analiza treści.

Jak analizować adnotacje PDF w Python

Adnotacje w PDF-ach zwiększają interakcję z dokumentem poprzez dodawanie podkreśleń, rysunków i notatek. Każdy typ adnotacji służy określonemu celowi, a Aspose.PDF for Python ułatwia ich wydobywanie do analizy lub przetwarzania.

Parsowanie adnotacji tekstowych z pliku PDF w Python
Analizuj wyróżniony tekst z pliku PDF w Python
Analiza adnotacji figur PDF w Python
Jak analizować adnotacje linków PDF w Python

Analizowanie adnotacji tekstowych z PDF w Python

Dokumenty PDF często zawierają adnotacje tekstowe, które służą jako komentarze lub notatki przypisane do określonych miejsc na stronie. Po zminimializowaniu, te adnotacje pojawiają się jako ikony, a po rozwinięciu wyświetlają tekst w oknie pop-up. Każda strona w pliku PDF ma swoją własną kolekcję Adnotacji, która przechowuje wszystkie adnotacje specyficzne dla tej strony. Wykorzystując Aspose.PDF for Python, możesz efektywnie wyodrębnić adnotacje tekstowe z pliku PDF.

Kroki do analizy adnotacji tekstowych z pliku PDF

Załaduj dokument PDF za pomocą klasy Document.
Pobierz właściwość annotations konkretnej strony, aby uzyskać wszystkie adnotacje na tej stronie.
Iteruj przez adnotacje i filtruj te z AnnotationType.TEXT.
Uzyskaj odpowiednie informacje, takie jak pozycja adnotacji (rect), do dalszego przetwarzania lub wyświetlania.

import aspose.pdf as ap

# Załaduj dokument PDF
document = ap.Document("annotations.pdf")

# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
        # Drukuj szczegóły adnotacji
        print(f"Title: {annotation.full_name}")
        print(f"Contents: {annotation.contents}")
        print(f"Annotation Rectangle: {annotation.rect}")

Postępując zgodnie z tymi krokami, możesz efektywnie wyodrębnić i przetworzyć adnotacje tekstowe z dokumentów PDF w Python.

Explore more about praca z adnotacjami tekstowymi PDF w Python by visiting the official guide.

Analizuj wyróżniony tekst z pliku PDF w Python

W wielu przypadkach może być konieczne wydobycie tylko wyróżnionego tekstu z pliku PDF, a nie całej treści. Niezależnie od tego, czy analizujesz ważne notatki, podsumowujesz kluczowe punkty, czy automatyzujesz przetwarzanie dokumentów, Aspose.PDF for Python ułatwia efektywne odzyskiwanie wyróżnionego tekstu.

Wyróżnienie adnotacji zaznacza ważne fragmenty tekstu, powszechnie używane do recenzji lub notatek do nauki. Możesz wyodrębnić zaznaczony tekst oraz jego właściwości, takie jak kolor i pozycja, używając klasy HighlightAnnotation.

Możemy analizować wyróżnione adnotacje tekstowe w dokumencie PDF, postępując zgodnie z wcześniej wspomnianymi krokami. Musimy jednak tylko wspomnieć AnnotationType.HIGHLIGHT w kroku 3.

Poniższy przykład demonstruje, jak filtrować i wyodrębniać wyróżniony tekst z pliku PDF.

import aspose.pdf as ap

# Załaduj dokument PDF
document = ap.Document("annotations.pdf")

# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
        # Drukuj szczegóły adnotacji
        print(f"Title: {annotation.full_name}")
        print(f"Annotation Rectangle: {annotation.rect}")

Dowiedz się więcej o working with PDF Highlights Annotation in Python odwiedzając oficjalny przewodnik.

Analiza anotacji rysunków PDF w Python

Opisy na rysunkach obejmują elementy graficzne, takie jak kształty, rysunki lub stemple używane do podkreślenia lub wyjaśnienia. Wydobywanie tych adnotacji polega na identyfikacji obiektów InkAnnotation lub StampAnnotation oraz na uzyskaniu ich ścieżek rysunkowych lub obrazów.

Aby analizować adnotacje linii w dokumencie PDF, wykonaj wcześniej opisane kroki. Jedyną modyfikacją jest określenie AnnotationType.LINE w kroku 3.

Następny przykład pokazuje, jak analizować adnotacje linii w pliku PDF za pomocą Python.

import aspose.pdf as ap

# Załaduj dokument PDF
document = ap.Document("annotations.pdf")

# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
        # Print annotation details
        print(f"Annotation Rectangle: {annotation.rect}")

Read more about working with PDF Figures Annotations in Python here.

Jak analizować adnotacje linków PDF w Python

Linki do adnotacji w plikach PDF pozwalają użytkownikom na bezproblemowe poruszanie się po dokumencie, otwieranie plików zewnętrznych lub odwiedzanie stron internetowych bezpośrednio z pliku PDF. Te hiperloki zwiększają interaktywność i poprawiają doświadczenia użytkownika, umożliwiając szybki dostęp do dodatkowych informacji.

Aby wyodrębnić adnotacje linków z pliku PDF, wykonaj te same kroki co wcześniej, ale w kroku 3, upewnij się, że określasz AnnotationType.LINK. To zapewnia, że tylko adnotacje linków zostaną pobrane.

Następujący przykład kodu pokazuje, jak analizować adnotacje linków w pliku PDF za pomocą Python.

import aspose.pdf as ap

# Załaduj dokument PDF
document = ap.Document("annotations.pdf")

# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
        # Drukuj szczegóły adnotacji
        print(f"Annotation Rectangle: {annotation.rect}")

Dzięki wykorzystaniu Aspose.PDF for Python, możesz efektywnie wyodrębniać i manipulować adnotacjami linków dla różnych przypadków użycia, takich jak indeksowanie dokumentów lub poprawa nawigacji.

Read the complete details on handling Link Annotations in PDFs here.

Wnioski

Aspose.PDF for Python to najlepsza biblioteka do parsowania PDF w Python dla deweloperów, którzy potrzebują niezawodnego, wydajnego i bogatego w funkcje rozwiązania do parsowania plików PDF. Niezależnie od tego, czy potrzebujesz analizować tekst, tabele, obrazy, metadane czy adnotacje, Aspose.PDF zapewnia niezbędne narzędzia.

Wypróbuj podane próbki kodu i rozpocznij analizowanie plików PDF oraz uproszczenie swoich zadań związanych z analizą PDF w Python!

W przypadku jakichkolwiek pytań lub potrzeby dalszej pomocy, prosimy o kontakt na naszym free support forum.

Aspose.PDF: Najlepsza biblioteka parsera PDF w Python#

Instalacja i konfiguracja#

Ekstrakcja tekstu: Parsowanie PDF w Python#

Parsuj tekst ze wszystkich stron PDF w Python#

Kroki do wyodrębnienia tekstu ze wszystkich stron pliku PDF w Python#

Przeanalizuj tekst z konkretnej strony w pliku PDF#

Analizuj tekst z określonego obszaru w pliku PDF#

Kroki do wyodrębnienia tekstu z konkretnego obszaru strony#

Ekstrakcja tekstu z wielokolumnowych plików PDF#

Kroki, aby wyodrębnić tekst z pliku PDF wielokolumnowego w Python#

Zaawansowane parsowanie tekstu z ScaleFactor#

Kroki do wyodrębnienia tekstu z konkretnej strony z współczynnikiem skali#

Analiza tekstu w PDF: Alternatywne podejście#

Jak analizować tabele z pliku PDF w Python#

Kroki do parsowania tabel z pliku PDF w Python#

Analizuj metadane PDF: Uzyskaj informacje o pliku PDF w Python#

Kroki do analizy metadanych PDF#

Analiza obrazów z pliku PDF za pomocą Python#

Kroki do wyodrębniania obrazów z pliku PDF w Python#

Jak analizować adnotacje PDF w Python#

Analizowanie adnotacji tekstowych z PDF w Python#

Kroki do analizy adnotacji tekstowych z pliku PDF#

Analizuj wyróżniony tekst z pliku PDF w Python#

Analiza anotacji rysunków PDF w Python#

Jak analizować adnotacje linków PDF w Python#

Wnioski#

Zobacz także#