
Parsowanie PDF oznacza wydobywanie danych strukturalnych lub niestrukturalnych z pliku PDF. Może to być trudne z powodu złożonej struktury PDF-ów. W przeciwieństwie do zwykłego tekstu lub uporządkowanych formatów takich jak JSON i XML, PDF-y przechowują zawartość w sposób, który nie zawsze podąża za liniowym porządkiem. Wydobywanie tekstu, tabel, obrazów i metadanych wymaga niezawodnej, dokładnej i efektywnej biblioteki do parsowania PDF w Python. W tym artykule dowiemy się, jak parsować PDF w Python, używając Aspose.PDF for Python. Na końcu tego przewodnika będ
Ten artykuł porusza następujące tematy:
- Aspose.PDF: Najlepsza biblioteka do analizy PDF w Python
- Analizuj PDF i wyodrębnij tekst w Python
- Jak analizować tabele z pliku PDF w Python
- Analiza metadanych PDF: Uzyskaj informacje o pliku PDF w Python
- Parsowanie obrazów z pliku PDF w Python
- Jak analizować adnotacje PDF w Python
Aspose.PDF: Najlepsza biblioteka parsera PDF w Python
Aspose.PDF for Python jest jedną z najlepszych bibliotek do analizy PDF w Python dostępnych dzisiaj. Oferuje wysoką dokładność, obsługuje ekstrakcję danych z zachowaniem struktury, a nawet działa z zeskanowanymi PDF-ami dzięki wsparciu OCR.
Aspose.PDF wyróżnia się wśród bibliotek parserów PDF w Python z kilku powodów:
- Wysoka dokładność: Wydobywa tekst i tabele z precyzją.
- Wsparcie dla danych strukturalnych: Działa z tabelami, obrazami i metadanymi.
- Brak Zewnętrznych Zależności: Lekka, samodzielna biblioteka.
- Wielokrotne formaty wyjściowe: Konwertuj pliki PDF na tekst, XLSX, DOCX, HTML i formaty obrazów.
- Bezpieczeństwo i niezawodność: Obsługuje złożone struktury PDF bez uszkadzania danych.
W porównaniu do alternatyw open-source, Aspose.PDF oferuje bardziej solidne i bogate w funkcje rozwiązanie, co czyni je idealnym do aplikacji przedsiębiorstw i systemów automatyzacji dokumentów.
Instalacja i konfiguracja
Instalacja Aspose.PDF for Python jest prosta. Pobierz go z releases lub uruchom następujące pip polecenie:
pip install aspose-pdf
Aby zacząć używać Aspose.PDF w swojej aplikacji Python, zaimportuj potrzebny moduł:
import aspose.pdf as ap
Ekstrakcja tekstu: Parsowanie PDF w Python
Parsowanie tekstu z pliku PDF jest jedną z kluczowych funkcji bibliotek do parsowania PDF w Python. Możemy wyodrębnić tekst ze wszystkich stron dokumentu PDF lub z konkretnej strony lub regionu dokumentu PDF. W nadchodzących sekcjach nauczymy się, jak:
- Parsowanie tekstu ze wszystkich stron PDF w Python
- Analizuj tekst z określonej strony w pliku PDF
- Parse Text from a Specific Region in a PDF
- Ekstrakcja tekstu z wielokolumnowych plików PDF
- Wzmocnione przetwarzanie tekstu z ScaleFactor
- Analiza tekstu w PDF: Alternatywne podejście
Parsuj tekst ze wszystkich stron PDF w Python
Aspose.PDF for Python zapewnia efektywny sposób na wyodrębnienie tekstu z dokumentów PDF za pomocą klas Document
i TextAbsorber
. Klasa Document
jest używana do wczytywania pliku PDF, podczas gdy klasa TextAbsorber
jest odpowiedzialna za wyodrębnianie treści tekstowej ze wszystkich stron. Metoda accept()
przetwarza każdą stronę i wyodrębnia tekst, który można następnie przechowywać lub wyświetlać według potrzeb.
Kroki do wyodrębnienia tekstu ze wszystkich stron pliku PDF w Python
- Załaduj dokument PDF za pomocą klasy
Document
. - Utwórz instancję klasy
TextAbsorber
, aby obsłużyć ekstrakcję tekstu. - Call the
accept()
method on thepages
collection, allowingTextAbsorber
to process all pages. - Pobierz wyodrębniony tekst za pomocą właściwości
text
instancjiTextAbsorber
. - Print the extracted text.
Poniższy przykład kodu pokazuje, jak analizować tekst ze wszystkich stron pliku PDF w Python.
# Ten przykład kodu pokazuje, jak wyodrębnić tekst ze wszystkich stron dokumentu PDF w Python.
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Zadzwoń do metody accept, aby przetworzyć wszystkie strony
document.pages.accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Zdefiniuj ścieżkę pliku
file_path = "extracted-text.txt"
# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Przeanalizuj tekst z konkretnej strony w pliku PDF
Możemy również wyodrębnić tekst z konkretnej strony dokumentu PDF, lekko modyfikując wcześniejsze podejście. Zamiast przetwarzać cały dokument, wystarczy wywołać metodę accept()
na żądanej stronie obiektu Document
. Po prostu określ numer strony, używając jej indeksu, a Aspose.PDF wyodrębni tekst tylko z tej strony. Ta metoda jest przydatna w przypadku dużych plików PDF, gdy potrzebujesz tylko danych z określonej sekcji, poprawiając efektywność i wydajność.
Poniższy przykład kodu pokazuje, jak analizować tekst z określonej strony PDF w Python.
# Ten przykład kodu pokazuje, jak wyodrębnić tekst z konkretnej strony dokumentu PDF w Python.
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Zadzwoń do metody accept, aby przetworzyć wszystkie strony.
document.pages[1].accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Zdefiniuj ścieżkę do pliku
file_path = "extracted-text.txt"
# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Analizuj tekst z określonego obszaru w pliku PDF
Czasami możemy potrzebować wyodrębnić tekst z określonej sekcji strony PDF, a nie pobierać treści z całego dokumentu. Aby skierować się do konkretnego obszaru, użyj właściwości Rectangle
z TextSearchOptions
. Ta właściwość akceptuje obiekt Rectangle
, który definiuje współrzędne pożądanego regionu. Określając ten zasięg, możemy wyodrębnić tekst tylko z wybranego obszaru, ignorując resztę treści strony.
Kroki do wyodrębnienia tekstu z konkretnego obszaru strony
- Załaduj dokument PDF za pomocą klasy
Document
. - Utwórz instancję klasy
TextAbsorber
, aby przechwycić tekst z dokumentu. - Zdefiniuj obszar docelowy za pomocą
TextSearchOptions.Rectangle
, który określa obszar do wyodrębnienia tekstu. - Zastosuj ekstrakcję tekstu na konkretnej stronie, wywołując metodę
accept()
na wybranej stronie. - Pobierz wyodrębniony tekst z właściwości
Text
obiektuTextAbsorber
. - Process the output as needed.
Następujący przykład kodu pokazuje, jak analizować tekst z określonego obszaru strony PDF w Python.
# Ten przykład kodu pokazuje, jak wyodrębnić tekst z konkretnego obszaru strony w dokumencie PDF przy użyciu Python.
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("sample.pdf")
# Utwórz obiekt TextAbsorber, aby wyodrębnić tekst.
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)
# Accept the absorber for the first page
document.pages[1].accept(absorber)
# Get the extracted text
extracted_text = absorber.text
# Zdefiniuj ścieżkę pliku
file_path = "extracted-text.txt"
# Otwórz plik w trybie zapisu i zapisz wyodrębniony tekst
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
To podejście pozwala na precyzyjne wydobywanie tekstu z komórek tabel, pól formularzy lub dowolnie zdefiniowanej sekcji strony, co czyni je idealnym do automatyzacji dokumentów i analizy danych.
Ekstrakcja tekstu z wielokolumnowych plików PDF
Dokumenty PDF często zawierają mieszankę elementów takich jak tekst, obrazy, adnotacje, załączniki i wykresy. Podczas pracy z plikami PDF o wielu kolumnach, wydobywanie tekstu przy zachowaniu oryginalnego układu może być wyzwaniem.
Aspose.PDF for Python upraszcza ten proces, pozwalając programistom na manipulację właściwościami tekstu przed ekstrakcją. Poprzez dostosowanie rozmiarów czcionek i następnie ekstrakcję tekstu, możesz uzyskać czystszy i bardziej uporządkowany wynik. Następujące kroki demonstrują, jak zastosować tę metodę do dokładnej ekstrakcji tekstu z wielokolumnowych plików PDF.
Kroki, aby wyodrębnić tekst z pliku PDF wielokolumnowego w Python
- Załaduj dokument PDF za pomocą klasy
Document
. - Utwórz instancję
TextFragmentAbsorber
, aby zlokalizować i wyodrębnić poszczególne fragmenty tekstu z dokumentu. - Odzyskaj wszystkie wykryte fragmenty tekstu i zmniejsz ich rozmiar czcionki o 70%, aby zwiększyć dokładność ekstrakcji.
- Przechowaj zmodyfikowany dokument w strumieniu pamięci, aby uniknąć zapisywania pliku pośredniego.
- Załaduj PDF z strumienia pamięci, aby przetworzyć dostosowany tekst.
- Użyj
TextAbsorber
, aby odzyskać ustrukturyzowany tekst z zmodyfikowanego dokumentu. - Zapisz wyodrębniony tekst do pliku
.txt
, aby go dalej wykorzystać.
Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z wielokolumowego PDF, zachowując układ.
# Ten przykład kodu pokazuje, jak wydobyć tekst z PDF-a wielokolumnowego w Python.
import io
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("multi-column-sample.pdf")
# Utwórz obiekt TextFragmentAbsorber, aby wyodrębnić tekst.
text_fragment_absorber = ap.text.TextFragmentAbsorber()
# Accept the absorber for the first page
document.pages.accept(text_fragment_absorber)
# Uzyskaj zbiór wyodrębnionych fragmentów tekstu
text_fragment_collection = text_fragment_absorber.text_fragments
# Zredukować rozmiar czcionki o co najmniej 70%, aby poprawić ekstrakcję tekstu
for text_fragment in text_fragment_collection:
text_fragment.text_state.font_size *= 0.7
# Zapisz zmodyfikowany dokument do strumienia w pamięci
source_stream = io.BytesIO()
document.save(source_stream)
# Przeładuj dokument z strumienia pamięciowego
source_stream.seek(0)
dest_document = ap.Document(source_stream)
# Zainicjalizuj TextAbsorber, aby wyodrębnić zaktualizowany tekst
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text
# Zapisz wyekstrahowany tekst do pliku
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Ta metoda zapewnia, że tekst wyodrębniony z wielokolumnowych plików PDF zachowuje swój oryginalny układ tak dokładnie, jak to możliwe.
Zaawansowane parsowanie tekstu z ScaleFactor
Aspose.PDF for Python pozwala na analizowanie plików PDF i wydobywanie tekstu z konkretnej strony z zaawansowanymi opcjami ekstrakcji tekstu, takimi jak tryb formatowania tekstu i współczynnik skali. Opcje te pomagają w dokładnym wydobywaniu tekstu z złożonych plików PDF, w tym dokumentów wielokolumnowych.
Korzystając z opcji ScaleFactor, możemy dostosować wewnętrzną siatkę tekstu w celu poprawy precyzji. Współczynnik skali między 1 a 0.1 działa jak redukcja czcionki, pomagając w poprawnym wyrównaniu wyodrębnionego tekstu. Wartości między 0.1 a -0.1 są traktowane jak zero, co umożliwia automatyczne skalowanie na podstawie średniej szerokości glifu najczęściej używanej czcionki na stronie. Jeśli nie ustawiono ScaleFactor, zastosowana jest domyślna wartość 1.0, co zapewnia brak dostosowań skalowania. W przypadku dużych zadań wyodrębniania tekstu zaleca się auto-skalowanie (ScaleFactor = 0
), ale ręczne ustawienie ScaleFactor = 0.5 może popraw
Kroki do wyodrębnienia tekstu z konkretnej strony z współczynnikiem skali
- Załaduj dokument PDF za pomocą klasy
Document
. - Utwórz instancję
TextAbsorber
, aby wyodrębnić tekst. - Ustaw
TextExtractionOptions
w trybie PURE dla dokładnego wyodrębnienia. - Dostosuj
scalefactor
, aby zoptymalizować rozpoznawanie tekstu w wielokolumnowych plikach PDF. - Zadzwoń
accept()
na kolekcjipages
, aby wyodrębnić tekst. - Zapisz wyodrębnioną treść w pliku tekstowym.
# Ten przykład kodu pokazuje, jak wyodrębnić tekst z określonego obszaru strony w dokumencie PDF za pomocą Python.
import aspose.pdf as ap
# Otwórz dokument PDF
document = ap.Document("sample.pdf")
# Zainicjuj TextAbsorber z opcjami ekstrakcji tekstu
text_absorber = ap.text.TextAbsorber()
# Ustaw opcje wydobywania
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5 # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options
# Wyodrębnij tekst z określonej strony
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Zapisz wyodrębniony tekst do pliku
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Analiza tekstu w PDF: Alternatywne podejście
Aspose.PDF for Python oferuje również alternatywne podejście do ekstrakcji tekstu za pomocą klasy TextDevice
. Przeczytaj więcej o extracting text from PDF using the TextDevice.
Jak analizować tabele z pliku PDF w Python
Parsowanie tabel z plików PDF jest kluczowe dla analizy danych, automatyzacji i raportowania. Pliki PDF często zawierają uporządkowane dane w formie tabelarycznej, które mogą być trudne do wyodrębnienia przy użyciu standardowych metod ekstrakcji tekstu. Na szczęście Aspose.PDF for Python oferuje potężny sposób na ekstrakcję tabel z wysoką dokładnością, zachowując ich strukturę i zawartość.
Klasa TableAbsorber
jest specjalnie zaprojektowana do wykrywania i wydobywania tabel z stron PDF. Przetwarza każdą stronę, identyfikuje tabele i odzyskuje poszczególne wiersze i komórki, zachowując ich strukturę. Poniżej znajdują się kroki do wydobywania tabel z dokumentu PDF za pomocą Aspose.PDF for Python.
Kroki do parsowania tabel z pliku PDF w Python
- Załaduj plik PDF zawierający tabele za pomocą klasy
Document
. - Przejdź przez kolekcję
pages
dokumentu, aby przetworzyć każdą stronę indywidualnie. - Utwórz instancję klasy
TableAbsorber
, aby wykrywać i wyodrębniać tabele. - Wywołaj metodę
visit()
, aby zidentyfikować tabele na bieżącej stronie. - Iterate through the list of extracted tables and retrieve rows and cells.
- Uzyskaj
textfragments
każdej komórki i wyodrębnij tekst za pomocą właściwościsegments
. - Zapisz wyodrębnione dane tabeli do dalszej analizy lub wyświetl je w konsoli.
# Ten przykład kodu pokazuje, jak wydobywać tabele z dokumentu PDF w Python.
import aspose.pdf as ap
# Załaduj plik PDF
document = pdf.Document("sample.pdf")
# Przetwórz wszystkie strony
for page in document.pages:
# Zainicjalizuj obiekt TableAbsorber
absorber = ap.text.TableAbsorber()
# Zidentyfikuj tabele na bieżącej stronie
absorber.visit(page)
# Przejdź przez wyodrębnione tabele
for table in absorber.table_list:
# Iterate through all the rows in the table
for row in table.row_list:
# Iteruj przez wszystkie kolumny w wierszu
for cell in row.cell_list:
# Fetch the text fragments
text_fragment_collection = cell.text_fragments
# Iterate through the text fragments
for fragment in text_fragment_collection:
# Print the text
print(fragment.text)
Postępując zgodnie z tymi krokami, możesz efektywnie wyodrębniać tabele z plików PDF, co ułatwia przetwarzanie i analizowanie uporządkowanych danych.
Analizuj metadane PDF: Uzyskaj informacje o pliku PDF w Python
Kiedy pracujesz z plikami PDF, często konieczne jest uzyskanie metadanych, takich jak autor, data utworzenia, słowa kluczowe i tytuł. Aspose.PDF for Python ułatwia to, udostępniając dostęp do obiektu DocumentInfo za pośrednictwem właściwości Info
klasy Document
. Dzięki temu możesz programowo wyodrębnić istotne właściwości dokumentu.
Kroki do analizy metadanych PDF
- Użyj klasy
Document
, aby otworzyć żądany plik PDF. - Pobierz obiekt DocumentInfo za pomocą właściwości
info
. - Uzyskaj szczegółowe informacje, takie jak autor, data utworzenia, tytuł, temat i słowa kluczowe.
- Drukuj metadane lub zapisz je do dalszego przetwarzania.
Poniższy skrypt Python pokazuje, jak uzyskać i wyświetlić kluczowe szczegóły z pliku PDF w Python:
# Ten przykład kodu pokazuje, jak wyodrębnić informacje o pliku w Python.
import aspose.pdf as ap
# Załaduj dokument PDF
document = ap.Document("Sample.pdf")
# Pobierz informacje o dokumencie
doc_info = document.info
# Wyświetl metadane dokumentu
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")
Analiza obrazów z pliku PDF za pomocą Python
Możemy zanalizować dokument PDF i efektywnie odzyskać obrazy osadzone w dokumencie. Możemy wydobyć obrazy wysokiej jakości z konkretnych stron i zapisać je osobno do dalszego użytku.
Każda strona PDF przechowuje swoje obrazy w zbiorze zasobów, a konkretnie w kolekcji XImage
. Aby wyodrębnić obraz, uzyskaj dostęp do pożądanej strony, pobierz obraz z kolekcji Images
za pomocą jego indeksu i zapisz go.
Kroki do wyodrębniania obrazów z pliku PDF w Python
- Załaduj plik PDF zawierający obraz przy użyciu klasy
Document
. - Zretrievuj konkretną stronę, z której chcesz wyodrębnić obraz.
- Uzyskaj dostęp do kolekcji
Images
zasobów strony i określ indeks obrazu. - Zapisz wyodrębniony obraz za pomocą strumienia.
Przykład poniższego kodu pokazuje, jak parsować obrazy z pliku PDF w Python.
# Ten przykład kodu pokazuje, jak wydobywać obrazy z pliku PDF w Python
import aspose.pdf as ap
# Open document
document = ap.Document("Sample.pdf")
# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]
# Zdefiniuj ścieżkę wyjściowego obrazu
output_image_path = "OutputImage.jpg"
# Zapisz wyodrębniony obraz
with open(output_image_path, "wb") as output_image:
output_image.write(x_image.to_stream().read())
Ta metoda zapewnia łatwy i wydajny sposób ekstrakcji obrazów z plików PDF, jednocześnie zachowując ich jakość. Dzięki Aspose.PDF for Python możesz zautomatyzować ekstrakcję obrazów w różnych zastosowaniach, takich jak przetwarzanie dokumentów , archiwizacja danych i analiza treści.
Jak analizować adnotacje PDF w Python
Adnotacje w PDF-ach zwiększają interakcję z dokumentem poprzez dodawanie podkreśleń, rysunków i notatek. Każdy typ adnotacji służy określonemu celowi, a Aspose.PDF for Python ułatwia ich wydobywanie do analizy lub przetwarzania.
- Parsowanie adnotacji tekstowych z pliku PDF w Python
- Analizuj wyróżniony tekst z pliku PDF w Python
- Analiza adnotacji figur PDF w Python
- Jak analizować adnotacje linków PDF w Python
Analizowanie adnotacji tekstowych z PDF w Python
Dokumenty PDF często zawierają adnotacje tekstowe, które służą jako komentarze lub notatki przypisane do określonych miejsc na stronie. Po zminimializowaniu, te adnotacje pojawiają się jako ikony, a po rozwinięciu wyświetlają tekst w oknie pop-up. Każda strona w pliku PDF ma swoją własną kolekcję Adnotacji, która przechowuje wszystkie adnotacje specyficzne dla tej strony. Wykorzystując Aspose.PDF for Python, możesz efektywnie wyodrębnić adnotacje tekstowe z pliku PDF.
Kroki do analizy adnotacji tekstowych z pliku PDF
- Załaduj dokument PDF za pomocą klasy
Document
. - Pobierz właściwość
annotations
konkretnej strony, aby uzyskać wszystkie adnotacje na tej stronie. - Iteruj przez adnotacje i filtruj te z
AnnotationType.TEXT
. - Uzyskaj odpowiednie informacje, takie jak pozycja adnotacji (
rect
), do dalszego przetwarzania lub wyświetlania.
import aspose.pdf as ap
# Załaduj dokument PDF
document = ap.Document("annotations.pdf")
# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
# Drukuj szczegóły adnotacji
print(f"Title: {annotation.full_name}")
print(f"Contents: {annotation.contents}")
print(f"Annotation Rectangle: {annotation.rect}")
Postępując zgodnie z tymi krokami, możesz efektywnie wyodrębnić i przetworzyć adnotacje tekstowe z dokumentów PDF w Python.
Explore more about praca z adnotacjami tekstowymi PDF w Python by visiting the official guide.
Analizuj wyróżniony tekst z pliku PDF w Python
W wielu przypadkach może być konieczne wydobycie tylko wyróżnionego tekstu z pliku PDF, a nie całej treści. Niezależnie od tego, czy analizujesz ważne notatki, podsumowujesz kluczowe punkty, czy automatyzujesz przetwarzanie dokumentów, Aspose.PDF for Python ułatwia efektywne odzyskiwanie wyróżnionego tekstu.
Wyróżnienie adnotacji zaznacza ważne fragmenty tekstu, powszechnie używane do recenzji lub notatek do nauki. Możesz wyodrębnić zaznaczony tekst oraz jego właściwości, takie jak kolor i pozycja, używając klasy HighlightAnnotation
.
Możemy analizować wyróżnione adnotacje tekstowe w dokumencie PDF, postępując zgodnie z wcześniej wspomnianymi krokami. Musimy jednak tylko wspomnieć AnnotationType.HIGHLIGHT
w kroku 3.
Poniższy przykład demonstruje, jak filtrować i wyodrębniać wyróżniony tekst z pliku PDF.
import aspose.pdf as ap
# Załaduj dokument PDF
document = ap.Document("annotations.pdf")
# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
# Drukuj szczegóły adnotacji
print(f"Title: {annotation.full_name}")
print(f"Annotation Rectangle: {annotation.rect}")
Dowiedz się więcej o working with PDF Highlights Annotation in Python odwiedzając oficjalny przewodnik.
Analiza anotacji rysunków PDF w Python
Opisy na rysunkach obejmują elementy graficzne, takie jak kształty, rysunki lub stemple używane do podkreślenia lub wyjaśnienia. Wydobywanie tych adnotacji polega na identyfikacji obiektów InkAnnotation
lub StampAnnotation
oraz na uzyskaniu ich ścieżek rysunkowych lub obrazów.
Aby analizować adnotacje linii w dokumencie PDF, wykonaj wcześniej opisane kroki. Jedyną modyfikacją jest określenie AnnotationType.LINE
w kroku 3.
Następny przykład pokazuje, jak analizować adnotacje linii w pliku PDF za pomocą Python.
import aspose.pdf as ap
# Załaduj dokument PDF
document = ap.Document("annotations.pdf")
# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
# Print annotation details
print(f"Annotation Rectangle: {annotation.rect}")
Read more about working with PDF Figures Annotations in Python here.
Jak analizować adnotacje linków PDF w Python
Linki do adnotacji w plikach PDF pozwalają użytkownikom na bezproblemowe poruszanie się po dokumencie, otwieranie plików zewnętrznych lub odwiedzanie stron internetowych bezpośrednio z pliku PDF. Te hiperloki zwiększają interaktywność i poprawiają doświadczenia użytkownika, umożliwiając szybki dostęp do dodatkowych informacji.
Aby wyodrębnić adnotacje linków z pliku PDF, wykonaj te same kroki co wcześniej, ale w kroku 3, upewnij się, że określasz AnnotationType.LINK
. To zapewnia, że tylko adnotacje linków zostaną pobrane.
Następujący przykład kodu pokazuje, jak analizować adnotacje linków w pliku PDF za pomocą Python.
import aspose.pdf as ap
# Załaduj dokument PDF
document = ap.Document("annotations.pdf")
# Przejdź przez wszystkie adnotacje na pierwszej stronie
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
# Drukuj szczegóły adnotacji
print(f"Annotation Rectangle: {annotation.rect}")
Dzięki wykorzystaniu Aspose.PDF for Python, możesz efektywnie wyodrębniać i manipulować adnotacjami linków dla różnych przypadków użycia, takich jak indeksowanie dokumentów lub poprawa nawigacji.
Read the complete details on handling Link Annotations in PDFs here.
Wnioski
Aspose.PDF for Python to najlepsza biblioteka do parsowania PDF w Python dla deweloperów, którzy potrzebują niezawodnego, wydajnego i bogatego w funkcje rozwiązania do parsowania plików PDF. Niezależnie od tego, czy potrzebujesz analizować tekst, tabele, obrazy, metadane czy adnotacje, Aspose.PDF zapewnia niezbędne narzędzia.
Wypróbuj podane próbki kodu i rozpocznij analizowanie plików PDF oraz uproszczenie swoich zadań związanych z analizą PDF w Python!
W przypadku jakichkolwiek pytań lub potrzeby dalszej pomocy, prosimy o kontakt na naszym free support forum.