
Parsing a PDF znamená extrakci strukturovaných nebo nestrukturovaných dat z PDF souboru. Může to být náročné kvůli složité struktuře PDF. Na rozdíl od prostého textu nebo strukturovaných formátů, jako je JSON a XML, ukládají PDF obsah způsobem, který ne vždy dodržuje lineární pořadí. Extrakce textu, tabulek, obrázků a metadat vyžaduje spolehlivou, přesnou a efektivní knihovnu pro parsování PDF v Pythonu. V tomto článku se naučíme, jak parsovat PDF v Pythonu pomocí Aspose.PDF for Python. Na konci této příručky budete schopni extrahovat text
Tento článek se zabývá následujícími tématy:
- Aspose.PDF: Nejlepší knihovna pro analýzu PDF v Pythonu
- Analyzovat PDF a extrahovat text v Pythonu
- Jak analyzovat tabulky z PDF v Pythonu
- Analyzovat metadata PDF: Získat informace o PDF souboru v Pythonu
- Parsing Images from a PDF in Python
- Jak analyzovat anotace PDF v Pythonu
Aspose.PDF: Nejlepší knihovna pro analýzu PDF v Pythonu
Aspose.PDF for Python je jedna z nejlepších knihoven pro analýzu PDF v Pythonu, které jsou dnes k dispozici. Nabízí vysokou přesnost, podporuje strukturované extrakce dat a dokonce funguje se skenovanými PDF prostřednictvím podpory OCR.
Aspose.PDF vyniká mezi knihovnami pro analýzu PDF v Pythonu z několika důvodů:
- Vysoká přesnost: Extrahuje texty a tabulky s precizností.
- Podpora pro strukturovaná data: Funkce s tabulkami, obrázky a metadaty.
- Žádné externí závislosti: Lehké, samostatné knihovna.
- Různé výstupní formáty: Převeďte PDF soubory na text, XLSX, DOCX, HTML a obrazové formáty.
- Bezpečnost a spolehlivost: Zpracovává složité struktury PDF bez poškození dat.
Ve srovnání s alternativami otevřeného kódu nabízí Aspose.PDF robustnější a funkčně bohatší řešení, což ho činí ideálním pro podnikové aplikace a systémy automatizace dokumentů.
Instalace a nastavení
Instalace Aspose.PDF for Python je jednoduchá. Stáhněte si to z releases nebo spusťte následující pip příkaz:
pip install aspose-pdf
Chcete-li začít používat Aspose.PDF ve vaší Python aplikaci, importujte potřebný modul:
import aspose.pdf as ap
Extrakce textu: Parsování PDF v Pythonu
Parsování textu z PDF je jednou z klíčových funkcí knihoven pro analýzu PDF v Pythonu. Můžeme extrahovat text ze všech stránek PDF dokumentu nebo z konkrétní stránky či oblasti PDF dokumentu. V následujících sekcích se naučíme, jak:
- Text Parsing from All Pages of a PDF in Python
- Načíst text z konkrétní stránky v PDF
- Načíst text z konkrétní oblasti v PDF
- Extrakce textu z vícesloupcových PDF dokumentů
- Vylepšené zpracování textu s ScaleFactor
- Analyzovat text v PDF: Alternativní přístup
Analyzovat text ze všech stránek PDF v Pythonu
Aspose.PDF for Python poskytuje efektivní způsob, jak extrahovat text z PDF dokumentů pomocí tříd Document
a TextAbsorber
. Třída Document
se používá k načtení PDF souboru, zatímco třída TextAbsorber
je zodpovědná za extrakci textového obsahu ze všech stránek. Metoda accept()
zpracovává každou stránku a extrahuje text, který může být poté uložen nebo zobrazen podle potřeby.
Kroky k extrakci textu ze všech stránek PDF v Pythonu
- Načtěte PDF dokument pomocí třídy
Document
. - Vytvořte instanci třídy
TextAbsorber
, která bude zpracovávat extrakci textu. - Zavolejte metodu
accept()
na kolekcipages
, což umožníTextAbsorber
zpracovat všechny stránky. - Získejte extrahovaný text pomocí vlastnosti
text
instanceTextAbsorber
. - Print the extracted text.
Následující příklad kódu ukazuje, jak analyzovat text ze všech stránek PDF v jazyce Python.
# Tento příklad kódu ukazuje, jak extrahovat text ze všech stránek PDF dokumentu v Pythonu
import aspose.pdf as ap
# Otevřít PDF dokument
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Zavolejte metodu accept, abyste zpracovali všechny stránky.
document.pages.accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Definujte cestu k souboru
file_path = "extracted-text.txt"
# Otevřete soubor v režimu zápisu a zapište extrahovaný text
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Načíst text z konkrétní stránky v PDF
Můžeme také extrahovat text z konkrétní stránky PDF dokumentu mírným pozměněním předchozího přístupu. Místo zpracování celého dokumentu stačí zavolat metodu accept()
na požadované stránce objektu Document
. Jednoduše specifikujte číslo stránky pomocí jejího indexu a Aspose.PDF extrahuje text pouze z této stránky. Tato metoda je užitečná při práci s velkými PDF, kde potřebujete data pouze z určité části, čímž se zlepšuje účinnost a výkon.
Následující příklad kódu ukazuje, jak analyzovat text z konkrétní stránky PDF v Pythonu.
# Tento příklad kódu ukazuje, jak extrahovat text z konkrétní stránky PDF dokumentu v Pythonu.
import aspose.pdf as ap
# Otevřít PDF dokument
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Call the accept method to process all pages
document.pages[1].accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Definujte cestu k souboru
file_path = "extracted-text.txt"
# Otevřete soubor v režimu zápisu a zapište extrahovaný text
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Zpracování textu z konkrétní oblasti v PDF
Někdy může být potřeba extrahovat text z konkrétní části stránky PDF namísto získávání obsahu z celého dokumentu. Chcete-li cílit na konkrétní oblast, použijte vlastnost Rectangle
z TextSearchOptions
. Tato vlastnost akceptuje objekt Rectangle
, který definuje souřadnice požadované oblasti. Určením této hranice můžeme extrahovat text pouze z vybrané oblasti a ignorovat zbytek obsahu stránky.
Kroky k extrakci textu z konkrétní oblasti stránky
- Načtěte PDF dokument pomocí třídy
Document
. - Vytvořte instanci třídy
TextAbsorber
, která zachytí text z dokumentu. - Definujte cílovou oblast pomocí
TextSearchOptions.Rectangle
, která určuje oblast pro extrakci textu. - Aplikujte extrakci textu na konkrétní stránce zavoláním metody
accept()
na vybrané stránce. - Získejte extrahovaný text z vlastnosti
Text
TextAbsorber
. - Process the output as needed.
Následující příklad kódu ukazuje, jak analyzovat text z konkrétní oblasti PDF stránky v Pythonu.
# Tento kódový příklad ukazuje, jak extrahovat text z konkrétní oblasti stránky v dokumentu PDF pomocí Pythonu.
import aspose.pdf as ap
# Otevřít PDF dokument
document = ap.Document("sample.pdf")
# Vytvořte objekt TextAbsorber pro extrakci textu
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)
# Přijměte absorbér pro první stránku
document.pages[1].accept(absorber)
# Get the extracted text
extracted_text = absorber.text
# Definujte cestu k souboru
file_path = "extracted-text.txt"
# Otevřete soubor v režimu zápisu a zapište extrahovaný text
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Tento přístup vám umožňuje přesně extrahovat text z buněk tabulky, forem polí nebo jakékoli definované části stránky, což je ideální pro automatizaci dokumentů a analýzu dat.
Extrakce textu z PDF dokumentů s více sloupci
PDF dokumenty často obsahují směs prvků, jako je text, obrázky, poznámky, přílohy a grafy. Při práci s více sloupcovými PDF soubory může být obtížné extrahovat text při zachování původního rozložení.
Aspose.PDF for Python zjednodušuje tento proces tím, že umožňuje vývojářům manipulovat s vlastnostmi textu před extrakcí. Úpravou velikosti písma a následnou extrakcí textu můžete dosáhnout čistšího a strukturovanějšího výstupu. Následující kroky ukazují, jak použít tuto metodu pro přesnou extrakci textu z vícesloupcových PDF.
Kroky k extrakci textu z vícesloupcového PDF v Pythonu
- Načtěte dokument PDF pomocí třídy
Document
. - Vytvořte instanci
TextFragmentAbsorber
, abyste vyhledali a extrahovali jednotlivé textové fragmenty z dokumentu. - Získejte všechny detekované textové fragmenty a zmenšete jejich velikost písma o 70 %, aby se zvýšila přesnost extrakce.
- Uložte upravený dokument do paměťového proudu, aby se zabránilo uložení mezipaměťového souboru.
- Načtěte PDF z paměťového proudu pro zpracování upraveného textu.
- Použijte
TextAbsorber
k získání strukturovaného textu z modifikovaného dokumentu. - Uložte extrahovaný text do souboru
.txt
pro další použití.
Následující příklad kódu ukazuje, jak extrahovat text z vícestloupcového PDF při zachování rozložení.
# Tento kódový příklad ukazuje, jak extrahovat text z PDF s více sloupci v Pythonu.
import io
import aspose.pdf as ap
# Otevřít dokument PDF
document = ap.Document("multi-column-sample.pdf")
# Vytvořte objekt TextFragmentAbsorber pro extrakci textu.
text_fragment_absorber = ap.text.TextFragmentAbsorber()
# Přijměte absorbér pro první stránku
document.pages.accept(text_fragment_absorber)
# Získejte kolekci extrahovaných textových fragmentů
text_fragment_collection = text_fragment_absorber.text_fragments
# Reduce font size by at least 70% to improve text extraction
for text_fragment in text_fragment_collection:
text_fragment.text_state.font_size *= 0.7
# Uložte modifikovaný dokument do paměťového proudu
source_stream = io.BytesIO()
document.save(source_stream)
# Načtěte dokument z paměťového proudu.
source_stream.seek(0)
dest_document = ap.Document(source_stream)
# Inicializujte TextAbsorber pro extrakci aktualizovaného textu
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text
# Uložte extrahovaný text do souboru
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Tato metoda zajišťuje, že text extrahovaný z vícisloupcových PDF zachovává svůj původní layout co nejpřesněji.
Vylepšené zpracování textu s ScaleFactor
Aspose.PDF for Python vám umožňuje parsovat PDF dokumenty a extrahovat text z konkrétní stránky s pokročilými možnostmi extrakce textu, jako jsou režim formátování textu a měřicí faktor. Tyto možnosti pomáhají přesně extrahovat text z složitých PDF, včetně dokumentů se vícero sloupci.
Použitím možnosti ScaleFactor můžeme jemně doladit vnitřní textovou mřížku pro lepší přesnost. Faktor měřítka mezi 1 a 0.1 funguje jako snížení písma, což pomáhá správně zarovnat extrahovaný text. Hodnota mezi 0.1 a -0.1 je považována za nulu, což umožňuje automatické škálování na základě průměrné šířky glyphu nejpoužívanějšího písma na stránce. Pokud není nastaven žádný ScaleFactor, aplikuje se výchozí 1.0, což zajišťuje, že nedojde k žádným úpravám škálování. Pro velkoplošnou extrakci textu se doporučuje automatické škálování (ScaleFactor = 0
), ale ruční nastavení ScaleFactor =
Kroky k extrakci textu z konkrétní stránky se škálovacím faktorem
- Načtěte PDF dokument pomocí třídy
Document
. - Vytvořte instanci
TextAbsorber
, abyste extrahovali text. - Nastavte
TextExtractionOptions
na režim PURE pro přesnou extrakci. - Upravte
scalefactor
pro optimalizaci rozpoznávání textu v PDF s více sloupci. - Zavolejte
accept()
na kolekcipages
, aby bylo možné extrahovat text. - Uložte vytěžený obsah do textového souboru.
# Tento kódový příklad ukazuje, jak extrahovat text z konkrétní oblasti stránky v dokumentu PDF pomocí Pythonu.
import aspose.pdf as ap
# Otevřít PDF dokument
document = ap.Document("sample.pdf")
# Inicializujte TextAbsorber s možnostmi extrakce textu
text_absorber = ap.text.TextAbsorber()
# Nastavit možnosti extrakce
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5 # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options
# Extrahujte text z určené stránky
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Uložit extrahovaný text do souboru
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Analyzovat text v PDF: Alternativní přístup
Aspose.PDF for Python také poskytuje alternativní přístup k extrakci textu pomocí třídy TextDevice
. Prosím, přečtěte si více o extrakci textu z PDF pomocí TextDevice.
Jak analyzovat tabulky z PDF v Pythonu
Parsing tables from PDFs is essential for data analysis, automation, and reporting. PDFs often contain structured data in tabular form, which can be challenging to retrieve using standard text extraction methods. Fortunately, Aspose.PDF for Python provides a powerful way to extract tables with high accuracy, preserving their structure and content.
Třída TableAbsorber
je navržena tak, aby detekovala a extrahovala tabulky z PDF stránek. Zpracovává každou stránku, identifikuje tabulky a získává jednotlivé řádky a buňky při zachování jejich struktury. Níže jsou uvedeny kroky k extrakci tabulek z PDF dokumentu pomocí Aspose.PDF for Python.
Kroky k analýze tabulek z PDF v Pythonu
- Načtěte soubor PDF obsahující tabulky pomocí třídy
Document
. - Procházejte kolekci
pages
dokumentu, abyste zpracovali každou stránku jednotlivě. - Vytvořte instanci třídy
TableAbsorber
, aby detekovala a extrahovala tabulky. - Zavolejte metodu
visit()
, abyste identifikovali tabulky na aktuální stránce. - Procházejte seznam extrahovaných tabulek a získávejte řádky a buňky.
- Získat
textfragments
každé buňky a extrahovat text pomocí vlastnostisegments
. - Uložte extrahovaná data tabulky pro další analýzu nebo je zobrazte v konzoli.
# Tento příklad kódu ukazuje, jak extrahovat tabulky z PDF dokumentu v Pythonu.
import aspose.pdf as ap
# Načíst soubor PDF
document = pdf.Document("sample.pdf")
# Zpracovat všechny stránky
for page in document.pages:
# Inicializujte objekt TableAbsorber
absorber = ap.text.TableAbsorber()
# Identifikujte tabulky na aktuální stránce
absorber.visit(page)
# Procházejte extrahované tabulky
for table in absorber.table_list:
# Procházejte všechny řádky v tabulce
for row in table.row_list:
# Iterujte přes všechny sloupce v řádku
for cell in row.cell_list:
# Fetch the text fragments
text_fragment_collection = cell.text_fragments
# Iterujte přes textové fragmenty
for fragment in text_fragment_collection:
# Print the text
print(fragment.text)
Dodržováním těchto kroků můžete efektivně extrahovat tabulky z PDF, což usnadňuje zpracování a analýzu strukturovaných dat.
Parse PDF Metadata: Získejte informace o PDF souboru v Pythonu
Při práci s PDF dokumenty je často nutné získat metadata, jako jsou autor, datum vytvoření, klíčová slova a název. Aspose.PDF for Python to usnadňuje tím, že poskytuje přístup k objektu DocumentInfo prostřednictvím vlastnosti Info
třídy Document
. To vám umožní programově extrahovat důležité vlastnosti dokumentu.
Kroky k analýze metadat PDF
- Použijte třídu
Document
k otevření požadovaného souboru PDF. - Získejte objekt DocumentInfo pomocí vlastnosti
info
. - Získejte specifické detaily, jako je autor, datum vytvoření, název, téma a klíčová slova.
- Vytiskněte metadata nebo je uložte pro další zpracování.
Následující Python skript ukazuje, jak získat a zobrazit klíčové detaily z PDF souboru v Pythonu:
# Tento příklad kódu ukazuje, jak extrahovat informace o souborech v Pythonu.
import aspose.pdf as ap
# Načtěte PDF dokument
document = ap.Document("Sample.pdf")
# Načíst informace o dokumentu
doc_info = document.info
# Zobrazit metadata dokumentu
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")
Zpracování obrázků z PDF souboru pomocí jazyka Python
Můžeme analyzovat dokument PDF a efektivně získávat obrázky vložené v dokumentu. Můžeme extrahovat vysoce kvalitní obrázky z konkrétních stránek a ukládat je odděleně pro další použití.
Každá stránka PDF ukládá své obrázky v rámci kolekce zdrojů, konkrétně uvnitř kolekce XImage
. Chcete-li extrahovat obrázek, přistupte ke požadované stránce, získejte obrázek z kolekce Images
pomocí jeho indexu a uložte ho.
Kroky k analýze obrázků z PDF v Pythonu
- Načtěte soubor PDF obsahující obrázek pomocí třídy
Document
. - Získejte konkrétní stránku, ze které chcete extrahovat obrázek.
- Přistupte ke kolekci
Images
zdrojů stránky a specifikujte index obrázku. - Uložte extrahovaný obrázek pomocí proudu.
Následující příklad kódu ukazuje, jak analyzovat obrázky z PDF v Pythonu.
# Tento příklad kódu ukazuje, jak extrahovat obrázky z PDF v Pythonu.
import aspose.pdf as ap
# Otevřít dokument
document = ap.Document("Sample.pdf")
# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]
# Definujte cestu k výstupnímu obrázku
output_image_path = "OutputImage.jpg"
# Uložte extrahovaný obrázek
with open(output_image_path, "wb") as output_image:
output_image.write(x_image.to_stream().read())
Tato metoda poskytuje jednoduchý a efektivní způsob, jak extrahovat obrázky z PDF, přičemž zachovává jejich kvalitu. S Aspose.PDF for Python můžete automatizovat extrakci obrázků pro různé aplikace, jako je zpracování dokumentů, archivace dat a analýza obsahu.
Jak analyzovat anotace PDF v Pythonu
Poznámky v PDF dokumentech zlepšují interakci s dokumentem přidáním zvýraznění, obrázků a lepících poznámek. Každý typ anotace slouží specifickému účelu a Aspose.PDF for Python usnadňuje jejich extrakci pro analýzu nebo zpracování.
- Parsování textových anotací z PDF v Pythonu
- Analyzujte zvýrazněný text z PDF v Pythonu
- Parsing PDF Figures Annotation in Python
- Jak analyzovat anotace odkazů PDF v Pythonu
Zpracování textových anotací z PDF v Pythonu
PDF dokumenty často obsahují textové poznámky, které slouží jako komentáře nebo poznámky připojené k určitém místu na stránce. Když jsou sbalené, tyto poznámky se zobrazují jako ikony a když jsou rozbalené, zobrazují text uvnitř vyskakovacího okna. Každá stránka v PDF má svou vlastní kolekci Annotations, která obsahuje všechny poznámky specifické pro tuto stránku. Využitím Aspose.PDF for Python můžete efektivně extrahovat textové poznámky z PDF souboru.
Kroky k parsování textových anotací z PDF
- Načtěte PDF dokument pomocí třídy
Document
. - Získejte vlastnost
annotations
konkrétní stránky, abyste získali všechny anotace na této stránce. - Procházejte anotace a filtrujte ty s
AnnotationType.TEXT
. - Získejte relevantní informace, jako je pozice anotace (
rect
), pro další zpracování nebo zobrazení.
import aspose.pdf as ap
# Načtěte dokument PDF
document = ap.Document("annotations.pdf")
# Procházejte všechny anotace na první straně
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
# Print annotation details
print(f"Title: {annotation.full_name}")
print(f"Contents: {annotation.contents}")
print(f"Annotation Rectangle: {annotation.rect}")
Tímto způsobem můžete efektivně extrahovat a zpracovávat textové anotace z PDF dokumentů v Pythonu.
Explore more about pracováním s PDF Text Annotation v Pythonu by visiting the official guide.
Zpracování zvýrazněného textu z PDF v Pythonu
V mnoha případech může být potřeba extrahovat pouze zvýrazněný text z PDF, nikoli celý obsah. Ať už analyzujete důležité poznámky, shrnujete klíčové body nebo automatizujete zpracování dokumentů, Aspose.PDF for Python usnadňuje efektivní získávání zvýrazněného textu.
Highlight annotations označují důležité textové pasáže, běžně používané pro recenze nebo studijní poznámky. Můžete extrahovat zvýrazněný text a jeho vlastnosti, jako je barva a pozice, pomocí třídy HighlightAnnotation
.
Můžeme analyzovat zvýrazněné textové anotace v dokumentu PDF podle kroků uvedených výše. Musíme však pouze zmínit AnnotationType.HIGHLIGHT
v kroku 3.
Následující příklad ukazuje, jak filtrovat a extrahovat zvýrazněný text z PDF.
import aspose.pdf as ap
# Načtěte dokument PDF
document = ap.Document("annotations.pdf")
# Procházejte všechny anotace na první stránce
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
# Print annotation details
print(f"Title: {annotation.full_name}")
print(f"Annotation Rectangle: {annotation.rect}")
Learn more about pracováním s anotací zvýraznění PDF v Pythonu by visiting the official guide.
Parsování anotací figur v PDF v Pythonu
Popisky figury zahrnují grafické prvky, jako jsou tvary, kresby nebo razítka, které se používají k důrazu nebo vysvětlení. Extrahování těchto popisků zahrnuje identifikaci InkAnnotation
nebo StampAnnotation
objektů a získávání jejich kreslicích cest nebo obrázků.
Aby bylo možné analyzovat čárové anotace v dokumentu PDF, postupujte podle dříve uvedených kroků. Jedinou změnou, kterou je třeba provést, je specifikace AnnotationType.LINE
v kroku 3.
Následující příklad ukazuje, jak analyzovat anotaci řádku v PDF pomocí Pythonu.
import aspose.pdf as ap
# Načtěte dokument PDF
document = ap.Document("annotations.pdf")
# Projděte všechny anotace na první stránce
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
# Tisknout podrobnosti o anotaci
print(f"Annotation Rectangle: {annotation.rect}")
Přečtěte si více o working with PDF Figures Annotations in Python here.
Jak analyzovat PDF odkazy na anotace v Pythonu
Odkazy v anotacích PDF umožňují uživatelům bezproblémově se pohybovat v rámci dokumentu, otevírat externí soubory nebo navštěvovat webové stránky přímo z PDF. Tyto hypertextové odkazy zvyšují interaktivitu a zlepšují uživatelský zážitek tím, že poskytují rychlý přístup k dalším informacím.
Aby bylo možné extrahovat odkazy na anotace z PDF, postupujte podle stejných kroků jako dříve, ale ve kroku 3 se ujistěte, že specifikujete AnnotationType.LINK
. Tím zajistíte, že budou extrahovány pouze odkazy na anotace.
Následující příklad kódu ukazuje, jak analyzovat anotace odkazů v PDF pomocí Pythonu.
import aspose.pdf as ap
# Načtěte dokument PDF
document = ap.Document("annotations.pdf")
# Procházejte všechny anotace na první stránce
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
# Tisknout detaily anotace
print(f"Annotation Rectangle: {annotation.rect}")
Pomocí Aspose.PDF for Python můžete efektivně extrahovat a manipulovat s anotacemi odkazů pro různé případy použití, jako je indexování dokumentů nebo zlepšení navigace.
Přečtěte si úplné podrobnosti o handling Link Annotations in PDFs here.
Závěr
Aspose.PDF for Python je nejlepší knihovna pro analýzu PDF v Pythonu pro vývojáře, kteří potřebují spolehlivé, efektivní a funkčně bohaté řešení pro parsování PDF. Ať už potřebujete analyzovat text, tabulky, obrázky, metadata nebo anotace, Aspose.PDF poskytuje potřebné nástroje.
Vyzkoušejte poskytnuté ukázky kódu a začněte analyzovat PDF soubory a zjednodušit úkoly analýzy PDF v Pythonu!
V případě jakýchkoli dotazů nebo potřeby další pomoci se na nás neváhejte obrátit na našem free support forum.