
Parsing a PDF berarti mengekstrak data terstruktur atau tidak terstruktur dari file PDF. Ini bisa menjadi tantangan karena struktur kompleks dari PDF. Tidak seperti teks biasa atau format terstruktur seperti JSON dan XML, PDF menyimpan konten dengan cara yang tidak selalu mengikuti urutan linier. Mengekstrak teks, tabel, gambar, dan metadata memerlukan pustaka parser PDF Python yang andal, akurat, dan efisien. Dalam artikel ini, kita akan belajar bagaimana cara mem-parsing PDF di Python menggunakan Aspose.PDF for Python. Pada akhir panduan ini, Anda akan dapat mengekstrak teks, tabel, dan gambar dari dokumen PDF di Python.
Artikel ini mencakup topik berikut:
- Aspose.PDF: Perpustakaan Parser PDF Python Terbaik
- Mengurai PDF dan Mengekstrak Teks di Python
- Cara Mengurai Tabel dari PDF di Python
- Parse Metadata PDF: Dapatkan Informasi File PDF di Python
- Parsing Gambar dari PDF di Python
- Bagaimana Cara Mengurai Anotasi PDF di Python
Aspose.PDF: Perpustakaan Parser PDF Python Terbaik
Aspose.PDF for Python adalah salah satu pustaka pemparser PDF Python terbaik yang tersedia saat ini. Ini menawarkan akurasi tinggi, mendukung ekstraksi data terstruktur, dan bahkan bekerja dengan PDF yang dipindai melalui dukungan OCR.
Aspose.PDF menonjol di antara pustaka parser PDF Python karena beberapa alasan:
- Akurasi Tinggi: Mengekstrak teks dan tabel dengan presisi.
- Dukungan untuk Data Terstruktur: Bekerja dengan tabel, gambar, dan metadata.
- Tidak Ada Ketergantungan Eksternal: Sebuah pustaka ringan dan mandiri.
- Format Output Beragam: Konversi PDF ke teks, XLSX, DOCX, HTML, dan format gambar.
- Keamanan dan Keandalan: Menangani struktur PDF yang kompleks tanpa korupsi data.
Dibandingkan dengan alternatif open-source, Aspose.PDF menawarkan solusi yang lebih kuat dan kaya fitur, menjadikannya ideal untuk aplikasi perusahaan dan sistem otomatisasi dokumen.
Instalasi & Pengaturan
Menginstal Aspose.PDF for Python itu sederhana. Unduh dari releases atau jalankan perintah pip:
pip install aspose-pdf
Untuk mulai menggunakan Aspose.PDF dalam aplikasi Python Anda, impor modul yang diperlukan:
import aspose.pdf as ap
Menarik Teks: Mengurai PDF di Python
Parsing text from a PDF adalah salah satu fitur utama dari pustaka parser PDF Python. Kita dapat mengekstrak teks dari semua halaman dokumen PDF atau dari halaman tertentu atau area dokumen PDF. Di bagian yang akan datang, kita akan belajar bagaimana untuk:
- Parsing Teks dari Semua Halaman PDF di Python
- Parse Teks dari Halaman Tertentu dalam PDF
- Parse Text dari Wilayah Tertentu dalam PDF
- Mengambil Teks dari PDF Multi-Kolom
- Peningkatan Pemrosesan Teks dengan ScaleFactor
- Analisis Teks dalam PDF: Pendekatan Alternatif
Parse Teks dari Semua Halaman PDF di Python
Aspose.PDF for Python menyediakan cara yang efisien untuk mengekstrak teks dari dokumen PDF menggunakan kelas Document
dan TextAbsorber
. Kelas Document
digunakan untuk memuat file PDF, sementara kelas TextAbsorber
bertanggung jawab untuk mengekstrak konten teks dari semua halaman. Metode accept()
memproses setiap halaman dan mengekstrak teks, yang kemudian dapat disimpan atau ditampilkan sesuai kebutuhan.
Langkah-langkah untuk Mengambil Teks dari Semua Halaman PDF di Python
- Muat dokumen PDF menggunakan kelas
Document
. - Buat sebuah instance dari kelas
TextAbsorber
untuk menangani ekstraksi teks. - Panggil metode
accept()
pada koleksipages
, memungkinkanTextAbsorber
untuk memproses semua halaman. - Ambil teks yang diekstrak menggunakan properti
text
dari instanceTextAbsorber
. - Print the extracted text.
Contoh kode berikut menunjukkan cara mem-parsing teks dari semua halaman PDF di Python.
# Contoh kode ini menunjukkan cara mengekstrak teks dari semua halaman dokumen PDF menggunakan Python.
import aspose.pdf as ap
# Buka dokumen PDF
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Panggil metode accept untuk memproses semua halaman
document.pages.accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Tentukan jalur file
file_path = "extracted-text.txt"
# Buka file dalam mode tulis dan tulis teks yang telah diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Parse Teks dari Halaman Tertentu dalam PDF
Kita juga dapat mengekstrak teks dari halaman tertentu dari dokumen PDF dengan sedikit memodifikasi pendekatan sebelumnya. Alih-alih memproses seluruh dokumen, Anda hanya perlu memanggil metode accept()
pada halaman yang diinginkan dari objek Document
. Cukup tentukan nomor halaman menggunakan indeksnya dan Aspose.PDF akan mengekstrak teks hanya dari halaman itu. Metode ini berguna saat menghadapi PDF besar di mana Anda hanya memerlukan data dari bagian tertentu, meningkatkan efisiensi dan kinerja.
Contoh kode berikut menunjukkan cara mengurai teks dari halaman tertentu dari PDF di Python.
# Contoh kode ini menunjukkan cara mengekstrak teks dari halaman tertentu dari dokumen PDF menggunakan Python.
import aspose.pdf as ap
# Buka dokumen PDF
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Panggil metode accept untuk memproses semua halaman
document.pages[1].accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Tentukan jalur file
file_path = "extracted-text.txt"
# Buka file dalam mode tulis dan tulis teks yang diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Parse Teks dari Wilayah Spesifik di PDF
Terkadang, kita mungkin perlu mengekstrak teks dari bagian tertentu halaman PDF daripada mengambil konten dari seluruh dokumen. Untuk menargetkan area spesifik, gunakan properti Rectangle
dari TextSearchOptions
. Properti ini menerima objek Rectangle
, yang mendefinisikan koordinat dari daerah yang diinginkan. Dengan menentukan batas ini, kita dapat mengekstrak teks hanya dari area yang dipilih, mengabaikan sisa konten halaman.
Langkah-langkah untuk Mengambil Teks dari Wilayah Halaman Tertentu
- Muat dokumen PDF menggunakan kelas
Document
. - Buat instance kelas
TextAbsorber
untuk menangkap teks dari dokumen. - Tentukan wilayah target menggunakan
TextSearchOptions.Rectangle
, yang menunjukkan area untuk mengekstrak teks. - Terapkan ekstraksi teks ke halaman tertentu dengan memanggil metode
accept()
pada halaman yang dipilih. - Ambil teks yang diekstrak dari properti
Text
dariTextAbsorber
. - Process the output as needed.
Contoh kode berikut menunjukkan cara untuk mengurai teks dari area khusus di halaman PDF menggunakan Python.
# Contoh kode ini menunjukkan cara mengekstrak teks dari wilayah tertentu di halaman dalam dokumen PDF menggunakan Python
import aspose.pdf as ap
# Buka dokumen PDF
document = ap.Document("sample.pdf")
# Buat objek TextAbsorber untuk mengekstrak teks
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)
# Accept the absorber for the first page
document.pages[1].accept(absorber)
# Get the extracted text
extracted_text = absorber.text
# Tentukan jalur file
file_path = "extracted-text.txt"
# Buka file dalam mode tulis dan tuliskan teks yang diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Pendekatan ini memungkinkan Anda untuk secara tepat mengekstrak teks dari sel tabel, field formulir, atau bagian tertentu dari halaman, menjadikannya ideal untuk otomatisasi dokumen dan analisis data.
Mengambil Teks dari PDF Multi-Kolom
Dokumen PDF sering kali mengandung campuran elemen seperti teks, gambar, anotasi, lampiran, dan grafik. Saat menangani PDF kolom ganda, mengekstrak teks sambil mempertahankan tata letak asli bisa menjadi tantangan.
Aspose.PDF for Python menyederhanakan proses ini dengan memungkinkan pengembang untuk memanipulasi properti teks sebelum ekstraksi. Dengan menyesuaikan ukuran font dan kemudian mengekstrak teks, Anda dapat mencapai output yang lebih bersih dan terstruktur. Langkah-langkah berikut menunjukkan cara menerapkan metode ini untuk ekstraksi teks yang akurat dari PDF kolom ganda.
Langkah-langkah untuk Mengekstrak Teks dari PDF Multi-Kolom di Python
- Muatan dokumen PDF menggunakan kelas
Document
. - Buat instansi
TextFragmentAbsorber
untuk menemukan dan mengekstrak fragmen teks individu dari dokumen. - Ambil semua fragmen teks yang terdeteksi dan kurangi ukuran font mereka sebesar 70% untuk meningkatkan akurasi ekstraksi.
- Simpan dokumen yang dimodifikasi dalam aliran memori untuk menghindari menyimpan file sementara.
- Muatan PDF dari aliran memori untuk memproses teks yang telah disesuaikan.
- Gunakan
TextAbsorber
untuk mengambil teks terstruktur dari dokumen yang telah dimodifikasi. - Simpan teks yang diekstrak ke file
.txt
untuk penggunaan lebih lanjut.
Contoh kode berikut menunjukkan cara mengekstrak teks dari PDF dengan beberapa kolom sambil mempertahankan tata letak.
# Contoh kode ini menunjukkan cara mengekstrak teks dari PDF multi-kolom di Python
import io
import aspose.pdf as ap
# Buka dokumen PDF
document = ap.Document("multi-column-sample.pdf")
# Buat objek TextFragmentAbsorber untuk mengekstrak teks
text_fragment_absorber = ap.text.TextFragmentAbsorber()
# Terima penyerap untuk halaman pertama
document.pages.accept(text_fragment_absorber)
# Dapatkan koleksi fragmen teks yang diekstraksi
text_fragment_collection = text_fragment_absorber.text_fragments
# Kurangi ukuran font setidaknya 70% untuk meningkatkan ekstraksi teks
for text_fragment in text_fragment_collection:
text_fragment.text_state.font_size *= 0.7
# Simpan dokumen yang telah dimodifikasi ke dalam aliran memori
source_stream = io.BytesIO()
document.save(source_stream)
# Muat ulang dokumen dari aliran memori
source_stream.seek(0)
dest_document = ap.Document(source_stream)
# Inisialisasi TextAbsorber untuk mengekstrak teks yang diperbarui
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text
# Simpan teks yang diekstrak ke dalam file
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Metode ini memastikan bahwa teks yang diekstrak dari PDF dengan banyak kolom mempertahankan tata letaknya yang asli seakurat mungkin.
Peningkatan Pemrosesan Teks dengan ScaleFactor
Aspose.PDF for Python memungkinkan Anda untuk mengurai PDF dan mengekstrak teks dari halaman tertentu dengan opsi ekstraksi teks yang canggih, seperti mode format teks dan faktor skala. Opsi ini membantu dalam mengekstrak teks secara akurat dari PDF yang kompleks, termasuk dokumen multi-kolom.
Dengan menggunakan opsi ScaleFactor, kita dapat menyempurnakan grid teks internal untuk akurasi yang lebih baik. Faktor skala antara 1 dan 0.1 berfungsi seperti pengurangan font, membantu menyelaraskan teks yang diekstrak dengan benar. Nilai antara 0.1 dan -0.1 diperlakukan sebagai nol, memungkinkan penskalaan otomatis berdasarkan lebar glyph rata-rata dari font yang paling banyak digunakan di halaman. Jika tidak ada ScaleFactor yang ditetapkan, default 1.0 diterapkan, memastikan tidak ada penyesuaian penskalaan. Untuk ekstraksi teks dalam skala besar, penskalaan otomatis (ScaleFactor = 0
) disarankan, tetapi mengatur ScaleFactor = 0.5 secara manual dapat meningkatkan hasil untuk tata letak yang kompleks. Namun, penskalaan yang tidak perlu tidak akan mempengaruhi integritas konten, memastikan teks yang diekstrak tetap dapat diandalkan.
Langkah-langkah untuk Mengekstrak Teks dari Halaman Tertentu dengan Faktor Skala
- Muat dokumen PDF menggunakan kelas
Document
. - Buat sebuah instance dari
TextAbsorber
untuk mengekstrak teks. - Atur
TextExtractionOptions
ke mode format PURE untuk ekstraksi yang akurat. - Sesuaikan
scalefactor
untuk mengoptimalkan pengenalan teks dalam PDF multi-kolom. - Panggil
accept()
pada koleksipages
untuk mengekstrak teks. - Simpan konten yang diekstrak dalam file teks.
# Contoh kode ini menunjukkan cara mengekstrak teks dari wilayah tertentu di halaman dalam dokumen PDF menggunakan Python.
import aspose.pdf as ap
# Buka dokumen PDF
document = ap.Document("sample.pdf")
# Inisialisasi TextAbsorber dengan opsi ekstraksi teks
text_absorber = ap.text.TextAbsorber()
# Set extraction options
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5 # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options
# Ambil teks dari halaman yang ditentukan
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Simpan teks yang diekstrak ke dalam file
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Parsing Teks dalam PDF: Pendekatan Alternatif
Aspose.PDF for Python juga menyediakan pendekatan alternatif untuk mengekstrak teks menggunakan kelas TextDevice
. Silakan baca lebih lanjut tentang extracting text from PDF using the TextDevice.
Bagaimana Cara Mengurai Tabel dari PDF di Python
Mengurai tabel dari PDF sangat penting untuk analisis data, otomatisasi, dan pelaporan. PDF sering mengandung data terstruktur dalam bentuk tabel, yang bisa sulit untuk diambil menggunakan metode ekstraksi teks standar. Untungnya, Aspose.PDF for Python menyediakan cara yang kuat untuk mengekstrak tabel dengan akurasi tinggi, menjaga struktur dan kontennya.
Kelas TableAbsorber
dirancang khusus untuk mendeteksi dan mengekstrak tabel dari halaman PDF. Kelas ini memproses setiap halaman, mengidentifikasi tabel, dan mengambil baris serta sel individu sambil mempertahankan strukturnya. Di bawah ini adalah langkah-langkah untuk mengekstrak tabel dari dokumen PDF menggunakan Aspose.PDF for Python.
Langkah-langkah untuk Mengurai Tabel dari PDF di Python
- Muatan file PDF yang berisi tabel menggunakan kelas
Document
. - Loop melalui koleksi
pages
dari dokumen untuk memproses setiap halaman secara individu. - Buat sebuah instance dari kelas
TableAbsorber
untuk mendeteksi dan mengekstrak tabel. - Panggil metode
visit()
untuk mengidentifikasi tabel di halaman saat ini. - Iterasi melalui daftar tabel yang diekstrak dan ambil baris serta sel.
- Akses
textfragments
dari setiap sel dan ekstrak teks menggunakan propertisegments
. - Simpan data tabel yang diekstrak untuk analisis lebih lanjut atau tampilkan di konsol.
# Contoh kode ini menunjukkan bagaimana cara mengekstrak tabel dari dokumen PDF menggunakan Python.
import aspose.pdf as ap
# Muatan file PDF
document = pdf.Document("sample.pdf")
# Proses semua halaman
for page in document.pages:
# Inisialisasi objek TableAbsorber
absorber = ap.text.TableAbsorber()
# Identifikasi tabel di halaman saat ini
absorber.visit(page)
# Loop melalui tabel yang diekstraksi
for table in absorber.table_list:
# Iterasi melalui semua baris di tabel
for row in table.row_list:
# Iterasi melalui semua kolom di baris
for cell in row.cell_list:
# Fetch the text fragments
text_fragment_collection = cell.text_fragments
# Iterasi melalui fragmen teks
for fragment in text_fragment_collection:
# Print the text
print(fragment.text)
Dengan mengikuti langkah-langkah ini, Anda dapat mengekstrak tabel dari PDF dengan efisien, sehingga memudahkan pemrosesan dan analisis data terstruktur.
Mengurai Metadata PDF: Dapatkan Informasi File PDF di Python
Saat bekerja dengan PDF, sering kali perlu untuk mengambil metadata seperti penulis, tanggal pembuatan, kata kunci, dan judul. Aspose.PDF for Python membuat ini mudah dengan menyediakan akses ke objek DocumentInfo melalui properti Info
dari kelas Document
. Ini memungkinkan Anda untuk mengekstrak properti dokumen yang penting secara pemrograman.
Langkah-langkah untuk Mengurai Metadata PDF
- Gunakan kelas
Document
untuk membuka file PDF yang diinginkan. - Ambil objek DocumentInfo menggunakan properti
info
. - Akses rincian spesifik seperti penulis, tanggal pembuatan, judul, subjek, dan kata kunci.
- Cetak metadata atau simpan untuk pemrosesan lebih lanjut.
Skrip Python berikut menunjukkan cara mengambil dan menampilkan rincian kunci dari file PDF di Python:
# Contoh kode ini menunjukkan cara mengekstrak informasi file di Python
import aspose.pdf as ap
# Muat dokumen PDF
document = ap.Document("Sample.pdf")
# Ambil informasi dokumen
doc_info = document.info
# Tampilkan metadata dokumen
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")
Mengurai Gambar dari File PDF Menggunakan Python
Kami dapat mem-parsing dokumen PDF dan dengan efisien mengambil gambar yang tertanam di dalam dokumen. Kami dapat mengekstrak gambar berkualitas tinggi dari halaman tertentu dan menyimpannya secara terpisah untuk digunakan lebih lanjut.
Setiap halaman PDF menyimpan gambar-gambarnya di dalam koleksi sumber, khususnya di dalam koleksi XImage
. Untuk mengekstrak gambar, akses halaman yang diinginkan, ambil gambar dari koleksi Images
menggunakan indeksnya, dan simpan.
Langkah-langkah untuk Mengurai Gambar dari PDF di Python
- Load the PDF file containing an image using the
Document
class. - Ambil halaman spesifik dari mana Anda ingin mengekstrak gambar.
- Akses koleksi
Images
dariresources
halaman dan tentukan indeks gambar. - Simpan gambar yang diekstrak menggunakan aliran.
Contoh kode berikut menunjukkan cara mengurai gambar dari PDF di Python.
# Contoh kode ini menunjukkan cara mengekstrak gambar dari PDF dalam Python
import aspose.pdf as ap
# Open document
document = ap.Document("Sample.pdf")
# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]
# Tentukan jalur gambar keluaran
output_image_path = "OutputImage.jpg"
# Simpan gambar yang diekstrak
with open(output_image_path, "wb") as output_image:
output_image.write(x_image.to_stream().read())
Metode ini menyediakan cara yang mudah dan efisien untuk mengekstrak gambar dari PDF sambil mempertahankan kualitasnya. Dengan Aspose.PDF for Python, Anda dapat mengotomatiskan ekstraksi gambar untuk berbagai aplikasi, seperti document processing, pengarsipan data, dan analisis konten.
Cara Mengurai Anotasi PDF di Python
Annotasi dalam PDF meningkatkan interaksi dokumen dengan menambahkan sorotan, gambar, dan catatan tempel. Setiap jenis anotasi memiliki tujuan spesifik, dan Aspose.PDF for Python memudahkan untuk mengekstraknya untuk analisis atau pemrosesan.
- Parsing Anotasi Teks dari PDF menggunakan Python
- Parsing Teks yang Ditekankan dari PDF di Python
- Mengurai Anotasi Gambar PDF di Python
- Cara Mengurai Anotasi Tautan PDF di Python
Mengurai Anotasi Teks dari PDF di Python
Dokumen PDF sering kali mengandung anotasi teks, yang berfungsi sebagai komentar atau catatan yang dilampirkan pada lokasi tertentu di halaman. Ketika dilipat, anotasi ini muncul sebagai ikon, dan ketika diperluas, mereka menampilkan teks di dalam jendela pop-up. Setiap halaman dalam PDF memiliki koleksi Anotasi sendiri, yang menyimpan semua anotasi yang spesifik untuk halaman itu. Dengan memanfaatkan Aspose.PDF for Python, Anda dapat dengan efisien mengekstrak anotasi teks dari file PDF.
Langkah-langkah untuk Mengurai Anotasi Teks dari PDF
- Load dokumen PDF dengan kelas
Document
. - Ambil properti
annotations
dari halaman tertentu untuk mendapatkan semua anotasi di halaman tersebut. - Iterasi melalui anotasi dan filter yang memiliki
AnnotationType.TEXT
. - Ambil informasi relevan seperti posisi anotasi (
rect
) untuk pemrosesan atau tampilan lebih lanjut.
import aspose.pdf as ap
# Muat dokumen PDF
document = ap.Document("annotations.pdf")
# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
# Print annotation details
print(f"Title: {annotation.full_name}")
print(f"Contents: {annotation.contents}")
print(f"Annotation Rectangle: {annotation.rect}")
Dengan mengikuti langkah-langkah ini, Anda dapat secara efisien mengekstrak dan memproses anotasi teks dari dokumen PDF di Python.
Jelajahi lebih lanjut tentang bekerja dengan PDF Text Annotation di Python dengan mengunjungi panduan resmi.
Mengurai Teks yang Disorot dari PDF di Python
Dalam banyak kasus, Anda mungkin perlu mengekstrak hanya teks yang disorot dari PDF daripada seluruh konten. Apakah Anda menganalisis catatan penting, merangkum poin kunci, atau mengotomatiskan pemrosesan dokumen, Aspose.PDF for Python memudahkan untuk mengambil teks yang disorot dengan efisien.
Sorotan anotasi menandai bagian teks penting, biasanya digunakan untuk ulasan atau catatan belajar. Anda dapat mengekstrak teks yang disorot dan propertinya, seperti warna dan posisi, menggunakan kelas HighlightAnnotation
.
Kami dapat mem-parsing anotasi teks yang disorot dalam dokumen PDF dengan mengikuti langkah-langkah yang disebutkan sebelumnya. Namun, kami hanya perlu menyebutkan AnnotationType.HIGHLIGHT
pada langkah 3.
Contoh berikut menunjukkan bagaimana cara memfilter dan mengekstrak teks yang disorot dari PDF.
import aspose.pdf as ap
# Load the PDF document
document = ap.Document("annotations.pdf")
# Loop melalui semua anotasi pada halaman pertama
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
# Cetak rincian anotasi
print(f"Title: {annotation.full_name}")
print(f"Annotation Rectangle: {annotation.rect}")
Pelajari lebih lanjut tentang bekerja dengan PDF Highlights Annotation di Python dengan mengunjungi panduan resmi.
Parsing PDF Figures Annotation in Python
Annotasi gambar mencakup elemen grafis seperti bentuk, gambar, atau cap yang digunakan untuk penekanan atau penjelasan. Mengekstrak anotasi ini melibatkan mengidentifikasi objek InkAnnotation
atau StampAnnotation
dan mengambil jalur gambar atau gambar mereka.
Untuk mem-parsing anotasi garis dalam dokumen PDF, ikuti langkah-langkah yang telah dijabarkan sebelumnya. Satu-satunya modifikasi yang diperlukan adalah menentukan AnnotationType.LINE
pada langkah 3.
Contoh berikut menunjukkan cara menganalisis anotasi garis dalam PDF menggunakan Python.
import aspose.pdf as ap
# Muat dokumen PDF tersebut
document = ap.Document("annotations.pdf")
# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
# Cetak rincian anotasi
print(f"Annotation Rectangle: {annotation.rect}")
Baca lebih lanjut tentang working with PDF Figures Annotations in Python here.
Bagaimana Mem-Parsing Anotasi Tautan PDF di Python
Link anotasi dalam PDF memungkinkan pengguna untuk bernavigasi dengan lancar dalam dokumen, membuka file eksternal, atau mengunjungi halaman web langsung dari PDF. Superlink ini meningkatkan interaktivitas dan memperbaiki pengalaman pengguna dengan memberikan akses cepat ke informasi tambahan.
Untuk mengekstrak anotasi tautan dari PDF, ikuti langkah yang sama seperti sebelumnya, tetapi pada langkah 3, pastikan untuk menentukan AnnotationType.LINK
. Ini memastikan bahwa hanya anotasi tautan yang diambil.
Contoh kode berikut menunjukkan cara menganalisis anotasi tautan dalam PDF menggunakan Python.
import aspose.pdf as ap
# Load the PDF document
document = ap.Document("annotations.pdf")
# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
# Print annotation details
print(f"Annotation Rectangle: {annotation.rect}")
Dengan memanfaatkan Aspose.PDF for Python, Anda dapat secara efisien mengekstrak dan memanipulasi anotasi tautan untuk berbagai kasus penggunaan, seperti mengindeks dokumen atau meningkatkan navigasi.
Baca detail lengkap tentang handling Link Annotations in PDFs here.
Kesimpulan
Aspose.PDF for Python adalah pustaka pengurai PDF Python terbaik untuk pengembang yang membutuhkan solusi yang dapat diandalkan, efisien, dan kaya fitur untuk mengurai PDF. Baik Anda perlu mengurai teks, tabel, gambar, metadata, atau anotasi, Aspose.PDF menyediakan alat yang diperlukan.
Cobalah kode contoh yang diberikan dan mulai parsing PDF serta menyederhanakan tugas parsing PDF Anda di Python!
Jika ada pertanyaan atau membutuhkan bantuan lebih lanjut, silakan hubungi kami di free support forum.