Cara Mengurai PDF di Python: Panduan Langkah demi Langkah yang Kuat

Parsing a PDF berarti mengekstrak data terstruktur atau tidak terstruktur dari file PDF. Ini bisa menjadi tantangan karena struktur kompleks dari PDF. Tidak seperti teks biasa atau format terstruktur seperti JSON dan XML, PDF menyimpan konten dengan cara yang tidak selalu mengikuti urutan linier. Mengekstrak teks, tabel, gambar, dan metadata memerlukan pustaka parser PDF Python yang andal, akurat, dan efisien. Dalam artikel ini, kita akan belajar bagaimana cara mem-parsing PDF di Python menggunakan Aspose.PDF for Python. Pada akhir panduan ini, Anda akan dapat mengekstrak teks, tabel, dan gambar dari dokumen PDF di Python.

Artikel ini mencakup topik berikut:

Aspose.PDF: Perpustakaan Parser PDF Python Terbaik

Aspose.PDF for Python adalah salah satu pustaka pemparser PDF Python terbaik yang tersedia saat ini. Ini menawarkan akurasi tinggi, mendukung ekstraksi data terstruktur, dan bahkan bekerja dengan PDF yang dipindai melalui dukungan OCR.

Aspose.PDF menonjol di antara pustaka parser PDF Python karena beberapa alasan:

  • Akurasi Tinggi: Mengekstrak teks dan tabel dengan presisi.
  • Dukungan untuk Data Terstruktur: Bekerja dengan tabel, gambar, dan metadata.
  • Tidak Ada Ketergantungan Eksternal: Sebuah pustaka ringan dan mandiri.
  • Format Output Beragam: Konversi PDF ke teks, XLSX, DOCX, HTML, dan format gambar.
  • Keamanan dan Keandalan: Menangani struktur PDF yang kompleks tanpa korupsi data.

Dibandingkan dengan alternatif open-source, Aspose.PDF menawarkan solusi yang lebih kuat dan kaya fitur, menjadikannya ideal untuk aplikasi perusahaan dan sistem otomatisasi dokumen.

Instalasi & Pengaturan

Menginstal Aspose.PDF for Python itu sederhana. Unduh dari releases atau jalankan perintah pip:

pip install aspose-pdf

Untuk mulai menggunakan Aspose.PDF dalam aplikasi Python Anda, impor modul yang diperlukan:

import aspose.pdf as ap

Menarik Teks: Mengurai PDF di Python

Parsing text from a PDF adalah salah satu fitur utama dari pustaka parser PDF Python. Kita dapat mengekstrak teks dari semua halaman dokumen PDF atau dari halaman tertentu atau area dokumen PDF. Di bagian yang akan datang, kita akan belajar bagaimana untuk:

Parse Teks dari Semua Halaman PDF di Python

Aspose.PDF for Python menyediakan cara yang efisien untuk mengekstrak teks dari dokumen PDF menggunakan kelas Document dan TextAbsorber. Kelas Document digunakan untuk memuat file PDF, sementara kelas TextAbsorber bertanggung jawab untuk mengekstrak konten teks dari semua halaman. Metode accept() memproses setiap halaman dan mengekstrak teks, yang kemudian dapat disimpan atau ditampilkan sesuai kebutuhan.

Langkah-langkah untuk Mengambil Teks dari Semua Halaman PDF di Python

  1. Muat dokumen PDF menggunakan kelas Document.
  2. Buat sebuah instance dari kelas TextAbsorber untuk menangani ekstraksi teks.
  3. Panggil metode accept() pada koleksi pages, memungkinkan TextAbsorber untuk memproses semua halaman.
  4. Ambil teks yang diekstrak menggunakan properti text dari instance TextAbsorber.
  5. Print the extracted text.

Contoh kode berikut menunjukkan cara mem-parsing teks dari semua halaman PDF di Python.

# Contoh kode ini menunjukkan cara mengekstrak teks dari semua halaman dokumen PDF menggunakan Python.
import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Panggil metode accept untuk memproses semua halaman
document.pages.accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Tentukan jalur file
file_path = "extracted-text.txt"

# Buka file dalam mode tulis dan tulis teks yang telah diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Parse Teks dari Halaman Tertentu dalam PDF

Kita juga dapat mengekstrak teks dari halaman tertentu dari dokumen PDF dengan sedikit memodifikasi pendekatan sebelumnya. Alih-alih memproses seluruh dokumen, Anda hanya perlu memanggil metode accept() pada halaman yang diinginkan dari objek Document. Cukup tentukan nomor halaman menggunakan indeksnya dan Aspose.PDF akan mengekstrak teks hanya dari halaman itu. Metode ini berguna saat menghadapi PDF besar di mana Anda hanya memerlukan data dari bagian tertentu, meningkatkan efisiensi dan kinerja.

Contoh kode berikut menunjukkan cara mengurai teks dari halaman tertentu dari PDF di Python.

# Contoh kode ini menunjukkan cara mengekstrak teks dari halaman tertentu dari dokumen PDF menggunakan Python.
import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Panggil metode accept untuk memproses semua halaman
document.pages[1].accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Tentukan jalur file
file_path = "extracted-text.txt"

# Buka file dalam mode tulis dan tulis teks yang diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Parse Teks dari Wilayah Spesifik di PDF

Terkadang, kita mungkin perlu mengekstrak teks dari bagian tertentu halaman PDF daripada mengambil konten dari seluruh dokumen. Untuk menargetkan area spesifik, gunakan properti Rectangle dari TextSearchOptions. Properti ini menerima objek Rectangle, yang mendefinisikan koordinat dari daerah yang diinginkan. Dengan menentukan batas ini, kita dapat mengekstrak teks hanya dari area yang dipilih, mengabaikan sisa konten halaman.

Langkah-langkah untuk Mengambil Teks dari Wilayah Halaman Tertentu

  1. Muat dokumen PDF menggunakan kelas Document.
  2. Buat instance kelas TextAbsorber untuk menangkap teks dari dokumen.
  3. Tentukan wilayah target menggunakan TextSearchOptions.Rectangle, yang menunjukkan area untuk mengekstrak teks.
  4. Terapkan ekstraksi teks ke halaman tertentu dengan memanggil metode accept() pada halaman yang dipilih.
  5. Ambil teks yang diekstrak dari properti Text dari TextAbsorber.
  6. Process the output as needed.

Contoh kode berikut menunjukkan cara untuk mengurai teks dari area khusus di halaman PDF menggunakan Python.

# Contoh kode ini menunjukkan cara mengekstrak teks dari wilayah tertentu di halaman dalam dokumen PDF menggunakan Python
import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("sample.pdf")

# Buat objek TextAbsorber untuk mengekstrak teks
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)

# Accept the absorber for the first page
document.pages[1].accept(absorber)

# Get the extracted text
extracted_text = absorber.text

# Tentukan jalur file
file_path = "extracted-text.txt"

# Buka file dalam mode tulis dan tuliskan teks yang diekstrak
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Pendekatan ini memungkinkan Anda untuk secara tepat mengekstrak teks dari sel tabel, field formulir, atau bagian tertentu dari halaman, menjadikannya ideal untuk otomatisasi dokumen dan analisis data.

Mengambil Teks dari PDF Multi-Kolom

Dokumen PDF sering kali mengandung campuran elemen seperti teks, gambar, anotasi, lampiran, dan grafik. Saat menangani PDF kolom ganda, mengekstrak teks sambil mempertahankan tata letak asli bisa menjadi tantangan.

Aspose.PDF for Python menyederhanakan proses ini dengan memungkinkan pengembang untuk memanipulasi properti teks sebelum ekstraksi. Dengan menyesuaikan ukuran font dan kemudian mengekstrak teks, Anda dapat mencapai output yang lebih bersih dan terstruktur. Langkah-langkah berikut menunjukkan cara menerapkan metode ini untuk ekstraksi teks yang akurat dari PDF kolom ganda.

Langkah-langkah untuk Mengekstrak Teks dari PDF Multi-Kolom di Python

  1. Muatan dokumen PDF menggunakan kelas Document.
  2. Buat instansi TextFragmentAbsorber untuk menemukan dan mengekstrak fragmen teks individu dari dokumen.
  3. Ambil semua fragmen teks yang terdeteksi dan kurangi ukuran font mereka sebesar 70% untuk meningkatkan akurasi ekstraksi.
  4. Simpan dokumen yang dimodifikasi dalam aliran memori untuk menghindari menyimpan file sementara.
  5. Muatan PDF dari aliran memori untuk memproses teks yang telah disesuaikan.
  6. Gunakan TextAbsorber untuk mengambil teks terstruktur dari dokumen yang telah dimodifikasi.
  7. Simpan teks yang diekstrak ke file .txt untuk penggunaan lebih lanjut.

Contoh kode berikut menunjukkan cara mengekstrak teks dari PDF dengan beberapa kolom sambil mempertahankan tata letak.

# Contoh kode ini menunjukkan cara mengekstrak teks dari PDF multi-kolom di Python
import io
import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("multi-column-sample.pdf")

# Buat objek TextFragmentAbsorber untuk mengekstrak teks
text_fragment_absorber = ap.text.TextFragmentAbsorber()

# Terima penyerap untuk halaman pertama
document.pages.accept(text_fragment_absorber)

# Dapatkan koleksi fragmen teks yang diekstraksi
text_fragment_collection = text_fragment_absorber.text_fragments

# Kurangi ukuran font setidaknya 70% untuk meningkatkan ekstraksi teks
for text_fragment in text_fragment_collection:
    text_fragment.text_state.font_size *= 0.7

# Simpan dokumen yang telah dimodifikasi ke dalam aliran memori
source_stream = io.BytesIO()
document.save(source_stream)

# Muat ulang dokumen dari aliran memori
source_stream.seek(0)
dest_document = ap.Document(source_stream)

# Inisialisasi TextAbsorber untuk mengekstrak teks yang diperbarui
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text

# Simpan teks yang diekstrak ke dalam file
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

Metode ini memastikan bahwa teks yang diekstrak dari PDF dengan banyak kolom mempertahankan tata letaknya yang asli seakurat mungkin.

Peningkatan Pemrosesan Teks dengan ScaleFactor

Aspose.PDF for Python memungkinkan Anda untuk mengurai PDF dan mengekstrak teks dari halaman tertentu dengan opsi ekstraksi teks yang canggih, seperti mode format teks dan faktor skala. Opsi ini membantu dalam mengekstrak teks secara akurat dari PDF yang kompleks, termasuk dokumen multi-kolom.

Dengan menggunakan opsi ScaleFactor, kita dapat menyempurnakan grid teks internal untuk akurasi yang lebih baik. Faktor skala antara 1 dan 0.1 berfungsi seperti pengurangan font, membantu menyelaraskan teks yang diekstrak dengan benar. Nilai antara 0.1 dan -0.1 diperlakukan sebagai nol, memungkinkan penskalaan otomatis berdasarkan lebar glyph rata-rata dari font yang paling banyak digunakan di halaman. Jika tidak ada ScaleFactor yang ditetapkan, default 1.0 diterapkan, memastikan tidak ada penyesuaian penskalaan. Untuk ekstraksi teks dalam skala besar, penskalaan otomatis (ScaleFactor = 0) disarankan, tetapi mengatur ScaleFactor = 0.5 secara manual dapat meningkatkan hasil untuk tata letak yang kompleks. Namun, penskalaan yang tidak perlu tidak akan mempengaruhi integritas konten, memastikan teks yang diekstrak tetap dapat diandalkan.

Langkah-langkah untuk Mengekstrak Teks dari Halaman Tertentu dengan Faktor Skala

  1. Muat dokumen PDF menggunakan kelas Document.
  2. Buat sebuah instance dari TextAbsorber untuk mengekstrak teks.
  3. Atur TextExtractionOptions ke mode format PURE untuk ekstraksi yang akurat.
  4. Sesuaikan scalefactor untuk mengoptimalkan pengenalan teks dalam PDF multi-kolom.
  5. Panggil accept() pada koleksi pages untuk mengekstrak teks.
  6. Simpan konten yang diekstrak dalam file teks.
# Contoh kode ini menunjukkan cara mengekstrak teks dari wilayah tertentu di halaman dalam dokumen PDF menggunakan Python.
import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("sample.pdf")

# Inisialisasi TextAbsorber dengan opsi ekstraksi teks
text_absorber = ap.text.TextAbsorber()

# Set extraction options
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5  # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options

# Ambil teks dari halaman yang ditentukan
document.pages.accept(text_absorber)

# Get extracted text
extracted_text = text_absorber.text

# Simpan teks yang diekstrak ke dalam file
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

Parsing Teks dalam PDF: Pendekatan Alternatif

Aspose.PDF for Python juga menyediakan pendekatan alternatif untuk mengekstrak teks menggunakan kelas TextDevice. Silakan baca lebih lanjut tentang extracting text from PDF using the TextDevice.

Bagaimana Cara Mengurai Tabel dari PDF di Python

Mengurai tabel dari PDF sangat penting untuk analisis data, otomatisasi, dan pelaporan. PDF sering mengandung data terstruktur dalam bentuk tabel, yang bisa sulit untuk diambil menggunakan metode ekstraksi teks standar. Untungnya, Aspose.PDF for Python menyediakan cara yang kuat untuk mengekstrak tabel dengan akurasi tinggi, menjaga struktur dan kontennya.

Kelas TableAbsorber dirancang khusus untuk mendeteksi dan mengekstrak tabel dari halaman PDF. Kelas ini memproses setiap halaman, mengidentifikasi tabel, dan mengambil baris serta sel individu sambil mempertahankan strukturnya. Di bawah ini adalah langkah-langkah untuk mengekstrak tabel dari dokumen PDF menggunakan Aspose.PDF for Python.

Langkah-langkah untuk Mengurai Tabel dari PDF di Python

  1. Muatan file PDF yang berisi tabel menggunakan kelas Document.
  2. Loop melalui koleksi pages dari dokumen untuk memproses setiap halaman secara individu.
  3. Buat sebuah instance dari kelas TableAbsorber untuk mendeteksi dan mengekstrak tabel.
  4. Panggil metode visit() untuk mengidentifikasi tabel di halaman saat ini.
  5. Iterasi melalui daftar tabel yang diekstrak dan ambil baris serta sel.
  6. Akses textfragments dari setiap sel dan ekstrak teks menggunakan properti segments.
  7. Simpan data tabel yang diekstrak untuk analisis lebih lanjut atau tampilkan di konsol.
# Contoh kode ini menunjukkan bagaimana cara mengekstrak tabel dari dokumen PDF menggunakan Python.
import aspose.pdf as ap

# Muatan file PDF
document = pdf.Document("sample.pdf")

# Proses semua halaman
for page in document.pages:
    # Inisialisasi objek TableAbsorber
    absorber = ap.text.TableAbsorber()
    # Identifikasi tabel di halaman saat ini
    absorber.visit(page)
    # Loop melalui tabel yang diekstraksi
   for table in absorber.table_list:
        # Iterasi melalui semua baris di tabel
       for row in table.row_list:
            # Iterasi melalui semua kolom di baris
           for cell in row.cell_list:
                # Fetch the text fragments
                text_fragment_collection = cell.text_fragments
                # Iterasi melalui fragmen teks
               for fragment in text_fragment_collection:
                    # Print the text
                    print(fragment.text)

Dengan mengikuti langkah-langkah ini, Anda dapat mengekstrak tabel dari PDF dengan efisien, sehingga memudahkan pemrosesan dan analisis data terstruktur.

Mengurai Metadata PDF: Dapatkan Informasi File PDF di Python

Saat bekerja dengan PDF, sering kali perlu untuk mengambil metadata seperti penulis, tanggal pembuatan, kata kunci, dan judul. Aspose.PDF for Python membuat ini mudah dengan menyediakan akses ke objek DocumentInfo melalui properti Info dari kelas Document. Ini memungkinkan Anda untuk mengekstrak properti dokumen yang penting secara pemrograman.

Langkah-langkah untuk Mengurai Metadata PDF

  1. Gunakan kelas Document untuk membuka file PDF yang diinginkan.
  2. Ambil objek DocumentInfo menggunakan properti info.
  3. Akses rincian spesifik seperti penulis, tanggal pembuatan, judul, subjek, dan kata kunci.
  4. Cetak metadata atau simpan untuk pemrosesan lebih lanjut.

Skrip Python berikut menunjukkan cara mengambil dan menampilkan rincian kunci dari file PDF di Python:

# Contoh kode ini menunjukkan cara mengekstrak informasi file di Python
import aspose.pdf as ap

# Muat dokumen PDF
document = ap.Document("Sample.pdf")

# Ambil informasi dokumen
doc_info = document.info

# Tampilkan metadata dokumen
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")

Mengurai Gambar dari File PDF Menggunakan Python

Kami dapat mem-parsing dokumen PDF dan dengan efisien mengambil gambar yang tertanam di dalam dokumen. Kami dapat mengekstrak gambar berkualitas tinggi dari halaman tertentu dan menyimpannya secara terpisah untuk digunakan lebih lanjut.

Setiap halaman PDF menyimpan gambar-gambarnya di dalam koleksi sumber, khususnya di dalam koleksi XImage. Untuk mengekstrak gambar, akses halaman yang diinginkan, ambil gambar dari koleksi Images menggunakan indeksnya, dan simpan.

Langkah-langkah untuk Mengurai Gambar dari PDF di Python

  1. Load the PDF file containing an image using the Document class.
  2. Ambil halaman spesifik dari mana Anda ingin mengekstrak gambar.
  3. Akses koleksi Images dari resources halaman dan tentukan indeks gambar.
  4. Simpan gambar yang diekstrak menggunakan aliran.

Contoh kode berikut menunjukkan cara mengurai gambar dari PDF di Python.

# Contoh kode ini menunjukkan cara mengekstrak gambar dari PDF dalam Python
import aspose.pdf as ap

# Open document
document = ap.Document("Sample.pdf")

# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]

# Tentukan jalur gambar keluaran
output_image_path = "OutputImage.jpg"

# Simpan gambar yang diekstrak
with open(output_image_path, "wb") as output_image:
    output_image.write(x_image.to_stream().read())

Metode ini menyediakan cara yang mudah dan efisien untuk mengekstrak gambar dari PDF sambil mempertahankan kualitasnya. Dengan Aspose.PDF for Python, Anda dapat mengotomatiskan ekstraksi gambar untuk berbagai aplikasi, seperti document processing, pengarsipan data, dan analisis konten.

Cara Mengurai Anotasi PDF di Python

Annotasi dalam PDF meningkatkan interaksi dokumen dengan menambahkan sorotan, gambar, dan catatan tempel. Setiap jenis anotasi memiliki tujuan spesifik, dan Aspose.PDF for Python memudahkan untuk mengekstraknya untuk analisis atau pemrosesan.

Mengurai Anotasi Teks dari PDF di Python

Dokumen PDF sering kali mengandung anotasi teks, yang berfungsi sebagai komentar atau catatan yang dilampirkan pada lokasi tertentu di halaman. Ketika dilipat, anotasi ini muncul sebagai ikon, dan ketika diperluas, mereka menampilkan teks di dalam jendela pop-up. Setiap halaman dalam PDF memiliki koleksi Anotasi sendiri, yang menyimpan semua anotasi yang spesifik untuk halaman itu. Dengan memanfaatkan Aspose.PDF for Python, Anda dapat dengan efisien mengekstrak anotasi teks dari file PDF.

Langkah-langkah untuk Mengurai Anotasi Teks dari PDF

  1. Load dokumen PDF dengan kelas Document.
  2. Ambil properti annotations dari halaman tertentu untuk mendapatkan semua anotasi di halaman tersebut.
  3. Iterasi melalui anotasi dan filter yang memiliki AnnotationType.TEXT.
  4. Ambil informasi relevan seperti posisi anotasi (rect) untuk pemrosesan atau tampilan lebih lanjut.
import aspose.pdf as ap

# Muat dokumen PDF
document = ap.Document("annotations.pdf")

# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
        # Print annotation details
        print(f"Title: {annotation.full_name}")
        print(f"Contents: {annotation.contents}")
        print(f"Annotation Rectangle: {annotation.rect}")

Dengan mengikuti langkah-langkah ini, Anda dapat secara efisien mengekstrak dan memproses anotasi teks dari dokumen PDF di Python.

Jelajahi lebih lanjut tentang bekerja dengan PDF Text Annotation di Python dengan mengunjungi panduan resmi.

Mengurai Teks yang Disorot dari PDF di Python

Dalam banyak kasus, Anda mungkin perlu mengekstrak hanya teks yang disorot dari PDF daripada seluruh konten. Apakah Anda menganalisis catatan penting, merangkum poin kunci, atau mengotomatiskan pemrosesan dokumen, Aspose.PDF for Python memudahkan untuk mengambil teks yang disorot dengan efisien.

Sorotan anotasi menandai bagian teks penting, biasanya digunakan untuk ulasan atau catatan belajar. Anda dapat mengekstrak teks yang disorot dan propertinya, seperti warna dan posisi, menggunakan kelas HighlightAnnotation.

Kami dapat mem-parsing anotasi teks yang disorot dalam dokumen PDF dengan mengikuti langkah-langkah yang disebutkan sebelumnya. Namun, kami hanya perlu menyebutkan AnnotationType.HIGHLIGHT pada langkah 3.

Contoh berikut menunjukkan bagaimana cara memfilter dan mengekstrak teks yang disorot dari PDF.

import aspose.pdf as ap

# Load the PDF document
document = ap.Document("annotations.pdf")

# Loop melalui semua anotasi pada halaman pertama
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
        # Cetak rincian anotasi
        print(f"Title: {annotation.full_name}")
        print(f"Annotation Rectangle: {annotation.rect}")

Pelajari lebih lanjut tentang bekerja dengan PDF Highlights Annotation di Python dengan mengunjungi panduan resmi.

Parsing PDF Figures Annotation in Python

Annotasi gambar mencakup elemen grafis seperti bentuk, gambar, atau cap yang digunakan untuk penekanan atau penjelasan. Mengekstrak anotasi ini melibatkan mengidentifikasi objek InkAnnotation atau StampAnnotation dan mengambil jalur gambar atau gambar mereka.

Untuk mem-parsing anotasi garis dalam dokumen PDF, ikuti langkah-langkah yang telah dijabarkan sebelumnya. Satu-satunya modifikasi yang diperlukan adalah menentukan AnnotationType.LINE pada langkah 3.

Contoh berikut menunjukkan cara menganalisis anotasi garis dalam PDF menggunakan Python.

import aspose.pdf as ap

# Muat dokumen PDF tersebut
document = ap.Document("annotations.pdf")

# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
        # Cetak rincian anotasi
        print(f"Annotation Rectangle: {annotation.rect}")

Baca lebih lanjut tentang working with PDF Figures Annotations in Python here.

Link anotasi dalam PDF memungkinkan pengguna untuk bernavigasi dengan lancar dalam dokumen, membuka file eksternal, atau mengunjungi halaman web langsung dari PDF. Superlink ini meningkatkan interaktivitas dan memperbaiki pengalaman pengguna dengan memberikan akses cepat ke informasi tambahan.

Untuk mengekstrak anotasi tautan dari PDF, ikuti langkah yang sama seperti sebelumnya, tetapi pada langkah 3, pastikan untuk menentukan AnnotationType.LINK. Ini memastikan bahwa hanya anotasi tautan yang diambil.

Contoh kode berikut menunjukkan cara menganalisis anotasi tautan dalam PDF menggunakan Python.

import aspose.pdf as ap

# Load the PDF document
document = ap.Document("annotations.pdf")

# Loop melalui semua anotasi di halaman pertama
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
        # Print annotation details
        print(f"Annotation Rectangle: {annotation.rect}")

Dengan memanfaatkan Aspose.PDF for Python, Anda dapat secara efisien mengekstrak dan memanipulasi anotasi tautan untuk berbagai kasus penggunaan, seperti mengindeks dokumen atau meningkatkan navigasi.

Baca detail lengkap tentang handling Link Annotations in PDFs here.

Kesimpulan

Aspose.PDF for Python adalah pustaka pengurai PDF Python terbaik untuk pengembang yang membutuhkan solusi yang dapat diandalkan, efisien, dan kaya fitur untuk mengurai PDF. Baik Anda perlu mengurai teks, tabel, gambar, metadata, atau anotasi, Aspose.PDF menyediakan alat yang diperlukan.

Cobalah kode contoh yang diberikan dan mulai parsing PDF serta menyederhanakan tugas parsing PDF Anda di Python!

Jika ada pertanyaan atau membutuhkan bantuan lebih lanjut, silakan hubungi kami di free support forum.

Lihat Juga