แยกข้อความจาก PDF ใน Python

ขณะประมวลผลไฟล์ PDF คุณมักจะต้องแยกเนื้อหาออกจากหน้าเป็นข้อความล้วน ข้อความธรรมดานี้สามารถนำไปใช้เพื่อวัตถุประสงค์ต่างๆ ได้อีก เช่น การวิเคราะห์ข้อความ การประมวลผลข้อความ เป็นต้น ในบทความนี้ คุณจะได้เรียนรู้วิธีแยกข้อความจาก PDF ใน Python ด้วยความช่วยเหลือของตัวอย่างโค้ด บทความจะสาธิตวิธีการแยกข้อความใน PDF ทั้งหมดหรือหน้าเดียว

Python Library เพื่อแยกข้อความจาก PDF

ในการแยกข้อความจากไฟล์ PDF เราจะใช้ Aspose.PDF for Python เป็นไลบรารีการจัดการ PDF ที่ทรงพลังซึ่งช่วยให้คุณสร้างและประมวลผลไฟล์ PDF นอกจากนี้ยังช่วยให้คุณสามารถแปลงไฟล์ PDF เป็นรูปแบบอื่นๆ

คุณสามารถติดตั้ง Aspose.PDF for Python โดยใช้คำสั่ง pip ต่อไปนี้

pip install aspose-pdf

แยกข้อความจาก PDF ใน Python

ต่อไปนี้เป็นขั้นตอนในการแยกข้อความจาก PDF ใน Python

  • ใช้คลาสเอกสารเพื่อโหลดไฟล์ PDF
  • สร้างอินสแตนซ์ของคลาส TextDevice
  • เริ่มวนซ้ำตามจำนวนหน้า
  • ในการวนซ้ำแต่ละครั้ง ให้แยกข้อความจากหน้าโดยใช้เมธอด TextDevice.process() และบันทึกข้อความที่แยกออกมาในไฟล์ .txt

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจาก PDF ใน Python

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# เปิดเอกสาร PDF
document = ap.Document("input.pdf")

# สร้างอุปกรณ์ข้อความ
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # ส่งออกหน้าเป็น TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

แยกข้อความจากหน้าเฉพาะใน PDF

คุณยังสามารถแยกข้อความจากหน้าเฉพาะของ PDF โดยใช้หมายเลขหน้าในอาร์เรย์ Document.pages ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากหน้าเฉพาะใน PDF

import aspose.pdf as ap

# เปิดเอกสาร PDF
document = ap.Document("input.pdf")

# สร้างอุปกรณ์ข้อความ
textDevice = ap.devices.TextDevice()

# แยกข้อความจากหน้าแรก
textDevice.process(document.pages[1], "extracted_text.txt")

แยกข้อความจาก PDF ออนไลน์

คุณยังสามารถใช้เครื่องมือแยกข้อความ PDF ออนไลน์ เพื่อแยกข้อความจากไฟล์ PDF เป็นเครื่องมือฟรีที่คุณสามารถใช้ได้โดยไม่ต้องสมัครสมาชิกหรือลงทะเบียนใดๆ

ห้องสมุดแยกข้อความ PDF ฟรี

รับ ใบอนุญาตชั่วคราวฟรี และแยกข้อความจากไฟล์ PDF โดยไม่มีข้อจำกัดใดๆ

สำรวจห้องสมุด Python PDF

คุณสามารถสำรวจเพิ่มเติมเกี่ยวกับไลบรารี Python PDF โดยใช้ เอกสารประกอบ นอกจากนี้ คุณสามารถโพสต์คำถามของคุณไปที่ ฟอรัม ของเรา

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อความจาก PDF ใน Python ขั้นตอนและตัวอย่างโค้ดได้สาธิตวิธีแยกข้อความจาก PDF ทั้งหมดหรือเฉพาะบางหน้า คุณสามารถติดตั้งไลบรารีและทำการแยกข้อความจากภายในแอปพลิเคชัน Python ของคุณได้อย่างง่ายดาย

ดูสิ่งนี้ด้วย