แยกข้อความจาก PDF ใน Python

ในฐานะโปรแกรมเมอร์ คุณอาจต้องประมวลผลไฟล์ PDF จำนวนมากและแยกข้อความออกจากไฟล์เหล่านั้น อาจจำเป็นต้องแยกข้อความจาก PDF เพื่อวัตถุประสงค์ต่างๆ เช่น การวิเคราะห์ข้อความ ในบทความนี้ เราจะแสดงให้เห็นว่าการแยกข้อความจากไฟล์ PDF ใน Python นั้นง่ายเพียงใด นอกจากนี้ คุณจะได้รู้วิธีแยกข้อความและบันทึกเป็นไฟล์ TXT

Python Library เพื่อแยกข้อความจาก PDF - ดาวน์โหลดฟรี

Aspose.Words for Python เป็นไลบรารี่ที่ยอดเยี่ยมที่ช่วยให้คุณสร้างและประมวลผลเอกสารข้อความได้อย่างราบรื่น คุณสามารถจัดการเอกสารในรูปแบบยอดนิยม เช่น DOC, DOCX และ PDF เราจะใช้ไลบรารีนี้เพื่อดำเนินการแยกข้อความในไฟล์ PDF ของเรา คุณสามารถติดตั้งไลบรารีได้จาก PyPI โดยใช้คำสั่ง pip ต่อไปนี้

> pip install aspose-words

วิธีแยกข้อความจาก PDF ใน Python

Aspose.Words for Python ทำให้การแยกข้อความ PDF เป็นเรื่องง่ายมากโดยการซ่อนการดำเนินการที่ซับซ้อนจากผู้ใช้ คุณต้องโหลดไฟล์ PDF และบันทึกข้อความที่แยกออกมาเท่านั้น ขั้นตอนต่อไปนี้สาธิตวิธีแยกข้อความจาก PDF โดยใช้ Aspose.Words for Python

  • โหลดไฟล์ PDF จากตำแหน่งที่ต้องการ
  • แยกและบันทึกข้อความลงในไฟล์ .txt

และนั่นคือมัน จากนั้น คุณสามารถประมวลผลไฟล์ .txt และจัดการข้อความธรรมดาที่ดึงมาจาก PDF

มาดูวิธีแยกข้อความจาก PDF โดยทางโปรแกรมใน Python

การแยกข้อความจาก PDF ใน Python

ต่อไปนี้เป็นขั้นตอนพร้อมกับคลาสและวิธีการแยกข้อความ PDF ใน Python

  • โหลดไฟล์ PDF โดยใช้คลาส Document
  • แยกข้อความจาก PDF เป็นไฟล์ .txt โดยใช้วิธี Document.save(fileName)

ตัวอย่างโค้ดต่อไปนี้แสดงการดึงข้อความจากไฟล์ PDF ใน Python

# นำเข้า Aspose.Words สำหรับโมดูล Python
import aspose.words as aw

# โหลดไฟล์ PDF
pdf = aw.Document("file.pdf")

# แยกและบันทึกข้อความในไฟล์ TXT
pdf.save("extracted-text.txt")

ภาพหน้าจอต่อไปนี้แสดงไฟล์ PDF อินพุตที่เราใช้ในการแยกข้อความ

PDF เพื่อแยกข้อความใน Python

ภาพหน้าจอต่อไปนี้แสดงข้อความที่แยกออกมาในไฟล์ TXT

แยกข้อความจาก PDF เป็น TXT

PDF Text Extractor สำหรับ Python - รับใบอนุญาตฟรี

คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี เพื่อแยกข้อความจาก PDF โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อความจากไฟล์ PDF ใน Python คุณได้เห็นแล้วว่าคุณสามารถแยกข้อความจาก PDF และบันทึกเป็นไฟล์ TXT โดยทางโปรแกรมได้ง่ายและรวดเร็วเพียงใด ตอนนี้ คุณสามารถใช้การแยกข้อความสำหรับชุดไฟล์ PDF ในแอปพลิเคชัน Python ของคุณ

สำรวจตัวแยกข้อความ PDF ของ Aspose สำหรับ Python

คุณสามารถสำรวจคุณลักษณะอื่นๆ ของ Aspose.Words for Python โดยใช้ เอกสารประกอบ ในกรณีที่คุณมีคำถามใดๆ โปรดแจ้งให้เราทราบผ่านทาง ฟอรัม ของเรา

ดูสิ่งนี้ด้วย