ekstrak teks dari pdf java

Dalam posting ini, Anda akan belajar cara mengekstrak teks dari file PDF secara mulus menggunakan Java. Ekstraksi teks dapat berguna dalam berbagai skenario seperti analisis teks, pencarian informasi, penguraian dokumen, dan sebagainya. Karena PDF adalah salah satu dokumen digital yang paling banyak digunakan, kasus penggunaan ekstraksi teks dari dokumen PDF lebih banyak jumlahnya. Jadi mari kita mulai dan periksa bagaimana melakukan ekstraksi teks PDF dari dalam aplikasi Java.

Java API untuk Mengekstrak Teks dari PDF - Unduhan Gratis

Aspose.PDF for Java adalah API manipulasi file PDF terkenal yang menyediakan berbagai fitur untuk membuat dan memproses file PDF. API berisi ekstraktor teks yang kuat yang menyediakan berbagai cara untuk mengekstraksi teks dari dokumen PDF dalam beberapa baris kode. Anda dapat mengunduh JAR API atau menginstalnya dalam aplikasi berbasis Maven menggunakan konfigurasi berikut.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>20.11</version>
</dependency>

Ekstrak Teks dari PDF menggunakan Java

Berikut langkah-langkah mengekstrak teks dari dokumen PDF menggunakan Aspose.PDF for Java.

Contoh kode berikut menunjukkan cara mengekstrak teks dari PDF menggunakan Java.

// Untuk contoh lengkap dan file data, silakan buka https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// Buka dokumen
Document pdfDocument = new Document("input.pdf");

// Buat objek TextAbsorber untuk mengekstrak teks
TextAbsorber textAbsorber = new TextAbsorber();

// Terima penyerap untuk semua halaman
pdfDocument.getPages().accept(textAbsorber);

// Dapatkan teks yang diekstraksi
String extractedText = textAbsorber.getText();

// Buat penulis dan buka file
java.io.FileWriter writer = new java.io.FileWriter(new java.io.File("Extracted_text.txt"));
writer.write(extractedText);

// Tulis sebaris teks ke file tw.WriteLine(extractedText);
// Tutup alirannya
writer.close();

Ekstrak Teks dari Halaman Tertentu dalam PDF

Anda juga dapat mengekstrak teks dari halaman tertentu dokumen PDF menggunakan langkah-langkah berikut.

Contoh kode berikut menunjukkan cara mengekstrak teks dari halaman tertentu dalam PDF menggunakan Java.

// Untuk contoh lengkap dan file data, silakan buka https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// buka dokumen
Document pdfDocument = new Document("input.pdf");
// membuat perangkat teks
TextDevice textDevice = new TextDevice();

// setel opsi ekstraksi teks - setel mode ekstraksi teks (Raw atau Pure)
TextExtractionOptions textExtOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);

textDevice.setExtractionOptions(textExtOptions);

// dapatkan teks dari halaman pertama PDF dan simpan ke format file
textDevice.process(pdfDocument.getPages().get_Item(1), "ExtractedText.txt");

Ekstrak Teks dari Wilayah Halaman dalam PDF

Anda juga dapat mengekstrak teks dari wilayah tertentu di halaman dalam PDF. Untuk ini, Anda dapat menentukan persegi panjang untuk menutupi wilayah tempat Anda perlu mengekstrak teks. Berikut ini adalah langkah-langkah untuk mengekstrak teks dari wilayah halaman.

Contoh kode berikut menunjukkan cara mengekstrak teks dari wilayah halaman tertentu di Java.

// Untuk contoh lengkap dan file data, silakan buka https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// buka dokumen
Document doc = new Document("page_0001.pdf");

// buat objek TextAbsorber untuk mengekstrak teks
TextAbsorber absorber = new TextAbsorber();
absorber.getTextSearchOptions().setLimitToPageBounds(true);
absorber.getTextSearchOptions().setRectangle(new Rectangle(100, 200, 250, 350));
// menerima penyerap untuk halaman pertama
doc.getPages().get_Item(1).accept(absorber);

// mendapatkan teks yang diekstraksi
String extractedText = absorber.getText();
// buat penulis dan buka file
BufferedWriter writer = new BufferedWriter(new FileWriter(new java.io.File("ExtractedText.txt")));
// menulis konten yang diekstrak
writer.write(extractedText);
// Tutup penulis
writer.close();

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari PDF menggunakan Java. Anda telah melihat berbagai cara ekstraksi teks seperti mengekstraksi teks dari seluruh PDF, halaman tertentu, atau wilayah halaman tertentu. Anda dapat mempelajari lebih lanjut tentang Java PDF API menggunakan dokumentasi.

Lihat juga

Info: Aspose baru-baru ini mengembangkan layanan Teks ke GIF online gratis yang memungkinkan Anda menganimasikan teks atau menghasilkan GIF dari teks sederhana.