ไฟล์ PDF ที่สแกนมีรูปภาพที่ไม่สามารถเลือกหรือแก้ไขข้อความได้ ในบางสถานการณ์ คุณอาจต้องแปลงเอกสาร PDF ที่สแกนเป็น Word ในบทความนี้ คุณจะได้เรียนรู้วิธีแปลงเอกสาร PDF ที่สแกนเป็น Word ในรูปแบบ DOCX หรือ DOC โดยใช้ภาษา C#:
- สแกน PDF เป็น Word DOCX Converter - การติดตั้ง C # API
- แปลง PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ C#
สแกน PDF เป็น Word DOCX Converter - การติดตั้ง C # API
คุณสามารถทำงานกับไฟล์ PDF ที่สแกนโดยดำเนินการ OCR ด้วย Aspose.OCR for .NET API จากนั้นสร้างเอกสาร Word โดยใช้ Aspose.Words for .NET API โดยทางโปรแกรมโดยใช้ C# คุณสามารถกำหนดค่า API ได้โดยการดาวน์โหลดไฟล์ DLL จาก New Releases หรือด้วยคำสั่งติดตั้ง NuGet ต่อไปนี้:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
แปลง PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ C#
คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ได้โดยการจดจำข้อความด้วยสายตา การดำเนินการ OCR จะแปลง PDF ที่สแกนเป็นข้อความ จากนั้นเอกสาร Word จะถูกสร้างขึ้นในรูปแบบ DOC หรือ DOCX โปรดทำตามขั้นตอนด้านล่างเพื่อแปลง PDF ที่สแกนเป็นเอกสาร Word:
- เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
- จดจำรูปภาพจาก PDF ด้วยคลาส DocumentRecognitionSettings
- เริ่มต้นวัตถุคลาส StringBuilder และบันทึกข้อความ
- เริ่มต้นเอกสารคำด้วยคลาส Document
- ระบุแบบอักษรและการจัดรูปแบบย่อหน้า
- บันทึกเอกสาร Word เอาต์พุตเป็นไฟล์ DOCX หรือ DOC
ข้อมูลโค้ดต่อไปนี้แสดงวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ C#:
// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();
// จดจำรูปภาพจาก PDF ด้วยคลาส DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// บันทึกผลการรับรู้
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// เริ่มต้นวัตถุคลาส StringBuilder
StringBuilder text = new StringBuilder();
// บันทึกผลลัพธ์เป็นข้อความ
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// เริ่มต้นเอกสารคำด้วยคลาสเอกสาร
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// ระบุการจัดรูปแบบตัวอักษร
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// ระบุการจัดรูปแบบย่อหน้า
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// บันทึกเอกสาร Word ที่ส่งออก
doc.Save("Scanned_PDF_to_Word.docx");
รับใบอนุญาตการประเมินฟรี
คุณสามารถทดสอบ API ได้อย่างเต็มประสิทธิภาพโดยขอ ใบอนุญาตชั่วคราวฟรี
บทสรุป
ในบทความนี้ คุณได้เรียนรู้วิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ในรูปแบบ DOCX หรือ DOC โดยทางโปรแกรมโดยใช้ C# นอกจากนี้ คุณยังสามารถสำรวจคุณสมบัติอื่นๆ ที่เกี่ยวข้องกับ OCR ได้โดยไปที่ เอกสารประกอบ โปรดติดต่อเราได้ที่ ฟอรัม ในกรณีที่มีข้อสงสัยใดๆ
ดูสิ่งนี้ด้วย
เคล็ดลับ: หากคุณต้องการรับเอกสาร Word จากงานนำเสนอ PowerPoint คุณสามารถใช้ตัวแปลง Aspose Presentation to Word Document ได้