作為程式設計師,您通常必須以純文字形式從 PDF 文件中提取內容以進行進一步處理,例如分析和資訊提取。如果沒有合適的工具,處理 PDF 檔案並將整個 PDF 轉換為 TXT 格式是一項麻煩的任務。因此,在本部落格中,我們將探討如何使用 C# 以程式設計方式將 PDF 檔案轉換為 TXT 格式。
用於 PDF 到 TXT 轉換的 C# 庫
Aspose.Words for .NET 是一個令人驚嘆的文件處理 API,它允許開發人員處理 Word 文件以及各種其他格式,包括 PDF。憑藉其廣泛的功能集,Aspose.Words 簡化了文件操作、轉換和生成任務。我們將利用該程式庫在 .NET 應用程式中將 PDF 檔案轉換為 TXT 格式。
您可以使用以下命令從 NuGet 安裝該庫。或從 Releases 部分下載其 DLL。
PM> Install-Package Aspose.Words
在 C# 中將 PDF 轉換為 TXT
Aspose.Words for .NET 隱藏了從 PDF 檔案中提取文字的所有複雜操作,並使您能夠透過幾個步驟執行 PDF 到 TXT 的轉換,如下所述。
- 載入 PDF 文件。
- 透過單一函數呼叫將 PDF 轉換為 TXT 格式。
因此,只需幾行程式碼,您就可以將 PDF 文件中的內容轉換為純文字,無論來源 PDF 有多大。現在讓我們用 C# 編寫程式碼來執行此轉換。
- 首先,使用 Document 類別載入 PDF。
- 然後,使用 Document.Save(filePath) 方法將文件儲存為 TXT 檔案。
以下 C# 程式碼片段將 PDF 轉換為 TXT 格式。
// 載入 PDF 文件
Document pdf = new Document("document.pdf");
// 將 PDF 儲存為 TXT
pdf.Save("pdf.txt", SaveFormat.Text);
取得免費的 API 許可證
您可以獲得免費臨時許可證,將 PDF 文件轉換為 TXT 格式,沒有評估限制。
結論
在這篇文章中,我們探討如何使用 Aspose.Words for .NET 函式庫在 C# 中將 PDF 轉換為 TXT。遵循指南並使用程式碼片段,您可以輕鬆處理大型 PDF 文件並將其轉換為純文字。 Aspose.Words 簡化了文件處理任務,使其成為在應用程式中處理各種文件格式的開發人員的寶貴工具。您可以存取此 .NET 文字處理庫的文件來探索其令人驚嘆的功能。如果您有任何疑問,請隨時透過我們的論壇告訴我們。