PDF 파일은 텍스트, 이미지, 애니메이션, 비디오 및 기타 여러 주석을 지원하기 때문에 널리 사용됩니다. 그러나 텍스트는 대부분의 PDF 문서에서 가장 중요한 부분입니다. 이 기사에서는 C# .NET을 사용하여 PDFTXT 파일로 변환하고 TXT 파일을 PDF 형식으로 변환합니다. 이 변환은 PDF 문서의 텍스트 내용에만 관심이 있는 상황에서 유용합니다. 향후 주제에 대한 개요를 보려면 다음 제목을 살펴보겠습니다.

팁: 텍스트에서 애니메이션을 생성할 수 있는 무료 텍스트를 GIF로 변환에 관심이 있을 수 있습니다.

TXT에서 PDF로 또는 PDF에서 TXT로 변환기

PDF에서 TXT로 변환 및 TXT 파일에서 PDF로 변환은 문서에 사용된 텍스트 문자열이 주요 관심사일 때 매우 유용합니다. Aspose.PDF for .NET API를 사용하여 몇 가지 간단한 단계를 거쳐 이러한 파일 형식을 서로 변환할 수 있습니다. .NET 프레임워크 기반 API이기 때문에 C# 및 VB.NET 프로그래밍 언어로 작업할 수 있습니다. 다운로드 또는 NuGet 갤러리를 통해 DLL 파일을 다운로드하여 .NET 애플리케이션에 API를 쉽게 설치할 수 있습니다.

API를 성공적으로 설치한 후 두 가지 접근 방식을 사용하여 PDF 파일을 TXT 파일로 변환해 보겠습니다.

C# 또는 VB.NET을 사용하여 서식을 지정하지 않고 PDF를 TEXT 파일로 변환

우선, 포맷 루틴 없이 PDF를 텍스트로 변환합니다. 텍스트 내용은 있는 그대로 변환됩니다. 따라서 출력 텍스트는 입력 PDF 파일의 형식을 따르지 않습니다. 높은 효율성과 안정성으로 PDF를 TXT로 변환하려면 아래 단계를 따라야 합니다.

  1. 입력 PDF 문서 로드
  2. StringBuilder 클래스의 인스턴스 초기화
  3. PDF 문서의 각 페이지를 반복합니다.
  4. TextDeviceRaw 모드를 사용하여 텍스트 읽기
  5. 출력 텍스트를 TXT 파일로 저장

아래 코드 조각은 .NET Framework에서 C# 또는 VB를 사용하여 PDF를 TXT 파일로 변환하는 방법을 보여줍니다.

// 문서 열기
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// 추출된 텍스트를 저장할 문자열
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // 텍스트 장치 만들기
        TextDevice textDevice = new TextDevice();

        // 다른 옵션 설정
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // 페이지를 변환하고 스트림에 텍스트 저장
        textDevice.Process(pdfPage, textStream);

        // 메모리 스트림 닫기
        textStream.Close();

        // 메모리 스트림에서 텍스트 가져오기
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// 텍스트 파일 저장
File.WriteAllText(dataDir, builder.ToString());

C# 또는 VB.NET을 사용하여 서식 지정 루틴을 사용하여 PDF를 TXT 파일로 변환

이제 약간의 서식 지정 루틴을 사용하여 PDF를 텍스트로 변환해야 하는 사용 사례를 살펴보겠습니다. 예를 들어 단락 들여쓰기, 탭, 스타일 또는 열 형식 서식이 있습니다. 아래 단계에 따라 PDF 문서의 텍스트 내용을 C#을 사용하여 TXT 파일로 쉽게 렌더링할 수 있습니다.

  1. 소스 PDF 파일 로드
  2. 문자열 변수 시작
  3. TextFormattingMode.Pure를 사용하여 각 페이지를 읽습니다.
  4. 변환된 TXT 파일 저장

다음 코드 조각은 C# 또는 VB.NET 언어를 사용하여 형식을 지정하여 PDF를 TXT 파일로 변환하는 방법을 보여줍니다.

// 문서 열기
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// 추출된 텍스트를 저장할 문자열
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // 텍스트 장치 만들기
        TextDevice textDevice = new TextDevice();

        // 다른 옵션 설정
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // 페이지를 변환하고 스트림에 텍스트 저장
        textDevice.Process(pdfPage, textStream);

        // 메모리 스트림 닫기
        textStream.Close();

        // 메모리 스트림에서 텍스트 가져오기
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// 텍스트 파일 저장
File.WriteAllText(dataDir, builder.ToString());

PURE 및 RAW 텍스트 변환의 시각적 비교

다음 스크린샷은 방금 논의한 두 가지 접근 방식을 시각적으로 비교한 것입니다. 순수 모드(가장 오른쪽 창)는 PDF 파일(가장 왼쪽 창)과 동일한 형식의 텍스트를 표시합니다.

PDF TXT csharp 변환

입력 및 출력 파일의 이 스크린샷을 통해 가장 적합한 변환 접근 방식을 결정할 수 있습니다.

C# 또는 VB.NET을 사용하여 프로그래밍 방식으로 TXT 파일을 PDF로 변환

TXT 파일은 종종 거대한 텍스트 내용을 포함합니다. .NET API용 Aspose.PDF를 사용하여 TXT 파일을 PDF 파일로 쉽게 변환할 수 있습니다. 아래 단계에 따라 텍스트를 PDF로 변환하기만 하면 됩니다.

  1. TextReader 클래스의 인스턴스 생성
  2. PDF 문서 초기화 및 빈 페이지 추가
  3. TextBuilder 개체 인스턴스화
  4. 입력 TXT 파일에서 각 텍스트 줄 읽기
  5. 출력 PDF 파일 저장

아래 코드 조각은 프로그래밍 방식으로 텍스트가 포함된 TXT 파일을 C# 또는 VB.NET 언어를 사용하여 PDF 문서로 변환하는 방법을 설명합니다.

// 입력 TXT 파일 읽기
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// 새 문서 초기화
Document doc = new Document();

// 빈 페이지 추가
Page page = doc.Pages.Add();
String strLine;

// TextBuilder 개체 시작
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// 출력 PDF 파일 저장
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

결론

이 기사에서는 PDF 파일의 텍스트를 TXT 파일 형식으로 변환하는 방법을 배우고 탐구했습니다. 또한 .NET Framework에서 C# 또는 VB를 사용하여 TXT 파일의 텍스트를 PDF 문서로 변환했습니다. PDF 및 TXT 파일을 매우 효율적이고 빠르게 변환할 수 있습니다. 그러나 우려 사항이나 질문이 있는 경우 무료 지원 포럼에 답장을 보내거나 제품 설명서를 탐색하십시오. 우리는 당신의 의견을 듣고 싶습니다!

또한보십시오