Извлечение текста из PDF JavaScript | PDF JS Извлечение текста

Использование JavaScript для извлечения текста из PDF очень полезно для извлечения данных, автоматизации бизнес-документов и текстовой аналитики. Это позволяет разработчикам автоматизировать процесс сбора информации из PDF-файлов, что может значительно повысить продуктивность и эффективность работы с большим объемом документов. В этом блоге мы узнаем, как извлечь текст из PDF с помощью JavaScript. Независимо от того, хотите ли вы упростить рабочий процесс, улучшить анализ данных или просто автоматизировать повторяющиеся задачи, это руководство поможет вам эффективно извлекать текст из PDF с помощью JavaScript.

В этой статье рассматриваются следующие темы:

  1. Библиотека PDF JavaScript для извлечения текста
  2. Извлечение текста из PDF на JavaScript
  3. Попробуйте онлайн-конвертер PDF в текст
  4. Бесплатные ресурсы

Библиотека PDF JavaScript для извлечения текста

Мы будем использовать Aspose.PDF для JavaScript для извлечения текста из PDF-файла с помощью JavaScript. Это мощная библиотека PDF, которая предлагает надежный функционал для работы с PDF-файлами в JavaScript. Она поддерживает широкий спектр задач по манипуляции PDF, включая извлечение текста, создание и редактирование документов. Aspose.PDF для JavaScript проста в использовании и предоставляет разработчикам понятный API для эффективного выполнения сложных операций с PDF.

Пожалуйста, скачайте библиотеку и следуйте инструкциям по установке, приведенным здесь: Установите Aspose.PDF для JavaScript.

Извлечение текста из PDF на JavaScript

Мы можем легко извлечь текст из PDF на JavaScript в веб-приложении. Для этого нам нужно загрузить PDF-файл, а затем извлечь текст. Ресурсоемкая задача по извлечению текста будет передана в поток веб-работника, что предотвратит блокировку основного потока пользовательского интерфейса. Таким образом, наше приложение-конвертер становится удобным для пользователя, и процесс скачивания через конвертацию упрощается.

Пожалуйста, следуйте следующим шагам, чтобы извлечь текст из PDF на JavaScript:

  1. Создайте веб-работника с помощью следующего фрагмента кода:
/*Create Web Worker*/
const AsposePDFWebWorker = new Worker("AsposePDFforJS.js");
AsposePDFWebWorker.onerror = evt => console.log(`Error from Web Worker: ${evt.message}`);
AsposePDFWebWorker.onmessage = evt => document.getElementById('output').textContent =
(evt.data == 'ready') ? 'loaded!' :
(evt.data.json.errorCode == 0) ?
evt.data.json.extractText :
`Error: ${evt.data.json.errorText}`;
/*Event handler*/
const ffileExtract = e => {
const file_reader = new FileReader();
file_reader.onload = event => {
/*Extract text from a PDF-file - Ask Web Worker*/
AsposePDFWebWorker.postMessage(
{ "operation": 'AsposePdfExtractText', "params": [event.target.result, e.target.files[0].name] },
[event.target.result]
);
};
file_reader.readAsArrayBuffer(e.target.files[0]);
};
  1. Извлеките текст из PDF-файла, следуя следующим шагам:
  • Выберите входной PDF-файл.
  • Создайте новый объект FileReader.
  • Затем вызовите функцию AsposePdfExtractText, которая извлекает текст из PDF-файла.
  • После этого проверьте, если json.errorCode равен 0, то json.extractText будет содержать извлеченный контент. В противном случае будет ошибка, и сообщение об ошибке будет записано в файл json.errorText.
  • Наконец, вы получите строку с извлеченным текстом из вашего PDF.

Следующий пример кода показывает как извлечь текст из PDF-файла с помощью JavaScript.

var ffileExtract = function (e) {
const file_reader = new FileReader();
file_reader.onload = (event) => {
/*Extract text from a PDF-file*/
const json = AsposePdfExtractText(event.target.result, e.target.files[0].name);
if (json.errorCode == 0) document.getElementById('output').textContent = json.extractText;
else document.getElementById('output').textContent = json.errorText;
};
file_reader.readAsArrayBuffer(e.target.files[0]);
};

Ознакомьтесь с нашей полной статьей о конвертации TXT в PDF с помощью JavaScript.

Получите бесплатную лицензию на библиотеку JavaScript PDF

Получите бесплатную временную лицензию и разблокируйте весь потенциал этой библиотеки JavaScript PDF без ограничений. Погружайтесь и исследуйте все ее возможности на ваше усмотрение!

Попробуйте онлайн-конвертер PDF в текст

Вы также можете извлечь текст из PDF-файла онлайн, используя этот бесплатный конвертер PDF в текст инструмент. Этот мощный инструмент предлагает бесшовную конвертацию PDF в TXT, что делает его незаменимым ресурсом для всех, кто нуждается в извлечении текста из PDF-документов.

Этот удобный, высококачественный конвертер позволяет вам быстро и эффективно извлекать текст из PDF. Без необходимости установки и с акцентом на безопасность, это идеальное решение как для частных лиц, так и для бизнеса.

PDF JS Извлечение текста – Учебные ресурсы

Помимо извлечения текста из PDF на JavaScript, погружайтесь глубже в создание, манипулирование и конвертацию PDF-файлов. Изучите все возможности библиотеки через следующие ресурсы:

Заключение

В этом блоге мы узнали, как извлечь текст из PDF на JavaScript. Извлечение текста из PDF с помощью JavaScript – мощная техника, которая может значительно улучшить ваши веб-приложения и автоматизированные рабочие процессы. Используя Aspose.PDF для JavaScript, вы можете эффективно читать и извлекать текст из PDF-документа. Если у вас есть вопросы, не стесняйтесь обращаться к нам через наш бесплатный форум поддержки.

См. также