Изображение в DOCX OCR C++

Изображения и отсканированные документы могут содержать текстовую информацию, которая может потребоваться для дальнейшей обработки. Возможно, вы сделали снимки текстовых документов с помощью смартфона, которые хотите преобразовать в редактируемые документы. Для этого может оказаться полезным выполнение OCR на изображениях. С помощью OCR вы можете преобразовывать изображения в доступные для поиска и редактирования документы Word. С этой целью эта статья научит вас преобразовывать изображения в документы Word с помощью C++.

C++ API для преобразования изображений в документы Word

Aspose.OCR for C++ — это API оптического распознавания символов, который может извлекать текст из изображений. API также позволяет преобразовывать изображения в документы Word, такие как файлы DOC, DOCX и TXT. Вы можете либо установить API через NuGet, либо загрузить его напрямую из раздела Загрузки.

PM> Install-Package Aspose.OCR.Cpp

Преобразование изображения в документ Word с помощью C++

Часто вам может понадобиться искать или редактировать текст в изображениях, но вы не можете этого сделать. Выполняя распознавание таких изображений и преобразовывая их в документы Word, вы можете искать и редактировать текст по мере необходимости. Для этого выполните шаги, указанные ниже.

В следующем примере кода показано, как преобразовать изображение в документ Word с помощью C++:

// Путь к исходному файлу
std::string image_path = "SourceDirectory\\sample.png";

// Подготовить буфер для результата (в символах len_byte = len * sizeof(wchar_t))
const size_t len = 4096;
wchar_t buffer[len] = { 0 };

// Задайте настройки распознавания
RecognitionSettings settings;
settings.save_format = file_format::docx;

// Выполните операцию OCR и сохраните выходной файл.
asposeocr_page_save(image_path.c_str(), "OutputDirectory\\ImageToDocx.Docx", settings);
Скриншот исходного изображения и выходного файла Word

Скриншот исходного изображения и выходного файла Word

Преобразование искаженного изображения в документ Word с помощью C++

Изображения и отсканированные документы иногда могут быть перекошены. С помощью Aspose.OCR для C++ API вы можете выполнять распознавание искаженных изображений. Ниже приведены шаги для преобразования перекошенного изображения в документ Word:

В следующем примере кода показано, как преобразовать перекошенное изображение в документ Word с помощью C++:

// Путь к исходному файлу
std::string image_path = "SourceDirectory\\skewSample.png";

// Подготовить буфер для результата (в символах len_byte = len * sizeof(wchar_t))
const size_t len = 4096;
wchar_t buffer[len] = { 0 };

// Вычислить угол наклона
std::double_t angle = asposeocr_get_skew(image_path.c_str());

// Задайте настройки распознавания
RecognitionSettings settings;
settings.save_format = file_format::docx;
settings.skew = angle;

// Выполните операцию OCR и сохраните выходной файл.
asposeocr_page_save(image_path.c_str(), "OutputDirectory\\SkewedImageToDocx.docx", settings);
Скриншот исходного изображения и выходного файла Word

Скриншот исходного изображения и выходного файла Word

Получить бесплатную лицензию

Чтобы попробовать API без ограничений на пробную версию, вы можете запросить бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как конвертировать изображения в документы Word с помощью C++. Кроме того, вы увидели, как вычислить и использовать угол наклона изображения для выполнения оптического распознавания символов на искаженных изображениях. API предоставляет множество дополнительных функций, которые вы можете подробно изучить, посетив официальную документацию. Если у вас возникнут какие-либо вопросы, свяжитесь с нами на нашем бесплатном форуме поддержки.

Смотрите также