Trích xuất văn bản từ tài liệu PDF theo chương trình bằng C++
Trích xuất văn bản từ tài liệu (PDF, xử lý văn bản, trang web, v.v.) có nhiều trường hợp sử dụng trong thế giới thông tin kỹ thuật số. Ví dụ: nó có thể được sử dụng để phân tích tài liệu, thực hiện phân tích văn bản, truy xuất thông tin, lưu trữ nội dung của tài liệu vào cơ sở dữ liệu, v.v. Nếu chúng ta thu hẹp phạm vi, thì PDF là một trong những định dạng tài liệu được sử dụng rộng rãi nhất để lưu giữ và chia sẻ thông tin kỹ thuật số.