如何从pdf文件中搜索和抓取内容

2025年03月19日 03:51
有1个网友回答
网友(1):

我首先了解了pdf的结构:http://www.gnupdf.org/Introduction_to_PDF
然后了解pdf对文本内容的两种压缩方式(也就是encode):http://bbs.csdn.net/topics/380237655
然后参考了简单的文本提出代码(也就是对被压缩的文本解压缩decode):http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file
最后剩下的就是对字符串的匹配算法(kmp、朴素匹配...)实现了,当然也可以借用别的库(网上各种开源正则表达式库)来实现。
题主的问题就解决了\(^o^)/