Le *_*huc 7
这是因为 PDF 不仅包含文本,还包含格式(字体、填充、边距、位置、形状、图像)信息。
如果您需要阅读没有格式的纯文本。我已经分叉了一个存储库并实现了该功能来做到这一点。您可以在https://github.com/ledongthuc/pdf 上查看
我也举了一个例子,帮助它对你有用。
package main
import (
"bytes"
"fmt"
"github.com/ledongthuc/pdf"
)
func main() {
content, err := readPdf("test.pdf") // Read local pdf file
if err != nil {
panic(err)
}
fmt.Println(content)
return
}
func readPdf(path string) (string, error) {
r, err := pdf.Open(path)
if err != nil {
return "", err
}
totalPage := r.NumPage()
var textBuilder bytes.Buffer
for pageIndex := 1; pageIndex <= totalPage; pageIndex++ {
p := r.Page(pageIndex)
if p.V.IsNull() {
continue
}
textBuilder.WriteString(p.GetPlainText("\n"))
}
return textBuilder.String(), nil
}
- 我的库有一个错误,但不可能在 `ledongthuc/pdf` Git 上发布问题。 (3认同)
- @LeDongThuc 使用您的库,我收到以下错误:格式错误的 PDF:在偏移量 0 处读取:流不存在 (2认同)