pdftotext: convert pdf to txt

pdftotext是一个将PDF文件转换成文本文件的命令行工具。使用方法非常简单:

$ pdftotext a.pdf a.txt

pdftotext还提供了几个选项,来微调转换过程。如:

-nopgbrk
去掉换页符
-enc <string>
指定输出文件的编码
-eol <string>
指定换行符,可以是unixdos,或mac

我的手机E398只能看文本文件,不能看PDF,所以我用pdftotext转换了几个文件,命令行如下:

$ pdftotext -nopgbrk -enc Latin1 -eol dos a.pdf a.txt

这几个文件都是英文的,虽然pdftotext手册上说缺省的输出编码是Latin1,但在我的Fedora 7上却是unicode,到了E398上出现很多乱码,所以显示指定了编码。至于换行符,我猜moto-txt是用的dos,所以也指定了一下。

更多编码可以在/usr/share/poppler/unicodeMap/目录(以Fedora 7为例)下找到,中文可以使用GBK

One thought on “pdftotext: convert pdf to txt

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据