pdftotext
是一个将PDF文件转换成文本文件的命令行工具。使用方法非常简单:
$ pdftotext a.pdf a.txt
pdftotext
还提供了几个选项,来微调转换过程。如:
-nopgbrk
- 去掉换页符
-enc <string>
- 指定输出文件的编码
-eol <string>
- 指定换行符,可以是
unix
,dos
,或mac
我的手机E398只能看文本文件,不能看PDF,所以我用pdftotext
转换了几个文件,命令行如下:
$ pdftotext -nopgbrk -enc Latin1 -eol dos a.pdf a.txt
这几个文件都是英文的,虽然pdftotext
手册上说缺省的输出编码是Latin1,但在我的Fedora 7上却是unicode,到了E398上出现很多乱码,所以显示指定了编码。至于换行符,我猜moto-txt是用的dos,所以也指定了一下。
更多编码可以在/usr/share/poppler/unicodeMap/
目录(以Fedora 7为例)下找到,中文可以使用GBK
。
好像不可以转换中文pdf哦,你可以吗,
请告诉我好吗,QQ806841300