前几天给《博客李淼》写了一个文摘生成器,能让读者选择喜欢的文章装订起来生成PDF文档,主要是为了提供支持数学公式的效果更好的打印功能。支持繁体和简体,并能生成 UTF-8/GBK/Big5格式的 LaTeX 源代码。(其实生成的顺序是先有LaTeX源码这只鸡,再有PDF这个蛋)。

今天中午简单整理了一下放在了google code上遵循GPLv3发布:

http://code.google.com/p/pdfwp/

系统要求和怎样安装都在里面了,就不多说了。代码只有500多行,写的比较乱,没注释,基本属于write-only,不过可以用。

原理是这样的:首先Python脚本从WP的数据库里把帖子标题和内容提取出来,除去HTML tag后做符合LaTeX语法的转换并写入到一个LaTeX源文件,然后调用iconv和zh-autoconvert进行编码和繁简转换,最后调用texlive的pdflatex将LaTeX源文件编译生成简体和繁体的PDF文件。

得感谢TeX不是一种WYSIWYG的文档格式,从帖子到LaTeX源码的转换只要集中注意力在内容的逻辑结构上即可。另外,写脚本花的时间还不如配置TeX系统的时间长,配置了N种Free的CJK字体显示都不理想(主要是宋体过细),最后无耻地从CTeX套装的texmflocal目录里把字体裸拷出来复制到~/texmf中然后updmap就搞定了简体。但繁体字还是有极少数的缺字,因为Debian上默认的繁体UTF-8文鼎字体bsmi字库不全,只能靠使用者下载LaTeX源文件自己编译了。

阅读(1169 次)

Creative Commons 授权
此文, 除非有特别申明, 的授权协议是 Creative Commons Attribution-Noncommercial 2.5 China Mainland 网站授权.