kxw2ebook: 科学网博客文章下载导出器
花了一个晚上写了一个Python程序,kxw2ebook,可以把科学网博客上的文章下载为电子书并导出到Wordpress里。因为我对科学网的编辑推荐不感冒,所以写这个程序也算是为科学网的作者提供另一个选择。
下载、源代码、使用说明和FAQ等都放在了google code上
http://code.google.com/p/kxw2ebook/
原理大概是这样的:
1. 首先从博客“所有文章”页面下载所有的文章链接
2. 下载文章
3. 通过正则表达式提取文章的主题内容等写入html和xml文件(wordpress导入时需要用)
通过修改脚本中的正则表达式匹配字符串,这个脚本也可以用于其他的博客系统。
几个比较有趣的地方:
1. 科学网似乎用了一种pager叫AspNetPager,在kxw2ebook试图获得多页数据时必须request如下古怪的post data
__EVENTTARGET=right_1%24AspNetPager1&__EVENTARGUMENT=DDDDDDD&__VIEWSTATE=%2FwEPDwUKMTE5MDI4MTYxNw9kFgIC...
我本来以为通过简单的url参数就可以,后来用firefox的LiveHttpHeaders插件截获浏览器请求才知道javascript的__doPostBack()函数会产生这样的浏览器行为。
2. 用pyinstaller将python脚本“编译”成了在windows可以直接运行无需安装python解释环境的standalone程序,通过UPX进行了压缩,但还是有2.5M,作为一个只有console的程序,尺寸是不是太大了。
3. 在测试期间“发现了”GFW,当程序试图下载下面的页面时,
http://www.sciencenet.cn/blog/user_content.aspx?id=25746
连接被重置。不知道GFW对国内的朋友访问国内网站是否有影响,大家可以试试。
将帖子导出到Wordpress还是比较成功的,但目前还无法导出评论。下面是个导出的例子:
科学网博客上的原址:
http://www.sciencenet.cn/blog/科学网编辑部.htm
导出到wordpress.com的效果
http://kxw2ebook.wordpress.com
导出到72pines.com的效果
阅读(860 次)

十月 6th, 2008 at 9:41 上午
杭州金全有科技有限公司
新闻发布
郑重向世界科学界宣布;
1. 重大科学现象发现;
我公司科研领导人苏朝明先生在对自然界能量现象研究中发现自然界能量存在不守恒增多科学现象的重大科学发现。这是世界上对自然界能界不守恒增多科学现象首例重大科学发现!
这个发现的现象超出了旧科学界能量知识守恒定律范围。
2. 重大科学创新命名.三大定律与公式科学创新制定;,
通过对自然界能量认真探萦研究。根据新发现的自然能量科学现象实质情况,将旧能量知识与新发现能量知识在科学基础上进行实质性的改革整合, 准确详细, 统一完善, 对自然界三大能量现象进行了科学创新命名。1. 不守恒增多能量。2. 不守恒减少能量。3. 守恒能量。并对自然能量三大现象各自形成规律, 发展特点,具备的科学条件进行科学总结。创新制定了适应现代科学发展的自然界能量三大定律和公式科学理论。填补了世界能量知识中的空白。
以自然界能量科学现象为研发依据基础。创研出不守恒增多能量科学技术理论。为世界能源技术向先进领域发展创造了理论基础。支撑依据。
3. 重大先进能源技术创新;
在不守恒增多能量科学理论指导支撑下,原始创新研发出不守恒增多能量技术成果,具有小能量转变大能量与快速循环再生清洁能源功能的c.p.e循环再生清洁新能源技术与设备。
本创新成果是世界上最前沿尖端先进科学制造再生清洁能源技术与设备。
本创新成果最大亮点是用尖端先进科学技术代替煤, 油, 等地质能源原料生产制造再生清洁能量。另一个亮点是对低微量太阳能, 风能, 光能, 热能等各种低徵能源资源利用生产制造再生清洁能。
科学发展观, 科研创新,是我们根治污染, 保护地球自然生态环境, 满足现代社会对能源需要量的法宝。让我们运用科学发展观念,共同携手跨进低碳经济美好时代。
发布人; 杭州金全有科技有限公司
电话;0571-85988626 13666669923
电子信箱;568329088@qq.com 电传;0571-85186713