以此文为例:http://www.nbtie.com/retie/wodezhiyelao ... 14_11.html
看几篇文章的源代码,以决定proxomitron的规则:
Code: Select all
[Patterns]
Name = "eBook"
Active = TRUE
Limit = 32767
Match = "*<div class=tianya>*</div>|<SPAN id=nb_tt></SPAN> </div> <div id="adl7">*|$NEST(<a*,</a>)|$NEST(<font*,</font>)|<[^>]++>"
注意,这里没有用变量\1支持把文章主体提取出来是因为最近在使用这些变量的时候发现当字符数超过一定的范围,变量就不管用了(具体的字符数我没在帮助里看到)
再在命令行下
Code: Select all
curl http://www.nbtie.com/retie/wodezhi
yelaoqianshengya/wodelaoqianshengya814_[12-66:1].html>c:\1.txt -x 127.0.0.1:8081
下载完后,基本不需要的东西都过滤干净了,剩下一些小的地方不太满意的话,只要简单的用排版工具就可以搞定了
附上curl的介绍:
curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传, 上载文件断点续传, http代理服务器管道( proxy tunneling), 甚至它还支持IPv6, socks5代理服务器, 通过http代理服务器上传文件到FTP服务器等等,功能十分强大。Windows操作系统下的网络蚂蚁,网际快车(FlashGet)的功能它都可以做到。准确的说,curl支持文件的上传和下载,所以是一个综合传输工具,但是按照传统,用户习惯称curl为下载工具。curl是瑞典curl组织开发的,您可以访问http://curl.haxx.se/获取它的源代码和相关说明。