Proxoff捕获为变量辩析

cre · Post by **cre** » Sep 20 2011, 19:22

在google搜索Proxomitron时点入了
http://www.pczone.com.tw/vbb3/archive/t-60829.html

随便看看,到底下发现没有页码跳转就想给它加个.

想当然的使用了Proxoff

[Patterns]
Name = "www.pczone.com.tw archive"
Active = FALSE
URL = "www.pczone.com.tw"
Limit = 512
Match = "(<div id="pagenumbers">)\#\#(</div>)\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#"
Replace = "\@"

要抓到

Code: Select all

<div id="pagenumbers"><b>頁 :</b>
[<b>1</b>]
<a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-2.html">2</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-3.html">3</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-4.html">4</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-5.html">5</a> </div>

放入变量,然后在下面找到个标志位<p><p><p>扔到其前.

结果却是多抓到一部分:

Code: Select all

<div id="pagenumbers"><b>頁 :</b>
[<b>1</b>]
<a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-2.html">2</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-3.html">3</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-4.html">4</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-5.html">5</a> </div> <hr /> <div class="post"><div class="posttop"><div class="username">lamina</div><div class="date">2002-10-07, 05:53 PM</div></div>

多了

Code: Select all

<hr /> <div class="post"><div class="posttop"><div class="username">lamina</div><div class="date">2002-10-07, 05:53 PM</div></div>

通过询问过菲菲老大,得悉
如果有扩展[如*,\1,\#],"在bytelimit的范围里，prox想尽量找到后面跟着Proxoff的"
到limit耗尽仍没发现Proxoff就就要抓从开始匹配直到limit用完前抓到的最后一个(能匹配到的标志符?).
这个通过增大limit得到了验证,也从增大limit但用一个不存在的尾标

Code: Select all

(<div id="pagenumbers">)\#\#(NullNullNullNull)\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#

来验证,结果是不匹配也说明....blablablabla(

忘了当初想blabla啥了)

最终使用

Code: Select all

[Patterns]
Name = "www.pczone.com.tw archive Add PageNumber"
Active = TRUE
URL = "www.pczone.com.tw"
Limit = 512
Match = "($NEST(<div id="pagenumbers">,</div>))\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#"
Replace = "\@"

来添加页码,正常了.

使用Proxoff方式,得注意下通配时的扩展.