http://www.pczone.com.tw/vbb3/archive/t-60829.html
随便看看,到底下发现没有页码跳转就想给它加个.
想当然的使用了Proxoff
Code: Select all
[Patterns]
Name = "www.pczone.com.tw archive"
Active = FALSE
URL = "www.pczone.com.tw"
Limit = 512
Match = "(<div id="pagenumbers">)\#\#(</div>)\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#"
Replace = "\@"
Code: Select all
<div id="pagenumbers"><b>頁 :</b>
[<b>1</b>]
<a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-2.html">2</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-3.html">3</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-4.html">4</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-5.html">5</a> </div>
结果却是多抓到一部分:
Code: Select all
<div id="pagenumbers"><b>頁 :</b>
[<b>1</b>]
<a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-2.html">2</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-3.html">3</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-4.html">4</a> <a href="http://www.pczone.com.tw/vbb3/archive/t-60829-p-5.html">5</a> </div> <hr /> <div class="post"><div class="posttop"><div class="username">lamina</div><div class="date">2002-10-07, 05:53 PM</div></div>
Code: Select all
<hr /> <div class="post"><div class="posttop"><div class="username">lamina</div><div class="date">2002-10-07, 05:53 PM</div></div>
如果有扩展[如*,\1,\#],"在bytelimit的范围里,prox想尽量找到后面跟着Proxoff的"
到limit耗尽仍没发现Proxoff就就要抓 从开始匹配直到limit用完前抓到的最后一个(能匹配到的标志符?).
这个通过增大limit得到了验证,也从增大limit但用一个不存在的尾标
Code: Select all
(<div id="pagenumbers">)\#\#(NullNullNullNull)\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#
最终使用
Code: Select all
[Patterns]
Name = "www.pczone.com.tw archive Add PageNumber"
Active = TRUE
URL = "www.pczone.com.tw"
Limit = 512
Match = "($NEST(<div id="pagenumbers">,</div>))\#$SET(pn=\@)Proxoff|$SET(#=$GET(pn))(<p><p><p>)\#"
Replace = "\@"
使用Proxoff方式,得注意下通配时的扩展.