Page 1 of 2

sina.com.cn 过滤规则分享

Posted: Feb 28 2008, 23:01
by sixsheeps
规则是:

Code: Select all

[Patterns]
Name = "Sina Clean"
Active = TRUE
URL = "$TYPE(htm)[^/]++.sina.com.cn/"
Limit = 30000
Match = "$LST(Sina)"
Replace = "<!-- sixsheeps -->"
sina.txt文件里面内容:

Code: Select all

# Sina Clean
#
<td width="640" valign="top" class="lc_blue">      $SET(0=<td width="940" valign="top" class="lc_blue">)
<td width="300"*DisplayAd()*</td>
<!--_SINA_ADS_BEGIN_--> * <!--_SINA_ADS_END_-->
<!-- 新闻中心首页顶部广告位 begin --> * <!-- 新闻中心首页顶部广告位 end -->
<!-- 顶通广告 begin --> * <!-- 顶通广告 end -->
<!-- google begin --> * <!-- google end -->
<!-- 位置导航 广告 爱问搜索 begin --> * <!-- 位置导航 广告 爱问搜索 end -->
<!--图铃下载开始--> * <!--图铃下载结束-->
<!--AD300_150开始--> * <!--AD300_150结束-->
<!--AD300_250开始--> * <!--AD300_250开始-->
<!--右侧固定板块模式开始--> * <!--右侧固定板块模式结束-->
<!--画中画广告开始--> * <!--画中画广告结束-->
<!--竟价开始--> * <!--竟价结束-->
凤凰推荐的使用blockfile的办法果然好用。
过滤效果很好!越发的喜欢p了!

Re: 【关注】还是sina的问题,高手进来看看

Posted: Feb 29 2008, 09:50
by phoenix
那你考虑下,我的上个回帖中为什么要把规则写成:
Match = "<$LST(Sina)"
相应地在blockfile中去掉打头的<

Re: 【关注】还是sina的问题,高手进来看看

Posted: Feb 29 2008, 11:07
by sixsheeps
这个我想是这样的:“<”是共同的部分。省略了一个小小的<,却可以使得blockfile里面的每一行都少一个<,这样过滤效率更高吧。
是不是呢?呵呵……

Re: 【关注】还是sina的问题,高手进来看看

Posted: Feb 29 2008, 12:12
by phoenix
sixsheeps wrote:这个我想是这样的:“<”是共同的部分。省略了一个小小的<,却可以使得blockfile里面的每一行都少一个<,这样过滤效率更高吧。
是不是呢?呵呵……
有点靠边,但远非如此!

上面那个规则,不加“<”的话,Proxomitron会对每个字符都检索一遍blockfile;加了“<”之后,Proxomitron只有遇到“<”之后才会检索blockfile中的内容。
想想一个网页文件中“<”字符占所有字符的比例,就知道这个技巧可以提高多少效率。

Re: sina.com.cn 过滤规则分享

Posted: Jul 02 2008, 10:31
by ddbb
啊.........
已经弄明白了.........
不过不明白第一句是干什么的....
我发现加上之后会影响格式的......
去掉之后 好像也没什么广告出来........
td width="640" valign="top" class="lc_blue"> $SET(0=<td width="940" valign="top" class="lc_blue">)

Re: sina.com.cn 过滤规则分享

Posted: Jul 02 2008, 11:45
by phoenix
注意第二句去掉了宽度为300px的侧边栏
<td width="300"*DisplayAd()*</td>
而第一句就是将300px加到正文区域,扩大可读面积。

Re: sina.com.cn 过滤规则分享

Posted: Jul 02 2008, 13:01
by ddbb
也就是说
<td width="640" valign="top" class="lc_blue"> $SET(0=<td width="940" valign="top" class="lc_blue">)
这句的意思是把前面的替换成后面的 是么.......

可是我看了一下 他是把前面的给替换成了上面规则里的
<!-- sixsheeps -->
后面的根本就没出来.........

这是为什么呢

Re: sina.com.cn 过滤规则分享

Posted: Jul 02 2008, 14:00
by Ray4
ddbb wrote:也就是说
<td width="640" valign="top" class="lc_blue"> $SET(0=<td width="940" valign="top" class="lc_blue">)
这句的意思是把前面的替换成后面的 是么.......

可是我看了一下 他是把前面的给替换成了上面规则里的
<!-- sixsheeps -->
后面的根本就没出来.........

这是为什么呢
因为它虽然设置了\0为<td width="940" valign="top" class="lc_blue">,但替换的部分却只写了<!-- sixsheeps -->,当然prox只会按照这个来,先查找,再设置变量,再将找到的部分替换为replace里的内容,即:<!-- sixsheeps -->。

要想替换成功,要把replace里加入\0

Re: sina.com.cn 过滤规则分享

Posted: Jul 02 2008, 14:28
by ddbb
原来是这样.........
明白了.....
修改了替换部分
现在已经成功替换.......

基本也明白blocklist怎么用了......
相当的方便啊.....

Re: sina.com.cn 过滤规则分享

Posted: Jul 25 2008, 11:21
by ddbb
sina换了新页面......
就添加了一些东西 大体上应该没问题了 可能会有漏网的 以后遇到再加

sina.txt

Code: Select all

# Sina
#

## Old

td width="640" valign="top" class="lc_blue">      $SET(0=<td width="940" valign="top" class="lc_blue">)
td width="300"*DisplayAd()*</td>
!--_SINA_ADS_BEGIN_--> * <!--_SINA_ADS_END_-->
!-- 新闻中心首页顶部广告位 begin --> * <!-- 新闻中心首页顶部广告位 end -->
!-- 顶通广告 begin --> * <!-- 顶通广告 end -->
!-- google begin --> * <!-- google end -->
!-- 位置导航 广告 爱问搜索 begin --> * <!-- 位置导航 广告 爱问搜索 end -->
!--图铃下载开始--> * <!--图铃下载结束-->
!--AD300_150开始--> * <!--AD300_150结束-->
!--AD300_250开始--> * <!--AD300_250开始-->
!--右侧固定板块模式开始--> * <!--右侧固定板块模式结束-->
!--画中画广告开始--> * <!--画中画广告结束-->
!--竟价开始--> * <!--竟价结束-->
!--爱问搜索开始--> * <!--爱问搜索结束-->
!--广告开始--> * <!--广告结束-->
div class="toollinks"> * </div>
h1>\1</h1>  $SET(0=<center><h1>\1</h1></center>)

####  New
# 主容器
blkContainer{\1width:*px;\2}  $SET(0=.blkContainer{\1 \2 width:950px;})
# 正文块
blkContainerSblk{\1width:*px;\2}  $SET(0=.blkContainerSblk{\1 \2 width:860px;})
# 相关专题
MTitle_01{\1}  $SET(0=.MTitle_01{\1 width:640px;margin-left:auto; margin-right:auto;})
Mblk_01{\1}  $SET(0=.Mblk_01{\1 width:640px;margin-left:auto; margin-right:auto;})
# 相关新闻 相关博文
MPartA{\1}  $SET(0=.MPartA{\1 margin-left:auto; margin-right:auto;})

!-- 顶通广告 begin --> * <!-- 顶通广告 end -->
!-- Google搜索 begin --> * <!-- Google搜索 end -->
!-- 侧边栏 begin --> * <!-- 侧边栏 end -->
!-- 企业服务 begin --> * <!-- 企业服务 end -->
!-- 20070922英超意甲推广begin--> * <!-- 20070922英超意甲推广end-->
!-- 中国公开赛代码*开始--> * <!-- 中国公开赛代码*结束-->
!-- 竞价文字 start --> * <!-- 竞价文字 end -->
!-- 广告开始 --> * <!--广告结束-->
!-- 图铃下载* begin --> * <!-- 新浪公益* end -->
config文件

Code: Select all

Name = "Sina Clean"
Active = TRUE
URL = "$TYPE(htm)[^/]++.sina.com.cn/|$TYPE(css)[^/]++.sina.com.cn/"
Limit = 30000
Match = "<$LST(Sina)|"
        ".$LST(Sina)"
Replace = "<!-- Sina Clean Start -->\n"
          "\0\n"
          "<!-- Sina Clean End -->\n"