关于如何通杀广告的思路,欢迎讨论啊。

新手入门、经验交流

Moderator: cre

Forum rules
  • 软件自带帮助是最好的入门教程,请仔细阅读;在您掌握最基本知识前,我们没法帮助您
  • 提问前请先查阅软件帮助文件和论坛相关讨论
  • 查阅软件帮助和论坛相关讨论即可解决的问题帖将直接删除,以免浪费他人时间
  • 请学会如何提问,尽量将问题描述清楚,不明确的提问将被直接删除
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

关于如何通杀广告的思路,欢迎讨论啊。

Post by vvmao »

今天正在翻译匹配命令的帮助文件,头有些大。换换脑子贴一张我的广告通杀思路图。
呵呵,其实所谓通杀应该是不会存在的,但是如果能够使得广告处于不再让人厌烦的程度也就是达到目的了,水至清则无鱼嘛,就像电视广告如果把脑白痴、恒源羊什么的去掉也就大致可以接受了。欢迎高手发言啊。
广告通杀思路图
广告通杀思路图
.jpeg (225.53 KiB) Viewed 10086 times
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于如何通杀广告的思路,欢迎讨论啊。

Post by vvmao »

这里大致解释一下哈:
通常文字广告只能用关键词过滤,但是也可以考虑过滤所有链接指向非当前主机名的。
一般文字广告会指向广告主的网址(垃圾的39.net),代理广告公司的跳转网址(allyes等),或者是当前主机某个固定的网址(网易的pro.163)。所以可以从这三个方面入手予以屏蔽。
唯一就是注意有些网站比如搜索引擎都是指向外部的链接,所以一定要排除掉,否则搜索结果全没了,还有msn.com.cn,原来都是ynet.com的链接,没有自己的东西啊。这种垃圾网站砍了都没关系。
图片广告大致类似,此外一般广告图片会存在固定的文件夹下,例如华军的就是newhuagg文件夹下,霏凡的在gg文件夹下,这种是最简单的了。而新浪的是在sinaimg.cn,而且比较复杂一些。
比较讨厌的是flash广告,如果全部屏蔽会使淘宝,易趣,一些银行网址,还有视频网址失效,但是想一下对于铺天盖地的flash广告来说,有用的网址只是一小撮而已,所以考虑用白名单过滤,不在白名单之上的一律砍,只要白名单充分就不影响。此外就是不载入swf文件,改成文字链接,用户需要的时候点击才能显示。
如果上述思路都可以实现,感觉广告会被砍掉很大一部分,而且具有使用的普遍性。
自己摸索的,也许别人早就想到了,呵呵。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于如何通杀广告的思路,欢迎讨论啊。

Post by vvmao »

过滤非本主机以外文字链接遇到一个现象,仔细看了好几遍网页源代码,找不到原因,
这是规则,根据论坛里找到现有规则改的,里面的排除搜索引擎的语句应该怎么写?现在根本不起作用
规则
规则
ScreenShot00037.jpg (38.38 KiB) Viewed 10077 times
这是效果,链接是daohang.google.cn,为什么同样都是指向外部的文字链接,上面的不被过滤,下面的就可以过滤呢?
效果
效果
ScreenShot00036.jpg (89.72 KiB) Viewed 10077 times
上面没被过滤部分的代码是

Code: Select all

<dt>
<li><a href="http://www.google.cn" target=_blank id=AFrqEzfUWaEpJEPlihzzoPridL__y9uArw:sit:0:7>Google</a></li>
<li><a href="http://www.baidu.com" target=_blank id=AFrqEzcUwXaUjNf39j-hCWLRMFVHzHRnXw:sit:1:7>百度</a></li>
<li><a href="http://cn.yahoo.com" target=_blank id=AFrqEzdvQfmPMhxD-Q5Xm3buUC6Q2puiFg:sit:2:7>雅虎</a></li>

<li><a href="http://www.sina.com.cn" target=_blank id=AFrqEzdham6bfQSRdCNvuC99BUAk0FfyXQ:sit:3:7>新浪</a></li>
<li><a href="http://www.sohu.com" target=_blank id=AFrqEzfA06Pe9DXOq_jPHZJ81FaxonARJA:sit:4:7>搜狐</a></li>
<li><a href="http://www.qq.com" target=_blank id=AFrqEzcU4vs8XmnmKHbZs35s4iUJuT0FHw:sit:5:7>腾讯QQ</a></li>
<li><a href="http://www.tom.com" target=_blank id=AFrqEzezpsNn8dL6xA4UXhacKLdj5LT8tw:sit:6:7>TOM</a></li>
</dt>
下面被过滤的代码是

Code: Select all

<dt>
<li><a href="http://www.google.cn/intl/zh-CN/landing/summergames2008/#source=sghp" target=_blank id=AFrqEzeKyU8Qbdfh_wO292ne4cIkF0w98w:sit:0:20>谷歌2008赛事</a></li>
<li><a href="http://www.beijing2008.cn/" target=_blank id=AFrqEzd_rnPbPihn9QOAzJenGdq58v2IjA:sit:1:20>2008北京奥运官网</a></li>
<li><a href="http://2008.sina.com.cn/" target=_blank id=AFrqEzdCH0iK159Emjuxv-aDESnc1jlbMw:sit:2:20>新浪奥运</a></li>

<li><a href="http://2008.sohu.com/" target=_blank id=AFrqEzcYnnIjklEIHw1bHWLXqOxlKUKNxQ:sit:3:20>搜狐奥运</a></li>
<li><a href="http://2008.qq.com/" target=_blank id=AFrqEzem4ZEz7CpPRQxZYfW5kPBeW87-fQ:sit:4:20>腾讯奥运</a></li>
<li><a href="http://2008.163.com/" target=_blank id=AFrqEzc7GOmOr_CD7o1MYVW1kb7QNIWBGw:sit:5:20>网易奥运</a></li>
</dt>
User avatar
phoenix
Site Admin
Posts: 526
Joined: Dec 29 2007, 16:27

Re: 关于如何通杀广告的思路,欢迎讨论啊。

Post by phoenix »

你的规则要求href部分必须含有/,而没被过滤部分的href恰恰不含有/。

其实流行的规则包比如sidki的config set对你提到的广告过滤方式都有考虑。以非当前主机名为条件过滤文字广告恐怕会误杀很多正常的链接。

BTW,以后贴规则最好是在规则上右键导出,以方便其他人导入测试,不然还得照图输入一遍,也可能输错,导致测试结果不准确。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于如何通杀广告的思路,欢迎讨论啊。

Post by vvmao »

我太粗心了。谢谢。
看来细心和熟悉语法才是王道。我决定认真学习一段时间,再来论坛提问,不再闹笑话了。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

一个脑袋两个大,折腾到现在只好求助了,呵呵

Post by vvmao »

试了好几种方法都不行

Code: Select all

[Patterns]
Name = "[I]ALL-out-Link##去除所有指向外部链接的链接"
Active = TRUE
URL = "^$LST(SearchList)"
Bounds = "$NEST(<a\s,</a>)"
Limit = 256
Match = "(* href=*http://((^\h|local.ptron)*)/*</a>)"
Replace = "<font size=2 color=red>lINK-AD</font>"
如何避免把这样的链接过滤掉,也就是让它不匹配img后面的链接。

Code: Select all

<a href="http://www.eachnet.com/promo/080904_3c_esnb4.html?_fromid=homepage_04&srcid=a137_4" target="_blank"><img src="http://i1.eachimg.cn/img/mkt/hp/081007_icon3_70x70.gif" />二手笔记本</a>
第二如何把下面这两个链接过滤掉

Code: Select all

"<a href=""http://blog.163.com/redirect.html?url=http://yxp.163.com/product.do?action=detail&productType=photo&findex_photo?080825yxp07""><img src=""http://blog.163.com/style/common/index/image/yxpq.jpg"" width=""100%""></a>
"

Code: Select all

<a href="http://z.csdn.net/gmclick.php?bannerid=2533&zoneid=81&source=&dest=http%3A%2F%2Fsnda.csdn.net%2Fsdo%2Findex.aspx" target="_blank"><img src="http://zi.csdn.net/button%28960x90%29_2.gif" alt="" title="" width="960" border="0" height="90"></a>
ddbb
Moderator
Posts: 425
Joined: Jan 07 2008, 13:30

Re: 一个脑袋两个大,折腾到现在只好求助了,呵呵

Post by ddbb »

你的$LST(SearchList)呢............

没有条件怎么看........
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 一个脑袋两个大,折腾到现在只好求助了,呵呵

Post by vvmao »

哦,忘记说明了。$LST(SearchList)只是排除搜索引擎的,因为搜索引擎的页面都是外部链接啊。
所以在这里可以忽略不计。
ddbb
Moderator
Posts: 425
Joined: Jan 07 2008, 13:30

Re: 一个脑袋两个大,折腾到现在只好求助了,呵呵

Post by ddbb »

不怪你..........
是怪我...........
我没有看清楚..........

试了半天......我是没试出来............

得看phoenix的了
User avatar
phoenix
Site Admin
Posts: 526
Joined: Dec 29 2007, 16:27

Re: 一个脑袋两个大,折腾到现在只好求助了,呵呵

Post by phoenix »

说实话,我没看出第一个链接有什么特别之处让你不想过滤,它只比另外两个链接在img标签后多了些文字,但那在链接中是很常见的。

第二个链接我测试是可以过滤的。

第三个链接占用了261 bytes,把Byte Limit相应调大就可以了。
Post Reply