关于执行效率的提问,欢迎随便聊聊啊,呵呵

新手入门、经验交流

Moderator: cre

Forum rules
  • 软件自带帮助是最好的入门教程,请仔细阅读;在您掌握最基本知识前,我们没法帮助您
  • 提问前请先查阅软件帮助文件和论坛相关讨论
  • 查阅软件帮助和论坛相关讨论即可解决的问题帖将直接删除,以免浪费他人时间
  • 请学会如何提问,尽量将问题描述清楚,不明确的提问将被直接删除
Post Reply
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

最近一直在学习Proxomitron,学习正则表达式,看帮助文件,突然想起一个问题,那就是执行效率。
我们假设有三个过滤规则,1,2,3
是分别建立三个单独的过滤规则的执行效率高还是把三个过滤规则合并为一个过滤规则的执行效率高?有没有人做过这方面的测试啊?
当过滤规则数量不断增加,blockfile文件体积不断增大的时候,执行效率的考虑还是很有必要的。
User avatar
phoenix
Site Admin
Posts: 529
Joined: Dec 29 2007, 16:27

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by phoenix »

没做过这方面的测试,但以现代CPU的处理能力,无需过多考虑Proxomitron的执行效率,毕竟它所做的主要是文本处理,比起浏览器的渲染引擎要简单得多,对CPU的要求也低得多,你可以在任务管理器中观察下它的CPU占用,除了在处理网页的时候会短暂的占用下CPU,在空闲时间基本不占用CPU。

另一方面,在没有设置Allow for multiple matches的情况下,前面规则所处理过的文本会直接传递给浏览器,并不会被后面的规则再处理一遍,所以并不会有把规则分开写就执行效率低下的问题。至于是合并还是分开规则,我认为还是按规则的用途进行分类比较好,方便日后管理。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

谢谢phoenix 的热心解答。以后我的问题就统一在这里提出来了,如果具有普遍性的问题再单独开贴。
下面想问一个问题就是\h的利用,现在网页上有很多文字广告链接,我想利用\h进行过滤,但遇到了问题。我的思路是凡是页面中的链接不符合*.\h的就删除,但是<a*http://*(^\h)/*>*</a>根本没有作用,对于正则表达式我是一窍不通,刚刚开始学习,不要笑话啊。
当然这样即便成功也会有一个弊病,就是进入二级域名的网页后,会把一级域名的链接删除,只当一个实验吧。有时间指点一下思路。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

不用回答了,找到你的这个帖子,正在研究
http://forum.proxomitron.cn/viewtopic.php?f=4&t=7
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

我测试了一下,已知最大CPU占用在25%,不过大概只有几秒钟时间。内存一般在6M,使用一段时间之后会达到12M。我的配置是酷睿双核1.73G,内存1G。
所以我还是有些担心当数据越来越多的时候,会变得非常缓慢。因为我现在没有用sidki的规则包,只是系统自己带的(开了十来个)加上我测试用的几个。
phoenix wrote:没做过这方面的测试,但以现代CPU的处理能力,无需过多考虑Proxomitron的执行效率,毕竟它所做的主要是文本处理,比起浏览器的渲染引擎要简单得多,对CPU的要求也低得多,你可以在任务管理器中观察下它的CPU占用,除了在处理网页的时候会短暂的占用下CPU,在空闲时间基本不占用CPU。

另一方面,在没有设置Allow for multiple matches的情况下,前面规则所处理过的文本会直接传递给浏览器,并不会被后面的规则再处理一遍,所以并不会有把规则分开写就执行效率低下的问题。至于是合并还是分开规则,我认为还是按规则的用途进行分类比较好,方便日后管理。
ddbb
Moderator
Posts: 425
Joined: Jan 07 2008, 13:30

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by ddbb »

如果是你一个人用的话.....
你应该可以不用考虑这个问题.....
我曾经连续几个月不关机....一直在用....
他的内存占用也不过就是10多M.......

P.S: 就算是真的有问题......
重新启动一下PROX应该也不麻烦吧........

不过倒是听说如果多人用一个PROX的话 会有CPU很高的情况.......
估计是在有并发的情况下 他的处理机制有些问题.....
这个应该是给一个人用的软件
User avatar
phoenix
Site Admin
Posts: 529
Joined: Dec 29 2007, 16:27

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by phoenix »

多人用的话,加个squid之类的cache proxy会比较好。
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

是单机使用,昨天晚上添加了两条

Code: Select all

<img (*src="*"&*height="[#70:110]"&*width="[#200:*]")*>
<img (*src="*"&*height="[#50:69]"&*width="[#140:*]")*>
意图是过滤所有横幅和半横幅的图片,但是在浏览一些网站的时候CPU占用100%,是不是这两条规则有不合理的地方?
还有就是一些<script>里的图片使用上面两个规则无法过滤。
比如这个链接:http://www.crsky.com/soft/3958.html 左侧精彩内容推荐里的广告图片

此外就是过滤规则中如果有中文,在过滤UTF-8编码的网页时,过滤规则会失效。
replacement text中不能单独出现中文,必须至少有一个数字,字母,符号才可以。
ddbb
Moderator
Posts: 425
Joined: Jan 07 2008, 13:30

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by ddbb »

关于你过滤图片那个........觉得你加入src="*" 有点多余...... 直接用* 就可以了.......
就比如你给的URL里 他的写法是
<img src=/ggao/0514.gif width=180 height=60 border=0>
没有前后的"" 所以没有匹配

另外他是写到JS里 然后导入的........可能不会被过滤掉???????
你过滤的条件里加入JS试试

P.S: 我过滤中文的时候 用的都是block list 至于说UTF-8......我没遇到过......能否给个LINK试试.......
vvmao
Posts: 34
Joined: Oct 04 2008, 16:59

Re: 关于执行效率的提问,欢迎随便聊聊啊,呵呵

Post by vvmao »

哦,还是表达式的问题,谢谢指点。
关于UTF-8页面主要是google。
因为以前使用Foxy代理服务器对网页进行重写和广告过滤,而且用来屏蔽一些关键词,比如“上网助手”这个关键词可以替换成“垃圾”。
使用proxo我是试着建立了一个过滤规则:

Code: Select all

<a*>*(上网助手|雅虎助手|百度搜霸|好123|3721|中搜|265|青娱乐|9991|超级搜索|中文上网|周鸿祎|千橡|很棒小秘书|一搜|陈一舟|李彦宏|百度推广)*</a>
意图通过这条规则过滤掉一些垃圾的链接,因为是测试所以没有做block list。但是用上述关键词去百度搜索可以达到效果,去google就不可以,我反复测试很多次,最后发现是UTF-8编码的问题,只要是UTF-8页面,中文就有问题。
Post Reply