Page 1 of 1

有没有人试过在Blocklists中使用中文的情况

Posted: Oct 10 2008, 17:09
by vvmao
我看到 http://forum.proxomitron.cn/viewtopic.php?f=2&t=89 这里说Blockfile是支持中文的。怎么我这里就不行啊,比如我想过滤包含“网游”的链接。
是不是我的软件版本问题,怎么都是怪事。

规则就是下面的这样,SexUrlKey里面有两个词:“变态” “test” 英文正常,中文不行。Blockfile有什么特定的写法吗?

Code: Select all

[Patterns]
Name = "ad"
Active = TRUE
Bounds = "$NEST(<a*>,</a>)"
Limit = 512
Match = "<a*>*$LST(SexUrlKey)*</a>"
Replace = "www"

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 11 2008, 16:12
by phoenix
经测试,Proxomitron确实无法识别Blockfile中以汉字开头的条目,你的问题可以用变通方法解决。

规则改为:

Code: Select all

[Patterns]
Name = "ad"
Active = TRUE
Bounds = "$NEST(<a*>,</a>)"
Limit = 512
Match = "$LST(ph_ForTest)"
Replace = "www"
Blockfile如下,以解决汉字开头条目无法识别的问题:
*test*
*变态*

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 11 2008, 18:19
by vvmao
谢谢回复,不过这个方法我试过了,对字母可以过滤,汉字不行。你那里测试过吗?
会不会是Blocklists文件编码需要特别设置?

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 11 2008, 18:41
by vvmao
vvmao wrote:谢谢回复,不过这个方法我试过了,对字母可以过滤,汉字不行。你那里测试过吗?
会不会是Blocklists文件编码需要特别设置?
找到原因了,重启计算机之后,在gb2312页面里可以,utf-8页面不行。比如google就是u,百度和搜狗是gb。因为一直用google,所以···

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 12 2008, 00:05
by imsheng
寒。这个不就是那时候我在群里问的问题吗?

那时候举的例子是过滤链接中含有“私服”或者“登陆器”字样的链接。
Ray4还帮我改了一下规则。如下。当然这个规则也是有时候无效的。想不到还包含有编码的问题啊。


[Patterns]
Name = "a.href"
Active = FALSE
URL = "$TYPE(htm)|$TYPE(js)"
Limit = 256
Match = "<a\s[^>]+>[^<]++$LST(aa)[^<]+</a>"
Replace = "\0"


[Patterns]
Name = "a"
Active = TRUE
URL = "$TYPE(htm)|$TYPE(js)"
Limit = 512
Match = "$NEST(<a\s[^>]+>(( <[^>]+> )+{0,6} |)([^<>/]++(30天会说英语|私服|登录器)[^<>/]+)*,</a>)"
Replace = "\0"

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 12 2008, 15:23
by vvmao
我也是反反复复试验了很多次才知道这个原因,当时头都大了以为闹鬼呢。
不能完整支持中文真是一件非常遗憾的事情。

Re: 有没有人试过在Blocklists中使用中文的情况

Posted: Oct 17 2008, 16:58
by phoenix
抽空写了篇教程,UTF-8编码网页中中文的处理方法:D