taobao.com 淘宝商品描述页超链接修复

针对特定网站的规则分享、讨论

Moderator: phoenix

Post Reply
User avatar
phoenix
Site Admin
Posts: 525
Joined: Dec 29 2007, 16:27

taobao.com 淘宝商品描述页超链接修复

Post by phoenix » Jan 01 2008, 20:17

经常使用淘宝的人会注意到,商品描述里的超链接都会被淘宝自动替换掉,使得我们需要访问该链接时,只能手动拷贝粘贴目标网址到浏览器的地址栏。

无论淘宝是出于安全考虑或其他目的,这么做都是非常愚蠢的,因为它并不能阻止真正有兴趣的人访问目标网址,只是给使用者增加不便而已。

以下规则会自动恢复<a href="url">http://target.url</a>或<a href="url">www.target.com</a>形式的超链接,即将“url”替换为<a></a>之间的内容。对于<a href="url">文字</a>形式的超链接,如果文字不包含目标网址信息,我们就无能为力了。

Code: Select all

[Patterns]
Name = "Taobao Item Description Link Fix 2008.03.11 [phoenix]"
Active = TRUE
URL = "$TYPE(js)dsc*.taobao.com/"
Bounds = "<a\s*</a>"
Limit = 256
Match = "<a href="(http://auction*|http://upload*|#)"*>((<*>)++)\0(http://(*)\1|(www.*)\1)((<*>)++)\2</a>"
Replace = "<a href="http://\1" target="_blank">\0\1\2</a>"
2008年3月11日更新: href处增加http://以使用绝对地址


另外,淘宝服务器对dsc*.taobao.com地址的内容返回Content-Type: text/plain; charset=GBK,该类型默认不在被过滤之列。如果不使用sidki的config set,需要添加下面的http header filter予以纠正。

Code: Select all

[HTTP headers]
In = TRUE
Out = FALSE
Key = "Content-Type: Taobao Description Fix"
URL = "dsc*.taobao.com"
Match = "text/plain;*"
Replace = "text/javascript"

Post Reply