主题:[讨论]基于正则表达式的网页过滤,求助!
目前在做一个简单的网络爬虫,但是在URL过滤这里遇到点麻烦 希望大家帮我解决一下,谢谢了!
1.先从网页的源码中,把所有herf后面的URL地址提取出来,必须是以http开头的地址
2.在提取出来的URL地址中,保留满足这个正则表达式(http://companyadc\.51job\.com/companyads/2\d{3}/\w{2,6}/\w*\d{4}_\d{4}/index\.htm)的URL,其他的删除。
请问这2个步骤用C#分别应该怎么实现啊?
谢谢了![em2]
1.先从网页的源码中,把所有herf后面的URL地址提取出来,必须是以http开头的地址
2.在提取出来的URL地址中,保留满足这个正则表达式(http://companyadc\.51job\.com/companyads/2\d{3}/\w{2,6}/\w*\d{4}_\d{4}/index\.htm)的URL,其他的删除。
请问这2个步骤用C#分别应该怎么实现啊?
谢谢了![em2]