[讨论]基于正则表达式的网页过滤，求助！

您所在位置：社区首页 — C#讨论区 — [讨论]基于正则表达式的网页过滤，求助！

主题：[讨论]基于正则表达式的网页过滤，求助！

zhangzilun [专家分：0] 发布于 2009-11-04 16:32:00

目前在做一个简单的网络爬虫，但是在URL过滤这里遇到点麻烦希望大家帮我解决一下，谢谢了！
1.先从网页的源码中，把所有herf后面的URL地址提取出来，必须是以http开头的地址
2.在提取出来的URL地址中，保留满足这个正则表达式（http://companyadc\.51job\.com/companyads/2\d{3}/\w{2,6}/\w*\d{4}_\d{4}/index\.htm）的URL，其他的删除。

请问这2个步骤用C#分别应该怎么实现啊？

谢谢了！[em2]

本帖地址： http://bbs.pfan.cn/post/311886.html

回复列表（共0个回复）

暂无回复

我来回复

您尚未登录，请登录后再回复。点此登录或注册

主题：[讨论]基于正则表达式的网页过滤，求助！

回复列表（共0个回复）

我来回复

程序员工具箱 new

代码片段

本版新帖

主题：[讨论]基于正则表达式的网页过滤，求助！

回复列表 （共0个回复）

我来回复

程序员工具箱 new

代码片段

本版新帖

回复列表（共0个回复）