主题:收集全中文网站列表?
1. 如何在只下首页,或者说下载尽可能少的页面,收集全中文网站列表?
当前我已收集300万顶级域名,其中大致为中文网站的有50万-60万,距离CNNIC公布的中文网站76万的目标还有近20万的差距。
2. 如何根据下载的首页数据,准确判断一个网站是否为中文网站?
除了从cn域名,charset,汉字比例等判断因素外,还能通过什么规则或方法实施更准确的判断?
当前我已收集300万顶级域名,其中大致为中文网站的有50万-60万,距离CNNIC公布的中文网站76万的目标还有近20万的差距。
2. 如何根据下载的首页数据,准确判断一个网站是否为中文网站?
除了从cn域名,charset,汉字比例等判断因素外,还能通过什么规则或方法实施更准确的判断?