1.   如何在只下首页,或者说下载尽可能少的页面,收集全中文网站列表?

当前我已收集300万顶级域名,其中大致为中文网站的有50万-60万,距离CNNIC公布的中文网站76万的目标还有近20万的差距。

2.   如何根据下载的首页数据,准确判断一个网站是否为中文网站?

除了从cn域名,charset,汉字比例等判断因素外,还能通过什么规则或方法实施更准确的判断?