QQ空间中包含很多未被百度收录的原创内容或文章,且在不断的更新扩充,因此QQ空间是一个具有大量有价值信息的采集源。
二、具体案例
1、目标网站:QQ空间,网址为登录账号的QQ空间地址。
①登录QQ空间;
②采集QQ空间的说说、文章等。
①QQ空间需要登录才能访问;
②用户发布的说说等内容在源代码中没有描述。
可以使用火车浏览器的xpath来模拟登录,并提取有效内容。
可以采集到空间中的QQ号码、QQ名称、说说内容、日志文章(此项需空间开放方可采集)等。