采集电商平台中的店铺、产品属性,销量及评价信息,可用于复制爆款、潜在市场挖掘及舆情分析。
1、目标网站:天猫商品信息,网址:https://www.tmall.com
①在天猫首页输入关键词进行检索,对检索结果中的店铺实施采集;
②对店铺信息以及店铺内相应产品的信息实施采集。
①价格、销量等属性有时是在js文件中动态加载的,在网页源代码中没有相应的描述,因此通过源代码解析无法完成采集;
②频繁访问页面有时会封IP,影响采集实施。
使用火车浏览器的xpath采集,可以直接点击提取页面上的价格、销量等;可以使用火车浏览器代理设置功能,设置代理IP模拟代理IP。
三、应用成果
可采集商品名称,所属店铺,评价信息,价格等公开信息。