需先配置页面渲染,可自动加载ajax内容
将所有页面源码中的相对地址转换成绝对地址(包含超链接、图片、JS链接等)
以相反的顺序采集内容页网址
默认将已采集网址排重过滤,选择“是”允许重复采集
{:cp_sign('match')}标签可获取匹配的数据,否则获取完全匹配的数据 获取匹配节点的html代码 获取匹配的json字符串
XPATH匹配到的值自动保存为{:cp_sign('match')}标签以供拼接调用 JSON匹配到的值自动保存为{:cp_sign('match')}标签以供拼接调用
开启后内容页网址中的get参数将以post形式提交
开启循环入库后,将以第一个循环字段的数量为准,后面的循环字段会映射第一个循环字段的索引并自动获取相应位置的值入库,非循环字段则以当前值入库;如开启了分页,分页内容也会循环入库
规则中无{:cp_sign('match')}标签时,自动将完全匹配的数据保存为{:cp_sign('match')}标签以供拼接调用 XPATH匹配到的值自动保存为{:cp_sign('match')}标签以供拼接调用 JSON匹配到的值自动保存为{:cp_sign('match')}标签以供拼接调用
填0表示不限制会自动循环抓取到最后一页,为防止出现无限循环的情况,最好设置一个数值