您的位置首页生活百科

heritrix抓取整个页面后如何得到想要的数据

heritrix抓取整个页面后如何得到想要的数据

的有关信息介绍如下:

heritrix抓取整个页面后如何得到想要的数据

需要用正则表达式来过滤到你不想要的东西,抓取和过滤的原理是一样的,就是具有共性的头和尾,把中间部分抓出来.

正则表达式在抓取中应用比较多,也可以称之为一种规则,你抓取内容要按照一定的规则来抓取,无用的你还得按照一定的规则过滤.