图片下载
火车采集器的所有版本均支持下载图片。
这里所说的图片是 源代码里的有标准样式<img src=”图片地址”/>标签的图片地址。
所以只要您采集的源代码里有这这样的图片代码,采集器会将其中的图片下载到本地。
如果是一个直接的图片地址,如http://www.locoy.com/logo.gif ,或者不规则的图片源码,
采集器是会做为文件下载。
下载文件是需要收费版本支持。
图片的下载设置如下:
勾选 “将相对地址补全为绝对地址” , “下载图片” 即可完成下载
“将相对地址补全为绝对地址”:勾选后,会把标签采集到相对地址补全为绝对地址。
“下载图片”:勾选后,源代码里的含标准样式
<img src="图片地址"/>
的代码图片将会下载“探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个就会把真实地址给采集出来,但是只是得到下载地址并不下载。
“探测文件并下载”:勾选后,可以把采集到的任何格式的文件附件下载下来。
比如我们需要把下载的图片保存为 <img src="http://www.locoy.com/images/201510/1.jpg">
格式
下面我们来将其拆分为 头+中+尾 三部分
http://www.locoy.com/ 是网站域名;
images/201510/ 是文件路径,201510是年月的意思
1.jpg 是文件名和后缀
其他设置–文件图片下载–文件链接地址前缀:设置为 http://www.locoy.com/
其他设置–文件图片下载–所有文件保存根目录:可以根据您需要设置
内容采集规则–数据处理–文件下载–文件保存目录:设置为 images/201510/
此时我们需要在绿色字体前加 \
做转义,年月做替换,故是下图设置效果:
内容采集规则–数据处理–文件下载–文件保存格式:您可以自定义设置重命名