软件介绍
Offline Explorer是一款整站扒站工具,可以把整个网站的页面都下载下来,只需输入需要爬取的网站网址,软件自动爬取网站的链接,并下载爬取到的链接网页内容。
软件支持中文,在View-Language中选择Simplified Chinese即可,软件使用很简单。
软件使用方法
第1个,Level为下载层数,要下载的起始网页为0层,如果起始网页中存在一个链接A,那么链接A对应的网页为1层,如果在链接A网页中还存在一个链接B,那么链接B对应的网页为2层,以此类推。
第2个是URL Filters中的Servers设置,假设要下载的起始网页是 abc.com,
选择"服务器",那么只能下载 abc.com/.* (.*表示通配符)这个形式的网页,xx.abc.com 这个形式的网页不能下载;
选择"域名",那么只要二级域名是 abc.com 的网页都可以下载,即 xxx.abc.com 这个形式的网页可以下载。
第3个是URL Filters中的Directories设置,假设要下载的起始网页是 abc.com,
如果勾选了"仅从开始目录内以及以下目录下载文件",并且在"Included keywords"填入一个关键字"lib",
那么就只能下载 abc.com/.*lib.* 或者 abc.com/lib/.* 这个形式的网页,不能下载 abc.com/xyz 这种形式的网页,因为目录xyz与目录lib不同。
以 www.wdzzz.com/book 为例,下载《连城诀》的3个版本,3个版本的链接都有"lian"这个关键字,
勾选"仅载入下列开始范围内的文件",勾选"仅从开始目录内以及以下目录下载文件",Included keywords填入"lian",
下载层数Level设置为2层,这样就会把所有 www.wdzzz.com/book/.* 和 www.wdzzz.com/.*lian.*/.*
的网页都下载下来,下载完后,找到下载文件夹,把index.html拖入calibre,calibre会自动遍历,然后转换成epub等格式即可。