集搜客网络爬虫(GooSeeker) v8.7.0
分享到:
集搜客网络爬虫(GooSeeker)是深圳天据电子商务有限公司出品的一款免费网页抓取软件,集搜客GooSeeker网络爬虫与其它网络爬虫相比,在易用性方面已经远远胜出,加上 一键启动网络爬虫这个独特性功能和整个[资源共享平台的支撑,已经大大降低了对用户的技术基础条件的要求。然而,网页抓取毕竟是一个技术工作,需要适当掌握HTML等基础知识。集搜客网络爬虫系统由服务器和客户端两部分组成,服务器是用来存储规则和线索(待抓网址),MS谋数台是用来制作网页抓取规则的,DS打数机就是用来采集网页数据的,拥有可视化编程、模板资源套用、通用网络爬虫、会员互助抓取、不限深度广度等特色,支持集成化图形界面、抓取规则自动生成、随机延迟、抓取结果本地存储、高仿真模拟点击等功能,帮助用户轻松抓取网页数据,性能稳定,小巧实用,有需要的朋友不要错过哦!
包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性
2、抓取规则自动生成
指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则
3、原始网页内容纠错
网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取
4、防屏蔽抓取
有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽
5、清理运行状态
使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存
不用程序思维,不要技术基础,点击想要的内容,软件自动管理所选内容,自动放进整理箱
2、可视化免编程
抓取软件操作简单,完全可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握
3、模板资源套用
在抓取规则的详情页面,您可以仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据
4、通用网络爬虫
采用功能强大的火狐浏览器内核,所见即所得
5、会员互助抓取
这是爬虫群并行抓取的一种特殊情形,利用这个功能,可以低成本快速汇集海量数据
6、不限深度不限广度
以尽量低的成本获得数据,而且只获取需要的网页内容
7、抓取指数图表
集搜客网络爬虫具有强大的图表数据抓取能力,而且提供一个开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作
8、本地化存储保护隐私
把所有采集结果数据直接存储在用户个人电脑上,便于用户对采集结果数据做各种处理
9、自动登录验证码识别
具有自动登录功能,只需要设置相关参数,就可以控制集搜客网络爬虫定期自动登录相应的账号
10、定时自启动采集
可以设置定时自动采集,完全无需人工干预,自动采集最新数据,自动实现持续增量数据采集
11、爬虫群并行抓取
集搜客的并行抓取功能,一方面可以帮助个人解决效率低下的问题,另一方面也促进社区闲散资源的整合利用
12、一键“集搜”启动多爬虫抓取数据
可选择分布式采集的方式,把采集任务分配到多台电脑上执行
13、手机网站数据抓取
使用GooSeeker采集手机网站数据和采用PC网站数据同样简单, 可视化定义抓取规则的过程完全一样
2、软件默认的安装路径是C:Program Files (x86)集搜客GooSeeker,如需安装到其他盘符下请点击“浏览”,选后路径后点击确定,然后点击下一步。
3、默认创建安装文件夹集搜客GooSeeker,直接点击下一步即可,如想安装到其他文件夹下请点“浏览”选择文件夹
4、勾选创建桌面快捷方式再点下一步,
5、按提示框点击安装
6、进入自动安装,因各电脑配置不同安装消耗的时间也不同,请耐心等待。
7、如出现界面表示安装成功,点击“完成”即可。
这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
2、保存信息结构描述文件失败:not writable?
①主题名重复了,换个主题名就行
②“爬虫路线”工作台上,如果有下级线索,也要注意不能与别人重名。都有“查重”按钮,可以检查一下
3、为什么谋数台又打不开了,打数机能打开?
①火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单->选项->高级->更新里设置不检查更新
②下载了更高版本或中国版火狐,里面安装很多插件,可能影响到gooseeker爬虫的正常使用
③电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
1、解决Mac版菜单失灵问题
2、连续打码增强成高仿真输入
3、连续打码处理图片功能增加适应性
软件功能
1、集成化图形界面包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性
2、抓取规则自动生成
指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则
3、原始网页内容纠错
网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取
4、防屏蔽抓取
有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽
5、清理运行状态
使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存
软件特色
1、直观标注采数据不用程序思维,不要技术基础,点击想要的内容,软件自动管理所选内容,自动放进整理箱
2、可视化免编程
抓取软件操作简单,完全可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握
3、模板资源套用
在抓取规则的详情页面,您可以仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据
4、通用网络爬虫
采用功能强大的火狐浏览器内核,所见即所得
5、会员互助抓取
这是爬虫群并行抓取的一种特殊情形,利用这个功能,可以低成本快速汇集海量数据
6、不限深度不限广度
以尽量低的成本获得数据,而且只获取需要的网页内容
7、抓取指数图表
集搜客网络爬虫具有强大的图表数据抓取能力,而且提供一个开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作
8、本地化存储保护隐私
把所有采集结果数据直接存储在用户个人电脑上,便于用户对采集结果数据做各种处理
9、自动登录验证码识别
具有自动登录功能,只需要设置相关参数,就可以控制集搜客网络爬虫定期自动登录相应的账号
10、定时自启动采集
可以设置定时自动采集,完全无需人工干预,自动采集最新数据,自动实现持续增量数据采集
11、爬虫群并行抓取
集搜客的并行抓取功能,一方面可以帮助个人解决效率低下的问题,另一方面也促进社区闲散资源的整合利用
12、一键“集搜”启动多爬虫抓取数据
可选择分布式采集的方式,把采集任务分配到多台电脑上执行
13、手机网站数据抓取
使用GooSeeker采集手机网站数据和采用PC网站数据同样简单, 可视化定义抓取规则的过程完全一样
安装教程
1、首先到本页面下方下载数据压缩包然后进行解压,解压出的文件夹里有个“集搜客GooSeekerSetup.exe”可执行文件,双击可执行文件进入安装,悬着语言然后点击下一步如图2、软件默认的安装路径是C:Program Files (x86)集搜客GooSeeker,如需安装到其他盘符下请点击“浏览”,选后路径后点击确定,然后点击下一步。
3、默认创建安装文件夹集搜客GooSeeker,直接点击下一步即可,如想安装到其他文件夹下请点“浏览”选择文件夹
4、勾选创建桌面快捷方式再点下一步,
5、按提示框点击安装
6、进入自动安装,因各电脑配置不同安装消耗的时间也不同,请耐心等待。
7、如出现界面表示安装成功,点击“完成”即可。
常见问题
1、网络爬虫状态错误,无法从FAILED状态启动爬虫?这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
2、保存信息结构描述文件失败:not writable?
①主题名重复了,换个主题名就行
②“爬虫路线”工作台上,如果有下级线索,也要注意不能与别人重名。都有“查重”按钮,可以检查一下
3、为什么谋数台又打不开了,打数机能打开?
①火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单->选项->高级->更新里设置不检查更新
②下载了更高版本或中国版火狐,里面安装很多插件,可能影响到gooseeker爬虫的正常使用
③电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
更新日志
集搜客网络爬虫(GooSeeker) 8.2.1更新1、解决Mac版菜单失灵问题
2、连续打码增强成高仿真输入
3、连续打码处理图片功能增加适应性
展开更多
集搜客网络爬虫(GooSeeker) v8.7.0下载地址
- 需先下载高速下载器:
- 专用下载:
- 其它下载: