- 绿色版查看
- 绿色版查看
- 绿色版查看
熊猫采集软件的设计目标之一,是作为通用的垂直搜索引擎,配合熊猫的分词索引检索引擎,用户可以轻松构建自己的行业垂直搜索引擎,如招聘人才、房产、购物、医疗健康、二手、分类信息、商务、交友、论坛、博客、新闻、经验、知识、软件等等,在此过程中,用户并不需要非常专业的技术基础即可构建自己的行业垂直搜索引擎。
熊猫采集的功能强大且全面,是复杂采集需求的必选。除老式采集工具软件所具有的功能外,特有功能包括:
面向对象采集。一个采集对象的子项内容可以是分散在若干个不同页面内,页面间可以是需要通过多次链接才能到达,数据彼此间可以具有复杂逻辑关系。
复杂结构对象的采集。支持使用多个数据库库表来联合存储采集结果。
正文与回复一并采集,新闻与评论一并采集,企业资料和企业多产品系列一并采集,等。采集的结果使用多张表联合存储,采集后的数据可以直接作为网站后台数据库使用。
分页内容自动智能合并。熊猫系统具有强大的自动分析判断能力,智能的完成各种情况下的分页内容的自动合并操作,无需用户过多干预。
每个被采集的页面都可以定义多个模板。系统会自动使用最匹配的模板,在传统采集工具中,由于无法有效解决多模板问题,使得采集结果很难完整。
仿浏览器动态Cookie对话。很多场合下,网站使用cookie的对话功能,实现对敏感数据的加密操作,避免数据被批量下载,此时就需要使用熊猫采集软件的动态Cookie对话功能。
图文混排对象的合并采集。对于文字内容中夹杂的非文字内容(如图片、动画、视频、音乐、文件等),熊猫也会进行智能化处理,自动下载该非文字对象到本地或指定的远程服务器,并对结果进行妥善处理,使得采集结果的图文混排对象中,可以保留被采集前的原样,以便用户能直接使用采集结果。
精炼的采集结果。熊猫采集软件使用仿浏览器解析技术,采集结果是从网页可视化内容中进行匹配,而不会在网页源码中使用正则表达式技术进行泛匹配,因此采集结果非常精炼,不会夹杂任何无关网页源码内容。
全程智能辅助操作。软件尽可能的自动为用户实现自动设置操作,仅将一些必要操作留给用户。同时帮助内容随着用户的操作而动态显示。
其它采集工具软件常见功能(模拟登录、伪原创、自动运行、多数据库引擎支持、自动发布、FTP同步上传、网页编码自动识别、图片与文件的下载、对采集结果进行过滤挑选、多线程、多任务等等)。
软件同时推出全功能免费版,仅限制采集许可总量,但用户可以通过各种途径(如反馈使用意见、友情链接、协助软件推广等)轻松扩大许可总量,积极参与的用户可以轻易获得无上限的许可总量。
有用
有用
有用