DK爬虫

        DK Crawler是大快专有组件,爬虫系统,爬取动态静态数据。大快搜索通过dksou.com网站提供通用在线爬虫服务,用户仅需通过简单的自定义规则(专业用户可编写脚本),即可获取所需的个性化、结构化的数据,并自动建立索引和分析。

DK爬虫技术优势

K Crawler是大快专有组件,爬虫系统,爬取动态静态数据。DK Crawler采用Hadoop平台作为网页存储并形成可用的系统;采用Elasticsearch作为索引存储,降低了搜索引擎的开发难度,加快了开发周期;采用HBase同步表的机制,完善的解决了爬虫同步问题,避免了以往采用网络心跳为主的复杂、不可靠的同步方式,使用HBase的数据表同步,爬虫系统稳定、开发代码量降低;采用即算即存,存储到ES中的权重值实时可用;此外还支持分布式多线程,支持优先级队列,支持代理IP,灵活任务配置,支持定时任务,支持节点失败任务转移等特点。
1这里是一张图片(可详细的说一下原理等)

DK爬虫--应用场景


DK Crawler让基层企事业单位,特别是中小企业和青年创客在数据层面不再处于劣势,让数据不再是大公司的独享,为创新带来更多机遇,对政府建立一体化信息开放平台、金融机构实时数据汇总等应用有重要的意义。