浏览器核心的爬虫引擎内核_厦门书生_书生七剑

浏览器核心的爬虫引擎内核

书生是国内甚至国际上最早应用浏览器内核技术来实现分布式爬虫技术的企业之一，企业平台网站半结构化数据多，同一条信息往往跨越多页，随动态网页和H5技术的发展，早期基于http协议级实现的爬虫在动态内容采集上脚本代码实现很麻烦。为此书生的爬虫经历了五次迭代，从2007年开始的第二代爬虫引擎上就开始应用浏览器内核技术，支持执行页面脚本，可以所见即所得的编辑采集工作流，技术上在当时即已领先于火车头采集器。其后又经过基于firefox内核的第三代，基于phantomjs的webkit内核的第四代，直到现在基于headless chrome内核的第五代爬虫引擎，其发展一直紧跟最先进的浏览器内核标准，因此一直具备”可见即可得“的数据快速采集能力。