亿级文档分布式索引和检索_厦门书生_书生七剑

早期单机几百万数据即可以做一个行业重直搜索引擎了，但是随着互联网发展，数据量激增，而且用户不仅要”准“还需要”全“，以微猫搜索来说，其数据即来源于全网各数据源，已收录有1.5亿企业的各类相关信息，原始采集的仅文本数据就已有十几TB，其加工后索引也超过数TB，这象的数据规模在单台服务器上已无法保证检索性能。书生从早期自研分布式lucence系统，到后来采用solr clound，再到如今使用ES分布式索引集群也经过了几代发展，已具备针对各类检索系统的亿级文档的分布式架构设计与开发运维能力。