企业信息搜索引擎内一家公司有一百多个数据维度,包括企业工商、产品、版本、商标、专利、失信、招聘等维度,其数据来源于400多个不同数据源,要对这些数据源的信息进行实时监控、一旦发现数据有变动就执行对该数据的抓取采集并反馈,实现完全无人工参与的数据自动化更新,最终目标是形成一个企业信息情报的分析监控系统。其中多数据源需要一体化加工处理,这些数据源大多都是半结构化,其实是无结构化的,因为采集回来的数据需要进行清洗加工,加工包括:基础数据乱码过滤、联系方式的抽取、公司名称标准化处理,最后各维度数据通过公司名称进行关联集成处理,并最终送入企业关系图谱系统。