比价网站的核心技术
有心用爬虫收集一下京东和亚马逊的商品及价格信息,在做的过程中才发现不知道怎么准确定位一种商品,我觉得这就是像etao.com这类比价网站的主要的核心技术了吧,因为单独爬一个商品的价格很容易就能实现了。
仔细看了下应该不是直接用二维码来区分的,因为在输入描述信息时候依然能够比价。
我的判断是他们可能做到了商品描述(厂商 产品名 型号)比如 用 “苹果 iPod touch 4代 8GB” 同条形码之间的映射,在爬虫工作时候按照自己一定的规则来爬出商品的名称。
这样无论是从描述信息还是条形码都能基本准确定位到一种商品。所以在建立模型以及准备数据的时候呢就要求按照统一的规格来建立描述信息,并且给补充条形码信息预留字段。同时还要给这商品打上标签,就像搜索的索引或者html中的关键词一样。或者和搜索引擎一块做?这个方面我还不是太懂,我需要的东西应该不简单的就是个lucene吧。




