职位简介
1、负责设计和开发分布式的网络爬虫应用,包括调度、抓取、入库等内容,进行互联网相关信息的抓取和分析;
2、网络爬虫架构设计、功能开发及优化;
3、网页信息抽取等核心算法的研究和优化。负责公司运营平台开发工作;
4、负责解决项目相关的开发需求以及Bug修正,相关的问题的沟通协调工作。
任职要求:
1、统招研究生或本科,计算机或相关专业;
2、两年年以上爬虫开发经验;
3、熟悉爬虫原理,掌握常见的反爬虫技术,精通Scrapy框架,熟练使用Splash;
4、精通WebDriver,掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术;
5、熟练使用MySQL、MongoDB,SQLServer,熟悉Hadoop、HBase、Elastic Search等技术;
6、扎实的算法和数据结构能力,有大规模代理服务器管理经验和模板失效应对的经验优先。