爬蟲崗位職責

爬蟲崗位職責篇1

職位描述：

工作職責：

1、負責設計和開發分散式網路爬蟲系統，進行多平台信息的抓取和分析工作；

2、負責網頁信息和app數據抽取、清洗、消重等工作，提昇平台的'抓取效率；

3、參與爬蟲核心算法和策略最佳化，熟悉採集系統的調度策略；

4、實時監控爬蟲的進度和警報反饋。

任職要求：

1、有紮實的算法和數據結構能力；

2、熟悉爬蟲原理，熟悉常見的反爬蟲技術，有爬蟲相關項目開發經驗者優先；

3、掌握http協定，熟悉html、dom、xpath等常見的數據抽取技術；

4、有大規模數據處理、數據挖掘、信息提取等經驗者優先。

爬蟲崗位職責篇2

崗位職責：

1.負責網路爬蟲的架構設計、開發與最佳化；

2.負責抓取數據的清洗、落地、分析；

3.抓取策略算法的'更新維護，以及確保數據抽取準確、高效。

任職要求：

1.兩年及以上網際網路或軟體行業工作經驗；

2.理解http協定，熟悉html、dom、xpath；

3.熟悉linux開發環境，至少熟悉python/go/java/中的一種程式語言；

4.有爬蟲、信息抽取、文本分類、大數據處理相關經驗優先；

5.有自然語言處理、機器學習經驗優先；

6.熟悉瀏覽器核心、渲染機制優先；

7.工作認真，細心，有條理，積極性高；良好的溝通能力及團隊合作精神。

爬蟲崗位職責篇3

職責描述:

1、負責公司產品的爬蟲架構設計與開發,以及爬蟲策略最佳化等工作;

2、根據數據產品需求,負責對網頁等大規模文本數據抓取、清洗、存儲等設計開發工作;

任職要求:

1、計算機、數學或統計等相關專業本科及以上學歷,1年以上爬蟲相關工作經驗;

2、熟悉linux平台,熟練掌握python或java爬蟲開發工作;

3、熟悉靜態、動態網頁等大規模文本數據的高效信息抽取、清洗、存儲等技術;

4、有反爬相關問題處理經驗,精通常用的'爬蟲技術及架構設計,並能快速開發實現;

5、具備良好的編程習慣和算法基礎;

6、善於學習,熱愛技術開發,善於團隊協作,能積極主動地參與公司產品研發等相關工作。

爬蟲崗位職責篇4

職位描述：

工作職責：

1.開發網頁自動化腳本。

2.負責商品信息結構化，編寫自動化腳本解析網頁信息。

3.商品索引系統：億級sku的庫存價格實時跟蹤同步，並對商品進行智慧型分類、本地化、圖片處理和去重。

4.設計、開發、測試、部署以及維護並改進各子系統；

5.管理項目優先權並按時交付。

職位要求：

1.全日制統招本科、碩士畢業，1年以上軟體開發工作經驗；

2.熟悉至少一門通用靜態編譯程式語言，c/c++/java/c#/go；

3.熟悉web端基礎標準，包括html、css、javascript、json等；

4.熟悉python或其他腳本語言，有興趣和能力根據需求學習其他程式語言；

5.熟悉unix/linux環境，memcache/redis/mongodb等存儲系統，能獨立設計開發包括前後端互動的業務子系統；

6.熟悉常見的設計模式、單元測試、持續開發集成、code review，並能在日常工作踐行；

7.了解搜尋引擎、電子商務、社交類套用的系統基本架構，能對已有的.子系統進行最佳化調整的優先；

8.活躍的開源項目貢獻者優先。

爬蟲崗位職責篇5

職位要求:

具備良好的計算機基礎，熟悉http協定，具備良好的'基礎前端知識;

有過良好的高並發系統的後台開發經驗;

具備一定的數據處理/分析經驗，熟悉hadoop、mapreduce、spark等並行計算框架;

了解小程式的基礎框架，有實際開發經驗更優;

掌握c/c++、python等一門或多門語言，有nodejs開發經驗更優;

如果您還具備以下技能，我們會優先考慮:

具備網路爬蟲系統的開發經驗，有反爬蟲實踐經驗;

具備機器學習框架的開發使用經驗;

熟悉傳統搜尋引擎的seo規則。

爬蟲崗位職責篇6

職責描述：

1.參與爬蟲系統的架構設計與開發；

2.負責執行和開發分散式網路爬蟲系統，進行多平台信息的抓取和分析；

3.負責網頁信息和app數據抽取、清洗、消重等工作，提昇平台的'抓取效率；

4.參與爬蟲核心算法和策略最佳化，熟悉採集系統的調度策略；

5.實時監控爬蟲的進度和警報反饋。

任職要求：

1.本科以上學歷，3年以上爬蟲開發相關經驗，熟練使用python或java進行開發；

2.熟練使用正則表達式、css path、xpath等，能夠從結構化的和非結構化的數據中獲取信息；

3.熟練使用mysql資料庫，掌握redis、mongodb、hive等常用nosql技術並具有實戰經驗；

4.熟悉各種抓取技術，包括代理、phantomjs/selenium、驗證碼處理；

5.熟悉整個爬蟲的設計及實現流程，有從事網路爬蟲、網頁信息抽取開發經驗，熟悉反爬蟲技術，有分散式爬蟲架構經驗；

6.具有數據挖掘、自然語言處理、信息檢索、機器學習背景者優先；

7.快速學習能力，工作積極主動，有創業熱情和良好的團隊協助能力；

8.需要有大量數據爬取以及高難度反爬經驗，沒有相關經驗的勿擾。

爬蟲崗位職責 篇1

爬蟲崗位職責 篇2

爬蟲崗位職責 篇3

爬蟲崗位職責 篇4

爬蟲崗位職責 篇5

爬蟲崗位職責 篇6

爬蟲崗位職責篇1

爬蟲崗位職責篇2

爬蟲崗位職責篇3

爬蟲崗位職責篇4

爬蟲崗位職責篇5

爬蟲崗位職責篇6