उपयोग में आसान, शक्तिशाली क्रॉलर NodeJS और React में लागू किया गया

समस्याओं को खत्म करने के लिए हमारे साधन का प्रयास करें

उपयोग में आसान, शक्तिशाली क्रॉलर NodeJS और React में लागू किया गया

वेब क्रॉलर

वेबक्रॉलर क्या करता है?

वेब के अनुसार स्क्रैप करें:

  • से स्क्रैप करना प्रारंभ करने वाला url.

  • प्रारंभ url से क्रॉल करने के लिए अधिकतम गहराई।

  • संपूर्ण स्क्रैप कार्य के लिए पृष्ठों की अधिकतम संख्या।



    हिमस्खलन टोकन कहां से खरीदें

    (किसी कार्य के maxDepth या maxPages, जो भी पहले हो, तक पहुंचने पर उसे क्रॉल करना बंद कर दें।)

प्रत्येक स्क्रैप किए गए पृष्ठ में है:

  1. शीर्षक - दस्तावेज़ पृष्ठ का शीर्षक।
  2. गहराई - वर्तमान गहराई को स्क्रैप किया जा रहा है।
  3. url - स्क्रैप किया गया URL।
  4. लिंक - पेज में एंकर टैग में सभी hrefs।

आर्किटेक्चर:

आरेख

नया स्क्रैप नौकरी प्रवाह

आरेख

Vue 3 टाइपप्रति उदाहरण

जल्दी शुरू:

  1. भागो |_+_|
  2. भागो |_+_|

प्रौद्योगिकी:

  • नोडजेएस
  • प्रतिक्रिया
  • व्यक्त करना
  • वेब भंडारण

मुख्य पैकेज:

  • सॉकेट.आईओ - रीयल-टाइम द्विदिश घटना-आधारित संचार को सक्षम बनाता है।
  • Lowdb - नोड, इलेक्ट्रॉन और ब्राउज़र के लिए छोटा JSON डेटाबेस। लोदश द्वारा संचालित।
  • नोड-एचटीएमएल-पार्सर - फास्ट एचटीएमएल पार्सर एक बहुत तेज एचटीएमएल पार्सर है। जो मूल तत्व क्वेरी समर्थन के साथ एक सरलीकृत DOM ट्री जनरेट करेगा।

भविष्य के विस्तार के लिए:

  1. अतिव्यापी स्क्रैप नौकरियों के लिए चलने का समय बचाएं।
  2. श्रमिकों की संख्या की गणना, गतिशील रूप से भार और प्रदर्शन किए जाने वाले स्क्रैप कार्यों की संख्या के आधार पर।
  3. हटाने, रोकने और स्क्रैप कार्य जारी रखने का विकल्प जोड़ें

स्नैपशॉट:

छवि छवि छवि

विवरण डाउनलोड करें:

लेखक: पेराचबीडी

ओसीएन सिक्का मार्केट कैप

सोर्स कोड: https://github.com/PerachBD/WebCrawler

#नोडज #नोड #जावास्क्रिप्ट #प्रतिक्रिया

यह सभी देखें: