हर उस बुकमार्क को रखना चाहते हैं जिसकी आप ऑफ़लाइन देखभाल करते हैं?  हम आपको दिखाते हैं कि अपने स्वयं के ओपन-सोर्स सेल्फ-होस्टेड वेब आर्काइव कैसे बनाएं।

कैसे बनाएं अपना निजी सेल्फ-होस्टेड रीड-इट-लेटर ऐप

विज्ञापन इंटरनेट ज्ञान का एक बड़ा खजाना है। लेकिन यह क्षणभंगुर है और इस बात की कोई गारंटी नहीं है कि भविष्य में आपकी पसंद की सामग्री वहां मौजूद होगी। यदि आप उस सामग्री को खोने का जोखिम नहीं उठा सकते हैं, तो आप वेब पेज की एक प्रति संग्रहीत करने के लिए एक वेब संग्रह उपकरण का उपयोग कर सकते हैं। बहुत से लोग वेब लेखों को सहेजने के लिए रीड-बाद की सेवाओं का उपयोग करते हैं। ये ऐप टेक्स्ट-आधारित सामग्री के साथ सबसे अच्छा काम करते हैं और जटिल वेबपेज डिज़ाइन या मीडिया को ठीक से नहीं संभालते हैं। कुछ और नियंत्रण चाहते हैं? आइए देखें कि बिना किसी वेब पेज की संपत्ति खोए आप अपने कंप्यूटर में इंस्टैपपेपर या पॉ

विज्ञापन

इंटरनेट ज्ञान का एक बड़ा खजाना है। लेकिन यह क्षणभंगुर है और इस बात की कोई गारंटी नहीं है कि भविष्य में आपकी पसंद की सामग्री वहां मौजूद होगी। यदि आप उस सामग्री को खोने का जोखिम नहीं उठा सकते हैं, तो आप वेब पेज की एक प्रति संग्रहीत करने के लिए एक वेब संग्रह उपकरण का उपयोग कर सकते हैं।

बहुत से लोग वेब लेखों को सहेजने के लिए रीड-बाद की सेवाओं का उपयोग करते हैं। ये ऐप टेक्स्ट-आधारित सामग्री के साथ सबसे अच्छा काम करते हैं और जटिल वेबपेज डिज़ाइन या मीडिया को ठीक से नहीं संभालते हैं। कुछ और नियंत्रण चाहते हैं?

आइए देखें कि बिना किसी वेब पेज की संपत्ति खोए आप अपने कंप्यूटर में इंस्टैपपेपर या पॉकेट का क्लोन कैसे बना सकते हैं।

पेश है आर्काइवबॉक्स

आर्काइवबॉक्स एक ओपन सोर्स सॉल्यूशन है, जो आपको वॉकबैक मशीन जैसी आर्काइविंग सर्विस के लिए खुद के विकल्प को होस्ट करने में मदद कर सकता है। आप अपनी गोपनीयता नहीं छोड़ते हैं या ऐसी सेवा में बंद नहीं रहते हैं जिसे आप नियंत्रित नहीं कर सकते।

यह उन URL की सूची लेता है जिन्हें आप संग्रह करना चाहते हैं और कई प्रारूपों में सामग्री का स्थानीय, ब्राउज़ करने योग्य HTML क्लोन बनाते हैं। इसमें HTML में स्थानीय प्रतियां, पृष्ठ का एक स्क्रीनशॉट, एक पीडीएफ फाइल और WARC (वेब ​​ARChive) शामिल हैं।

यदि भविष्य में मूल वेबपेज गायब हो जाता है तो भी ये प्रतियां आपके पास रहती हैं।

संग्रह पुरालेख Python 3 में लिखा गया है। यह वेब पेज को बचाने के लिए Wget, Headless Chrome, Youtube-dl और अन्य Unix टूल जैसी निर्भरता का भी उपयोग करता है। आपको लगातार चलने वाले बैकेंड सर्वर की आवश्यकता नहीं है। जब भी आप नए लिंक आयात करना चाहते हैं और स्थैतिक आउटपुट को अपडेट करना चाहते हैं, तो इसे हर बार चलाएं।

संग्रह पूरा होने के बाद, आप संग्रह देखने के लिए अपने ब्राउज़र में उत्पन्न आउटपुट / index.html खोल सकते हैं।

ArchiveBox

आर्काइवबॉक्स के लाभ

  • यह कई फ़ाइल स्वरूपों में लिंक को संग्रहीत करता है जो बैकअप के रूप में काम करते हैं।
  • यह परिष्कृत कैप्चरिंग विधियों का उपयोग करके मूल वेबपेज को बनाए रखने की कोशिश करता है।
  • सामग्री को स्वचालित रूप से निकालने और उन्हें एक फ़ोल्डर में सहेजने की क्षमता है।
  • यह कई लिंक, फीड और बुकमार्क से निपटने के लिए एक सरल, कमांड-लाइन इंटरफ़ेस भी प्रदान करता है। आपको इसे एक बार सेट करना होगा और इसे नए लिंक को संग्रहित करने के लिए एक शेड्यूल पर चलाना होगा।

आर्काइवबक्स के नुकसान

  • संग्रह पुरालेख वेबपृष्ठ से सभी संपत्तियों को निकालता है। यह महत्वपूर्ण डिस्क स्थान की खपत करता है और सीपीयू गहन है।
  • ऐप को पायथन 3.5 से परे तीन या अधिक निर्भरता की आवश्यकता होती है। इन घटकों को एक साथ काम करने के लिए ट्रायल-एंड-एरर लगता है।
  • ऐप पूरी तरह से विंडोज ओएस को सपोर्ट नहीं करता है। आपको Docker को स्थापित करना होगा या Linux (WSL) के लिए विंडोज सबसिस्टम को सक्षम करना होगा लिनक्स के लिए विंडोज सबस्क्रिपशन का उपयोग कैसे करें लिनक्स के लिए विंडोज के लिए लिनक्स का उपयोग कैसे करें लिनक्स के लिए विंडोज के लिए लिनक्स का उपयोग कैसे करें अपने विंडोज पीसी पर लिनक्स चलाना चाहते हैं? लिनक्स के लिए विंडोज सबसिस्टम का उपयोग करते हुए विंडोज के भीतर लिनक्स डेस्कटॉप चलाने का तरीका बताया गया है। अधिक पढ़ें । तब भी कुछ सुविधाएँ काम कर सकती हैं या नहीं।

समर्थित ऑपरेटिंग सिस्टम

आर्काइवबॉक्स आधिकारिक तौर पर निम्नलिखित ऑपरेटिंग सिस्टम का समर्थन करता है:

  • macOS: होमब्रे के साथ 10.12 सिएरा।
  • लिनक्स: उबंटू, डेबियन (एपीटी के साथ)। ऐप फेडोरा, सेंटोस, एसयूएसई, आर्क और अधिक जैसे डिस्ट्रोस में काम कर सकता है (या नहीं भी कर सकता है)।
  • BSD: FreeBSD, OpenBSD, NetBSD (pkg के साथ)।

निर्भरता

आर्कबॉक्स एक लचीला वेब आर्काइविंग टूल है। आपको निम्न निर्भरताएँ स्थापित करनी होंगी और न्यूनतम आवश्यकताओं को पूरा करना होगा।

  • पायथन 3. मैकओएस के साथ आने वाले डिफ़ॉल्ट पायथन 2.0 का उपयोग न करें।
  • W 1.16
  • क्रोमियम 59. यदि आप पहले से ही Google क्रोम का उपयोग करते हैं, तो क्रोमियम स्थापित न करें।
  • Youtube-dl (वैकल्पिक): मीडिया संसाधनों को बहुत अधिक संग्रहण स्थान की आवश्यकता होती है। अपने बुकमार्क संग्रहीत करने से पहले इसे एक विस्तृत विचार दें।

संग्रह पुरालेख सेट करें

आर्काइवबॉक्स स्थापित करने के दो तरीके हैं- स्वचालित और मैनुअल

स्वचालित विधि में, एक सहायक स्क्रिप्ट ऐप और उनकी निर्भरता स्थापित करेगा। लेकिन अगर कोई त्रुटि होती है तो आप समस्या का निवारण नहीं कर पाएंगे। एप्लिकेशन को मैन्युअल रूप से इंस्टॉल करना बेहतर है।

प्रदर्शन के उद्देश्य के लिए, हम macOS 10.14.6 का उपयोग करेंगे।

निर्भरता को स्थापित करना

निर्भरता स्थापित करने का सबसे अच्छा तरीका होमब्रेव नामक पैकेज प्रबंधक के माध्यम से है। इसकी मूल बातें समझने के लिए, Homebrew के साथ मैक एप्लिकेशन इंस्टॉल करने के तरीके के बारे में इस लेख को देखें।

टर्मिनल खोलें और में टाइप करें

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(इसे छोड़ें यदि आपके पास पहले से ही Google क्रोम / क्रोमियम एप्लिकेशन में स्थापित है)

सभी निर्भरता के संस्करण संख्या की जाँच करें

सभी निर्भरताओं के संस्करण संख्या की जांच करने के लिए, टाइप करें

 dependency app --version 

(निर्भरता ऐप को python3, wget, youtube-dl और अधिक से बदलें)

सभी निर्भरता के संस्करण की जाँच करें

अपने बुकमार्क निर्यात फ़ाइल डाउनलोड करें

सभी पठन-बाद की सेवाएँ और ब्राउज़र आपके बुकमार्क को HTML फ़ाइल के रूप में निर्यात कर सकते हैं। अपने ब्राउज़र से बुकमार्क कैसे निर्यात करें, क्रोम, फ़ायरफ़ॉक्स और / या एज के बीच बुकमार्क को माइग्रेट कैसे करें, क्रोम, फ़ायरफ़ॉक्स और / या एज के बीच बुकमार्क को माइग्रेट कैसे करें, इस लेख के निर्देशों का पालन करें। अपने बुकमार्क को नए ब्राउज़र में स्थानांतरित करना चाहते हैं या उन्हें सुरक्षित करने के लिए वापस? क्रोम, फ़ायरफ़ॉक्स और एज में ऐसा करने का तरीका बताया गया है। अधिक पढ़ें । आप टेक्स्ट फ़ाइल में एकल लिंक या URL की सूची भी सहेज सकते हैं।

संग्रह पुरालेख स्थापित करें

GitHub से रेपो को क्लोन करें। टर्मिनल खोलें, और टाइप करें

 git clone https://github.com/pirate/ArchiveBox 

फिर,

 cd ArchiveBox/ 

जब आप इस रेपो को क्लोन करते हैं, तो इंस्टॉलर आपके होम डायरेक्टरी में एक आर्काइवबॉक्स फ़ोल्डर बनाएगा। इस फ़ोल्डर में सभी मुख्य एप्लिकेशन और कॉन्फ़िगरेशन फ़ाइलें हैं।

संग्रह पुरालेख स्थापित करें

अपने URL को पुरालेख में जोड़ें

यदि आप किसी एकल लिंक को संग्रहीत करना चाहते हैं, तो टाइप करें

 echo 'https://example.com'| ./archive 

एकल लिंक को संग्रहित करना

नए बनाए गए आउटपुट फ़ोल्डर को देखने के लिए अपने संग्रह पुरालेख फ़ोल्डर में नेविगेट करें। यहाँ, आप एक index.html फ़ाइल देखेंगे।

पुरालेख बॉक्स आउटपुट फ़ोल्डर

आर्काइव में कई लिंक जोड़ना

जब आप कई लिंक (दर्जनों या अधिक) सहेजना चाहते हैं, तो अपने लिंक को टेक्स्ट फ़ाइल में जोड़ना बेहतर होता है। एप्लिकेशन फ़ाइल के अंदर URL को पार्स करेगा और उन्हें संग्रहित करेगा। टर्मिनल खोलें और में टाइप करें

 ./archive [Path to Your File.txt] 

यदि आपकी फ़ाइल डाउनलोड फ़ोल्डर में स्थित है, तो आपका पथ जैसा दिखेगा

 ./archive /Users/(Home directory name)/Downloads/links.txt 

प्रक्रिया को पूरा करने के लिए कुछ मिनट / घंटे तक प्रतीक्षा करें। अपने संग्रह तक पहुंचने के लिए, अपने ब्राउज़र में आउटपुट / इंडेक्सHtml खोलें। आप कॉलम के आधार पर सॉर्ट कर सकते हैं, ऊपरी-दाएं भाग में बॉक्स का उपयोग करके शीर्षक खोज सकते हैं, और नीचे दिए गए लिंक की कुल संख्या देख सकते हैं।

संग्रह के माध्यम से संग्रहीत पुरालेख

विवरण पृष्ठ पर जाने के लिए फ़ाइल कॉलम के तहत फ़ेविकॉन पर क्लिक करें। स्क्रीनशॉट के रूप में आपको व्यक्तिगत फ़ाइल प्रारूप के लिंक मिलेंगे। वही लिंक भी आर्काइव.ऑर्ग पर अपलोड हो जाता है।

प्रत्येक संग्रहीत लिंक का विवरण पृष्ठ

उसी तरह, एक HTML फ़ाइल के रूप में अपने Instapaper या पॉकेट लिंक निर्यात करें। फिर, टाइप करें

 ./archive ~/Downloads/instapaper-export.html 

आप फ़ीड URL से लिंक की एक सूची भी आयात कर सकते हैं। लेकिन याद रखें कि आप कई विफलताओं या सत्र के समय से पहले सामना कर सकते हैं। यदि हजारों URL हैं, तो सफलता की दर बढ़ाने के लिए उन्हें छोटी फ़ाइलों में तोड़ देना बेहतर है।

आर्काइवबॉक्स कॉन्फ़िगर करें

अधिकांश मामलों में डिफ़ॉल्ट सेटिंग्स काम करती हैं, लेकिन कुछ महत्वपूर्ण पैरामीटर हैं जो आपको अधिक सुविधाएँ प्राप्त करने के लिए ट्विक कर सकते हैं। कॉन्फ़िगरेशन फ़ाइल में रहता है

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

नोट: इस फ़ाइल को संशोधित न करें, क्योंकि जब भी आप ऐप को अपडेट करेंगे, वे मिट जाएंगे। एक सतत कॉन्फ़िगरेशन फ़ाइल बनाने के लिए, टाइप करें

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Cp कमांड आपके होम डायरेक्टरी में कॉन्फ़िगरेशन फ़ाइल की डुप्लिकेट कॉपी बनाएगी। डिफ़ॉल्ट रूप से, फ़ाइल आपकी निर्देशिका में दिखाई नहीं देती है। Cmd + Shift + अवधि प्रेस करने के लिए। TextEdit में कॉन्फ़िग फ़ाइल खोलें।

आर्काइवबॉक्स कॉन्फिग फाइल की कॉपी

पैरामीटर

आर्काइवबॉक्स आपको कई विकल्प प्रदान करता है। यहाँ कुछ महत्वपूर्ण हैं;

  • ONLY_NEW : नए जोड़े गए लिंक के लिए संग्रह को डाउनलोड करने के लिए इसे True पर सेट करें। यदि आप नियमित रूप से बुकमार्क लिंक करते हैं तो उपयोगी है।
  • समय : संभावित मान 60 या 120 सेकंड हैं। यदि आप बार-बार टाइमआउट त्रुटियों को देखते हैं तो इसे 120 सेकंड तक बढ़ा सकते हैं।
  • URL_BLACKLIST : आप संग्रह से कुछ डोमेन, एक्सटेंशन या URL पैटर्न को बाहर करने के लिए regex अभिव्यक्ति का उपयोग कर सकते हैं।
  • FETCH_MEDIA : youtube-dl का उपयोग करके सभी ऑडियो और वीडियो फ़ाइलों को प्राप्त करें। इसे केवल True पर सेट करें जब आपके पास पर्याप्त स्टोरेज हो।
  • WGET_USER_AGENT : संग्रह के दौरान उपयोगकर्ता एजेंट को बदलने के लिए इसका उपयोग करें। यदि आप कुछ सर्वरों द्वारा अवरुद्ध हो रहे हैं, तो यह विकल्प उपयोगी है।

कॉन्फ़िगरेशन विवरण के बारे में अधिक जानने के लिए, अधिक जानकारी के लिए संग्रह पुरालेख विन्यास पर जाएँ।

आपका पुरालेख प्रकाशित करना

संग्रह पुरालेख बॉक्स द्वारा उत्पादित किसी भी प्रदाता के साथ संगत है जो स्थिर HTML होस्ट कर सकता है। उदाहरण के लिए, GitHub पृष्ठ।

आप अपने वेब निर्देशिका में आउटपुट फ़ोल्डर को सीधे अपलोड करके इसे होम सर्वर या वीपीएस से भी प्राप्त कर सकते हैं।

सुनिश्चित करें कि आप किसी भी सामग्री को CGI या PHP के रूप में नहीं चला रहे हैं, आप केवल स्थिर HTML फ़ाइलों की मेजबानी करना चाहते हैं।

अपने संग्रह की मेजबानी के दोनों पेशेवरों और विपक्ष हैं। जब आप यादृच्छिक साइटों से लिंक डाउनलोड करते हैं, तो आपको अपने साझा डोमेन में दुर्भावनापूर्ण CSS और JS फ़ाइलों की मेजबानी के खतरों को समझना चाहिए। आप निजी बने रहने के लिए robots.txt फ़ाइल में अपने अभिलेखागार को ब्लैकलिस्ट करना चाह सकते हैं।

ऑफ़लाइन वेबसाइट डाउनलोड करें

वेब संग्रह ने पिछले कुछ वर्षों में ध्यान आकर्षित किया है। वे एक वेब पेज की संपूर्ण सामग्री को रिकॉर्ड करते हैं, जिसमें स्रोत HTML, एम्बेडेड चित्र, स्टाइलशीट और जावास्क्रिप्ट कोड शामिल हैं। संग्रह पुरालेख वेब संग्रह उपकरण और सेवाओं की व्यापक श्रेणी में सही बैठता है।

यदि आप Instapaper या Pocket से निराश हैं, तो आर्काइवबॉक्स एक उत्कृष्ट विकल्प है। वेब लेखों के अलावा, आप पूरी वेबसाइटों को ऑफ़लाइन उपयोग करने या उनके ज्ञान को संरक्षित करने के लिए संग्रह करना चाह सकते हैं। यदि आपकी यह रुचियां हैं, तो इस टुकड़े को ऑफ़लाइन पढ़ने के लिए किसी भी वेबसाइट को डाउनलोड करने के तरीके के बारे में पढ़ें कि कैसे ऑफ़लाइन पढ़ने के लिए एक पूरी वेबसाइट डाउनलोड करें जब आपके पास वाई-फाई या 4 जी न हो। अधिक पढ़ें ।

अधिक के बारे में अन्वेषण करें: Instapaper, ऑनलाइन बुकमार्क, ओपन सोर्स, पॉकेट, इंटरनेट आर्काइव।