কীভাবে একটি বড় সাইট ক্রল করা যায় এবং স্ক্রিমিং ব্যাঙের এসইও স্পাইডার ব্যবহার করে ডেটা এক্সট্রাক্ট করা যায়
আমরা এই মুহূর্তে মার্কেটো মাইগ্রেশনে বেশ কিছু ক্লায়েন্টকে সহায়তা করছি। যেহেতু বড় কোম্পানীগুলো এই ধরনের এন্টারপ্রাইজ সলিউশন ব্যবহার করে, এটি একটি মাকড়সার জালের মতো যা বছরের পর বছর ধরে প্রক্রিয়া এবং প্ল্যাটফর্মে নিজেকে বুনতে থাকে যতক্ষণ না কোম্পানিগুলি প্রতিটি টাচপয়েন্ট সম্পর্কেও সচেতন না হয়।
মার্কেটোর মতো একটি এন্টারপ্রাইজ মার্কেটিং অটোমেশন প্ল্যাটফর্মের সাথে, ফর্মগুলি হল সাইট এবং ল্যান্ডিং পেজ জুড়ে ডেটার এন্ট্রি পয়েন্ট৷ কোম্পানির প্রায়ই হাজার হাজার পৃষ্ঠা থাকে এবং তাদের সাইটের শত শত ফর্ম থাকে যা আপডেট করার জন্য চিহ্নিত করা আবশ্যক।
এটির জন্য দুর্দান্ত সরঞ্জাম ব্যাঙের এসইও স্পাইডার চিৎকার করছে… সম্ভবত একটি সাইট থেকে ক্রলিং, অডিটিং এবং ডেটা বের করার জন্য SEO বাজারে সবচেয়ে জনপ্রিয় প্ল্যাটফর্ম। বৈশিষ্ট্য সমৃদ্ধ প্ল্যাটফর্মটি আপনার প্রয়োজনীয় কার্যত প্রতিটি কাজের জন্য শত শত বিকল্প অফার করে। বৈশিষ্ট্যগুলি অনুসন্ধানের জন্য অপ্টিমাইজেশনের বাইরেও প্রসারিত, যদিও, এটি ক্রল করার সাথে সাথে আপনার সাইট থেকে ডেটা বের করার জন্য একটি অবিশ্বাস্যভাবে সহায়ক বৈশিষ্ট্য সহ।
চিৎকার ব্যাঙ এসইও স্পাইডার: ক্রল এবং এক্সট্রাক্ট
স্ক্রিমিং ফ্রগ এসইও স্পাইডারের একটি মূল বৈশিষ্ট্য হ'ল আপনি কাস্টম এক্সট্রাকশন ভিত্তিক করতে পারেন perform রেজেক্স, এক্সপ্যাথ, বা সিএসপিথ সুনির্দিষ্ট এটি অত্যন্ত কার্যকর কারণ আমরা ক্লায়েন্টের সাইটগুলি ক্রল করতে এবং অডিট করতে এবং পৃষ্ঠাগুলি থেকে MunchkinID এবং FormId মানগুলি ক্যাপচার করতে চাই৷
সরঞ্জাম সহ, খুলুন কনফিগারেশন> কাস্টম> এক্সট্রাকশন আপনি নিষ্কাশন করতে চান উপাদান সনাক্ত করতে।
নিষ্কাশন পর্দা কার্যত সীমাহীন ডেটা সংগ্রহের অনুমতি দেয়:
রেজেক্স, এক্সপ্যাথ এবং সিএসপ্যাথ এক্সট্রাকশন
MunchkinID-এর জন্য, শনাক্তকারীটি পৃষ্ঠায় থাকা ফর্ম স্ক্রিপ্টের মধ্যে অবস্থিত:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
তারপরে আমরা একটি প্রয়োগ করি রেজেক্স বিধি পৃষ্ঠায় sertedোকানো স্ক্রিপ্ট ট্যাগের মধ্যে থেকে আইডি ক্যাপচার করতে:
Regex: ["']id["']: *["'](.*?)["']
ফর্ম আইডির জন্য, ডেটা মার্কেটো ফর্মের মধ্যে একটি ইনপুট ট্যাগে রয়েছে:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
আমরা একটি প্রয়োগ এক্সপথ নিয়ম পৃষ্ঠায় ঢোকানো ফর্মের মধ্যে থেকে আইডি ক্যাপচার করতে। XPath ক্যোয়ারী একটি নাম সহ একটি ইনপুট সহ একটি ফর্ম সন্ধান করে৷ ফর্মিড, তারপর নিষ্কাশন সংরক্ষণ করে মূল্য:
XPath: //form/input[@name="formid"]/@value
ইনলাইন স্টাইল ট্যাগ বের করুন
আমরা একটি ক্লায়েন্টকে এমন একটি সাইট পরিষ্কার করতে সাহায্য করছি যেখানে তারা একটি পৃষ্ঠার সাথে কার্যত প্রতিটি উপাদান কাস্টমাইজ করতে Elementor প্লাগইনে ইনলাইন শৈলী ব্যবহার করেছে৷ ইনলাইন শৈলী কোথায় ব্যবহার করা হয়েছে তা সনাক্ত করতে, আমরা কাস্টম নিষ্কাশনের জন্য বেশ কয়েকটি RegEx নিয়ম সহ সাইটটিকে স্ক্র্যাপ করেছি:
- স্প্যান ইনলাইন শৈলী:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- অ্যাঙ্কর ট্যাগ ইনলাইন স্টাইল:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div ট্যাগ ইনলাইন শৈলী:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- শিরোনাম ট্যাগ ইনলাইন শৈলী:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
বর্জন
At Martech Zone, আমরা বিভিন্ন সাবডোমেনে একাধিক ভাষায় সাইটটি পরিবেশন করি। এই অনুবাদগুলি ক্রল করার প্রয়োজন নেই কারণ সমস্ত সম্পদ এবং তথ্য মূল সাইটের উপর ভিত্তি করে। এই কারণে, আমরা বাদ তালিকা কনফিগারেশন সক্ষম করেছি এবং নিম্নলিখিত নিয়ম যুক্ত করেছি:
.*\.martech.zone
আপনি যোগ করে ট্যাগের মতো অপ্রয়োজনীয় পাথ ক্রলিং এড়িয়ে যেতেও এটি ব্যবহার করতে পারেন:
martech.zone/tag/.*
আমরা আমাদের এএমপি পৃষ্ঠাগুলিও ক্রল করতে চাই না, যার শেষ হয় ?amp=1
, তাই মধ্যে
https?://[^\s]+?\?amp=1
প্ল্যাটফর্ম এমনকি কিছু পরীক্ষা করার জন্য একটি চমৎকার পদ্ধতি আছে URL গুলি আপনি আপনার সাইট ক্রল করার আগে তারা সঠিকভাবে কাজ করে তা নিশ্চিত করার জন্য নিয়মের বিরুদ্ধে।
স্ক্রিমিং ফ্রগ এসইও স্পাইডার জাভাস্ক্রিপ্ট রেন্ডারিং
স্ক্রিমিং ফ্রগের আরেকটি দুর্দান্ত বিকল্প হল যে আপনি সীমাবদ্ধ নন এইচটিএমএল পৃষ্ঠায়, আপনি যে কোনও জাভাস্ক্রিপ্ট রেন্ডার করতে পারেন যা আপনার সাইটের মধ্যে ফর্মগুলি সন্নিবেশ করতে যাচ্ছে। মধ্যে কনফিগারেশন> স্পাইডার, আপনি রেন্ডারিং ট্যাবে যেতে পারেন এবং এটি সক্ষম করতে পারেন।
অবশ্যই সাইটটি ক্রল করতে কিছুটা বেশি সময় নেয় না, তবে আপনি জাভাস্ক্রিপ্ট দ্বারা ক্লায়েন্ট-পাশাপাশি রেন্ডার করা ফর্ম পাশাপাশি সার্ভার-সাইড sertedোকানো ফর্মগুলি পাবেন।
যদিও এটি একটি খুব নির্দিষ্ট অ্যাপ্লিকেশন, আপনি বড় সাইটের সাথে কাজ করার কারণে এটি একটি অবিশ্বাস্যরূপে কার্যকর। আপনি সম্পূর্ণরূপে যেখানে আপনার ফর্মগুলি এম্বেড করা হয়েছে সেখানে নিরীক্ষণ করতে চাইবেন।
স্ক্রিমিং ফ্রগ এসইও স্পাইডারটি ডাউনলোড করুন
প্রকাশ: Martech Zone এই নিবন্ধে তার অধিভুক্ত লিঙ্ক ব্যবহার করা হয়.