دليل المبتدئين من Semalt على تخريد صفحة الويب

تتزايد البيانات والمعلومات على الويب يومًا بعد يوم. في الوقت الحاضر ، يستخدم معظم الأشخاص Google كمصدر أول للمعرفة ، سواء كانوا يبحثون عن مراجعات حول نشاط تجاري أو يحاولون فهم مصطلح جديد.

مع كمية البيانات المتاحة على الويب ، فإنه يفتح الكثير من الفرص لعلماء البيانات. لسوء الحظ ، فإن معظم البيانات على الويب ليست متاحة بسهولة. يتم تقديمه بتنسيق غير منظم يُشار إليه بتنسيق HTML غير قابل للتنزيل. وبالتالي ، فإنه يتطلب معرفة وخبرة عالم البيانات للاستفادة منها.

تجريد الويب هو عملية تحويل البيانات الموجودة بتنسيق HTML إلى تنسيق منظم يمكن الوصول إليه واستخدامه بسهولة. يمكن استخدام جميع لغات البرمجة تقريبًا من أجل تخريد الويب المناسب. ومع ذلك ، في هذه المقالة ، سنستخدم لغة R.

هناك عدة طرق يمكن من خلالها إزالة البيانات من الويب. بعض من الأكثر شعبية تشمل:

1. النسخ واللصق البشري

هذه تقنية بطيئة ولكنها فعالة جدًا في انتزاع البيانات من الويب. في هذه التقنية ، يحلل الشخص البيانات بنفسه ثم يقوم بنسخها إلى التخزين المحلي.

2. مطابقة نمط النص

هذا هو نهج آخر بسيط ولكنه قوي لاستخراج المعلومات من الويب. يتطلب استخدام مرافق مطابقة التعبير العادية للغات البرمجة.

3. واجهة API

تزودك الكثير من مواقع الويب مثل Twitter و Facebook و LinkedIn وما إلى ذلك بواجهات برمجة تطبيقات عامة أو خاصة والتي يمكن تسميتها باستخدام الرموز القياسية لاسترداد البيانات بتنسيق محدد.

4. تحليل DOM

لاحظ أن بعض البرامج يمكنها استرداد المحتوى الديناميكي الذي تم إنشاؤه بواسطة البرامج النصية من جانب العميل. من الممكن تحليل الصفحات في شجرة DOM استنادًا إلى البرامج التي يمكنك استخدامها لاسترداد بعض أجزاء من هذه الصفحات.

قبل الشروع في تجريف الويب في R ، تحتاج إلى معرفة أساسية عن R. إذا كنت مبتدئًا ، فهناك العديد من المصادر الرائعة التي يمكن أن تساعدك. أيضًا ، يجب أن يكون لديك معرفة بـ HTML و CSS. ومع ذلك ، نظرًا لأن معظم علماء البيانات ليسوا على دراية جيدة بالمعرفة التقنية لـ HTML و CSS ، يمكنك استخدام برنامج مفتوح مثل أداة محدد.

على سبيل المثال ، إذا كنت تقوم بقص البيانات على موقع IMDB لأكثر 100 فيلم شعبية تم إصدارها في فترة معينة ، فأنت بحاجة إلى استخراج البيانات التالية من أحد المواقع: الوصف ووقت التشغيل والنوع والتصنيف والأصوات والأرباح الإجمالية والمخرج و المصبوب. بمجرد التخلص من البيانات ، يمكنك تحليلها بطرق مختلفة. على سبيل المثال ، يمكنك إنشاء عدد من التصورات المثيرة للاهتمام. الآن عندما يكون لديك فكرة عامة عن معنى تخريد البيانات ، يمكنك شق طريقك حولها!