Semalt מניות דרך קלה לחילוץ מידע מאתרי אינטרנט

גרידת רשת היא שיטה פופולרית להשגת תוכן מאתרים. אלגוריתם שתוכנת במיוחד מגיע לדף הראשי של האתר ומתחיל לעקוב אחר כל הקישורים הפנימיים, ומרכיב את פנים הדיוויזיות שציינת. כתוצאה - קובץ CSV מוכן המכיל את כל המידע הדרוש שרוי בסדר קפדני. ניתן להשתמש ב- CSV שהתקבל בעתיד ליצירת תוכן כמעט ייחודי. ובכלל, כטבלה, נתונים כאלה הם בעלי ערך רב. תאר לעצמך שכל רשימת המוצרים של חנות בניין מוצגת בטבלה. יתר על כן, עבור כל מוצר, עבור כל סוג ומותג של המוצר, כל השדות והמאפיינים ממלאים. כל קופירייטר שעובד בחנות מקוונת ישמח להחזיק קובץ CSV כזה.

ישנם המון כלים לחילוץ נתונים מאתרי אינטרנט או גרוטאות באינטרנט ואל תדאגו אם אינכם מכירים שפות תכנות, במאמר זה אציג את אחת הדרכים הקלות ביותר - באמצעות Scrapinghub.

קודם כל כנסו לאתר scrapinghub.com, הרשמו והתחברו.

ניתן פשוט לדלג על השלב הבא לגבי הארגון שלכם.

ואז אתה מגיע לפרופיל שלך. אתה צריך ליצור פרויקט.

כאן אתה צריך לבחור אלגוריתם (אנו משתמשים באלגוריתם "Portia") וניתן שם לפרויקט. בוא נקרא לזה איכשהו יוצא דופן. לדוגמה, "111".

כעת אנו נכנסים למרחב העבודה של האלגוריתם בו אתה צריך להקליד URL של האתר ממנו תרצה לחלץ נתונים. לאחר מכן לחץ על "עכביש חדש".

נעבור לדף שעומד לשמש דוגמא. הכתובת מתעדכנת בכותרת העליונה. לחץ על "הערת דף זה".

הזז את סמן העכבר ימינה אשר יביא לתפריט להופיע. כאן אנו מעוניינים בכרטיסייה "פריט חלץ", שם אתה צריך ללחוץ על "ערוך פריטים".

עם זאת, הרשימה הריקה של השדות שלנו מוצגת. לחץ על "+ שדה".

הכל פשוט כאן: עליכם ליצור רשימת שדות. עבור כל פריט, עליך להזין שם (במקרה זה, כותרת ותוכן), לציין אם שדה זה נדרש ("חובה") והאם הוא יכול להשתנות ("שונה"). אם אתה מציין כי פריט הוא "חובה", האלגוריתם פשוט ידלג על דפים שבהם הוא לא יוכל למלא שדה זה. אם לא מסומן, התהליך יכול להימשך לנצח.

עכשיו פשוט לחץ על השדה הדרוש לנו וציין מה זה:

בוצע? ואז בכותרת של האתר לחץ על "שמור דוגמא". לאחר מכן תוכלו לחזור לחלל העבודה. עכשיו האלגוריתם יודע להשיג משהו, עלינו להגדיר עבורו משימה. לשם כך, לחץ על "פרסם שינויים".

עבור ללוח המשימות, לחץ על "הפעל עכביש". בחר אתר, עדיפות ולחץ על "הפעל".

ובכן, גירוד נמצא כעת בתהליך. המהירות שלה מוצגת על ידי הפניית הסמן על מספר הבקשות שנשלחו:

מהירות הכנת מיתרים מוכנים ב- CSV - על ידי הצבעה על מספר אחר.

כדי לראות רשימה של פריטים שנעשו כבר לחצו על מספר זה. תראה משהו דומה:

בסיום, ניתן לשמור את התוצאה על ידי לחיצה על כפתור זה:

זהו זה! כעת תוכלו לחלץ מידע מאתרים ללא ניסיון בתכנות.