Выскрабанне ў Інтэрнэце: добрыя і дрэнныя боты - тлумачэнне Semalt

Боты складаюць амаль 55 адсоткаў усяго вэб-трафіку. Гэта азначае, што большая частка трафіку вашага сайта ідзе ад інтэрнэт-ботаў, а не ад людзей. Бот - гэта праграмнае забеспячэнне, якое адказвае за выкананне аўтаматызаваных задач у лічбавым свеце. Як правіла, боты выконваюць паўтараюцца задачы з вялікай хуткасцю і ў асноўным непажаданыя людзьмі. Яны нясуць адказнасць за малюсенькія заданні, якія мы звычайна прымаем як належнае, уключаючы індэксацыю пошукавых сістэм, маніторынг здароўя сайта, вымярэнне яго хуткасці, падключэнне API і атрыманне вэб-змесціва. Таксама боты выкарыстоўваюцца для аўтаматызацыі аўдыту бяспекі і сканавання сайтаў, каб знайсці ўразлівасці, імгненна іх ліквідаваць.

Вывучэнне розніцы паміж добрымі і дрэннымі ботамі:

Ботаў можна падзяліць на дзве розныя катэгорыі, добрыя і дрэнныя. Добрыя боты наведваюць вашы сайты і дапамагаюць пошукавым сістэмам абнаўляць розныя вэб-старонкі. Напрыклад, Googlebot праглядае мноства сайтаў у выніках Google і дапамагае выявіць новыя вэб-старонкі ў Інтэрнэце. Ён выкарыстоўвае алгарытмы для ацэнкі, якія блогі ці вэб-сайты трэба сканіраваць, як часта трэба выконваць сканіраванне і колькі старонак праіндэксавана да гэтага часу. Няўдалыя боты нясуць адказнасць за выкананне шкоднасных задач, уключаючы выскрабанне вэб-сайтаў, спам у каментарах і DDoS-атакі. Яны складаюць звыш 30 працэнтаў усяго трафіку ў Інтэрнэце. Хакеры выконваюць дрэнныя боты і выконваюць розныя шкоднасныя задачы. Яны скануюць мільёны да мільярдаў вэб-старонак і імкнуцца незаконна выкрасці альбо вычысціць змест змесціва. Яны таксама спажываюць прапускную здольнасць і пастаянна шукаюць убудовы і праграмнае забеспячэнне, якое можа быць выкарыстана для пранікнення на вэб-сайты і базы дадзеных.

У чым шкода?

Звычайна пошукавыя сістэмы разглядаюць вычышчаны змест як паўтаральны змест. Гэта шкодна для ранжыравання пошукавых сістэм, а іх ачысткі будуць захопліваць вашы RSS-каналы для доступу і публікацыі вашага змесціва. Яны зарабляюць вялікія грошы з дапамогай гэтай тэхнікі. На жаль, пошукавыя сістэмы не рэалізавалі ніякага спосабу пазбавіцца ад дрэнных ботаў. Гэта азначае, што калі ваш кантэнт капіюецца і рэгулярна ўстаўляецца, рэйтынг вашага сайта пашкоджваецца праз некалькі тыдняў. Пошукавыя сістэмы караць сайты, якія ўтрымліваюць дублікат змесціва, і яны не могуць распазнаць, які з іх апублікаваў частку кантэнту.

Не ўсе выскрабанне ў Інтэрнэце дрэнна

Трэба прызнаць, што выскрабанне не заўсёды шкодна і шкодна. Гэта карысна для ўладальнікаў сайтаў, калі яны хочуць распаўсюджваць дадзеныя як мага больш асоб. Напрыклад, дзяржаўныя сайты і парталы падарожжаў прадастаўляюць карысную інфармацыю для шырокай грамадскасці. Гэты тып дадзеных звычайна даступны праз API, і для збору гэтых дадзеных выкарыстоўваюцца скрабкі. Ні ў якім разе гэта шкодна для вашага сайта. Нават калі вы скрэблі гэты кантэнт, ён не пашкодзіць рэпутацыі вашага інтэрнэт-бізнесу.

Яшчэ адзін прыклад сапраўднага і законнага выскрабання - сайты збору дадзеных, такія як парталы браніравання гатэляў, сайты квіткоў на канцэрты і інфармацыйныя пункты. Робаты, якія адказваюць за распаўсюд змесціва гэтых вэб-старонак, атрымліваюць дадзеныя праз API і чысцяць іх у адпаведнасці з вашымі інструкцыямі. Яны накіраваны на рух трафіку і здабываць інфармацыю для вэб-майстроў і праграмістаў.