Kako blokirati dostop do SeekportBota ali drugega crawKliknil sem na spletno stran

Večino časa, ko morate blokirati dostop SeekportBot ali drugi crawl bots pri spletnem mestu so razlogi preprosti. Spletni pajek v kratkem času opravi preveč dostopov in zahteva vire spletnega strežnika ali pa prihaja iz iskalnika, v katerem ne želite, da se vaša spletna stran indeksira.

To je zelo koristno za spletno mesto, ki ga obišče crawTrčila sem vanj. Ti spletni pajki so zasnovani za raziskovanje, obdelavo in indeksiranje vsebine spletnih strani v iskalnikih. Google in Bing uporabljata take crawTrčila sem vanj. Vendar pa obstajajo tudi iskalniki, ki uporabljajo robote za zbiranje podatkov s spletnih strani. Seekport je eden od teh iskalnikov, ki uporablja crawSeekportBot ler za indeksiranje spletnih strani. Žal ga včasih uporablja pretirano in ustvarja nepotreben promet.

Kaj je SeekportBot?

SeekportBot je web crawler razvilo podjetje Seekport, ki ima sedež v Nemčiji (vendar uporablja IP-je iz več držav, vključno s Finsko). Ta bot se uporablja za pajkanje in indeksiranje spletnih mest, tako da so lahko prikazana v rezultatih iskalnikov. Seekport. Nedelujoč iskalnik, kolikor vem. Vsaj meni ni vrnil nobenega rezultata za nobeno ključno frazo.

SeekportBot Uporaba user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Kako blokirati dostop do SeekportBota ali drugega crawKliknil sem na spletno stran

Če ste prišli do zaključka, da temu ali drugemu spletnemu pajku ni treba pregledati celotne spletne strani in ustvarjati nepotrebnega prometa na spletnem strežniku, imate na voljo več načinov, s katerimi jim lahko preprečite dostop.

Požarni zid na ravni spletnega strežnika

So aplikacije požarnega zidu open-source ki jih je mogoče namestiti v operacijske sisteme Linux in se lahko konfigurira tako, da blokira promet na podlagi več meril. IP naslov, lokacija, vrata, protokoli ali uporabniški agent.

APF (Advanced Policy Firewall) je taka programska oprema, preko katere lahko blokirate neželene bote, na ravni strežnika.

Ker SeekportBot in drugi spletni pajki uporabljajo več blokov IP-jev, najučinkovitejše pravilo blokiranja temelji na "user agent". Torej, če želite blokirati dostop SeekportBot s pomočjo APF, vse kar morate storiti je, da se povežete s spletnim strežnikom prek SSHin dodajte pravilo filtra v konfiguracijsko datoteko.

1. Odprite konfiguracijsko datoteko z nano (ali drug založnik).

sudo nano /etc/apf/conf.apf

2. Poiščite vrstico, ki se začne z "IG_TCP_CPORTS” in dodajte uporabniškega agenta, ki ga želite blokirati, na koncu te vrstice, ki mu sledi vejica. Na primer, če želite blokirati user agent "SeekportBot", mora biti vrstica videti takole:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Shranite datoteko in znova zaženite storitev APF.

sudo systemctl restart apf.service

Dostop »SeekportBot« bo blokiran.

Filter web crawls s pomočjo Cloudflare – Blokiraj dostop SeekportBotu

S pomočjo Cloudflare se mi zdi najvarnejša in najbolj priročna metoda, s katero lahko nekaterim botom na različne načine omejite dostop do spletne strani. Metoda, ki sem jo uporabil tudi v primeru SeekportBot za filtriranje prometa v spletno trgovino.

Ob predpostavki, da imate spletno mesto že dodano v Cloudflare in so storitve DNS aktivirane (to pomeni, da promet do spletnega mesta poteka prek Cloudflare), sledite spodnjim korakom:

1. Odprite svoj račun Clouflare in pojdite na spletno stran, za katero želite omejiti dostop.

2. Pojdite na: Security → WAF in dodajte novo pravilo. Create rule.

3. Izberite ime za novo pravilo, Field: User Agent - Operator: Contains - Value: SeekportBot (ali drugo ime bota) – Choose action: Block - Deploy.

Kako blokirati dostop SeekportBot
Blokirajte dostop do SeekportBot iz Cloudflare

V le nekaj sekundah novo pravilo WAF (Web Application Firewall) začne učinkovati.

Dogodki požarnega zidu v Cloudflare
Dogodki požarnega zidu v Cloudflare

Teoretično je mogoče nastaviti pogostost, s katero spletni pajek dostopa do spletnega mesta robots.txt, ampak ... to je samo v teoriji.

User-agent: SeekportBot
Crawl-delay: 4

Mnogi web crawlerii (razen Bing in Google) ne upoštevajo teh pravil.

Skratka, če prepoznate splet crawKdor prekomerno dostopa do vaše strani, je najbolje, da mu popolnoma blokirate dostop. Seveda, če ta bot ni iz iskalnika, v katerem vas zanima prisotnost.

Strasten do tehnologije, z veseljem pišem na StealthSettings.com od leta 2006. Imam bogate izkušnje s operacijskimi sistemi: macOS, Windows in Linux, ter programskimi jeziki in platformami za bloganje (WordPress) in za spletne trgovine (WooCommerce, Magento, PrestaShop).

kako » čisti Surfing » Kako blokirati dostop do SeekportBota ali drugega crawKliknil sem na spletno stran
Pustite komentar