Το Semalt παρέχει συμβουλές για το πώς να αντιμετωπίσετε ρομπότ, αράχνες και ανιχνευτές

Εκτός από τη δημιουργία διευθύνσεων URL φιλικών προς τη μηχανή αναζήτησης , το αρχείο .htaccess επιτρέπει στους webmasters να αποκλείουν την πρόσβαση συγκεκριμένων bots στον ιστότοπό τους. Ένας τρόπος για να αποκλείσετε αυτά τα ρομπότ είναι μέσω του αρχείου robots.txt. Ωστόσο, ο Ross Barber, ο Διαχειριστής επιτυχίας πελατών Semalt , δηλώνει ότι έχει δει μερικούς ανιχνευτές να αγνοούν αυτό το αίτημα. Ένας από τους καλύτερους τρόπους είναι να χρησιμοποιήσετε το αρχείο .htaccess για να τους εμποδίσετε να ευρετηριάσουν το περιεχόμενό σας.

Ποια είναι αυτά τα bots;

Είναι ένας τύπος λογισμικού που χρησιμοποιείται από τις μηχανές αναζήτησης για τη διαγραφή νέου περιεχομένου από το Διαδίκτυο για σκοπούς ευρετηρίασης.

Εκτελούν τις ακόλουθες εργασίες:

  • Επισκεφθείτε ιστοσελίδες στις οποίες έχετε συνδεθεί
  • Ελέγξτε τον κώδικα HTML για σφάλματα
  • Αποθηκεύουν τις ιστοσελίδες στις οποίες συνδέεστε και βλέπουν σε ποιες ιστοσελίδες συνδέονται με το περιεχόμενό σας
  • Ευρετηριάζουν το περιεχόμενό σας

Ωστόσο, ορισμένα ρομπότ είναι κακόβουλα και αναζητούν στον ιστότοπό σας διευθύνσεις ηλεκτρονικού ταχυδρομείου και φόρμες που συνήθως χρησιμοποιούνται για την αποστολή ανεπιθύμητων μηνυμάτων ή ανεπιθύμητων μηνυμάτων. Άλλοι αναζητούν ακόμη και κενά ασφαλείας στον κώδικά σας.

Τι απαιτείται για τον αποκλεισμό των προγραμμάτων ανίχνευσης ιστού;

Πριν χρησιμοποιήσετε το αρχείο .htaccess, πρέπει να ελέγξετε τα ακόλουθα πράγματα:

1. Ο ιστότοπός σας πρέπει να εκτελείται σε διακομιστή Apache. Σήμερα, ακόμη και αυτές οι εταιρείες φιλοξενίας ιστοσελίδων μισές αξιοπρεπείς στη δουλειά τους, σας δίνουν πρόσβαση στο απαιτούμενο αρχείο.

2. Πρέπει να έχετε πρόσβαση σε εσάς τα μη επεξεργασμένα αρχεία καταγραφής διακομιστή του ιστότοπού σας, ώστε να μπορείτε να εντοπίσετε ποια ρομπότ επισκέπτονται τις ιστοσελίδες σας.

Λάβετε υπόψη ότι δεν υπάρχει τρόπος να αποκλείσετε όλα τα επιβλαβή bots, εκτός εάν τα αποκλείσετε όλα, ακόμη και αυτά που θεωρείτε χρήσιμα. Νέα bots εμφανίζονται καθημερινά και τα παλαιότερα τροποποιούνται. Ο πιο αποτελεσματικός τρόπος είναι να ασφαλίσετε τον κώδικά σας και να δυσκολευτείτε τα bots να σας spam.

Αναγνώριση bots

Τα bots μπορούν να αναγνωριστούν είτε από τη διεύθυνση IP είτε από το "User Agent String" που στέλνουν στις κεφαλίδες HTTP. Για παράδειγμα, η Google χρησιμοποιεί το "Googlebot".

Ίσως χρειαστείτε αυτήν τη λίστα με 302 bots, εάν έχετε ήδη το όνομα του bot που θέλετε να αποφύγετε να χρησιμοποιείτε το .htaccess

Ένας άλλος τρόπος είναι να κατεβάσετε όλα τα αρχεία καταγραφής από τον διακομιστή και να τα ανοίξετε χρησιμοποιώντας ένα πρόγραμμα επεξεργασίας κειμένου. Η θέση τους στο διακομιστή ενδέχεται να αλλάξει ανάλογα με τη διαμόρφωση του διακομιστή σας. Εάν δεν μπορείτε να τα βρείτε, ζητήστε βοήθεια από τον οικοδεσπότη Ιστού σας.

Εάν γνωρίζετε ποια σελίδα επισκεφτήκατε ή την ώρα της επίσκεψης, είναι πιο εύκολο να έρθετε με ένα ανεπιθύμητο bot. Θα μπορούσατε να αναζητήσετε το αρχείο καταγραφής με αυτές τις παραμέτρους.

Κάποτε, έχετε παρατηρήσει ποια bots πρέπει να αποκλείσετε. Στη συνέχεια μπορείτε να τα συμπεριλάβετε στο αρχείο .htaccess. Λάβετε υπόψη ότι ο αποκλεισμός του bot δεν αρκεί για να το σταματήσετε. Μπορεί να επιστρέψει με μια νέα IP ή όνομα.

Πώς να τα αποκλείσετε

Κατεβάστε ένα αντίγραφο του αρχείου .htaccess. Κάντε αντίγραφα ασφαλείας, εάν απαιτείται.

Μέθοδος 1: αποκλεισμός μέσω IP

Αυτό το απόσπασμα κώδικα αποκλείει το bot χρησιμοποιώντας τη διεύθυνση IP 197.0.0.1

Παραγγελία Άρνηση, Επιτρέψτε

Άρνηση από 197.0.0.1

Η πρώτη γραμμή σημαίνει ότι ο διακομιστής θα αποκλείσει όλα τα αιτήματα που ταιριάζουν με τα μοτίβα που έχετε καθορίσει και θα επιτρέψει σε όλα τα άλλα.

Η δεύτερη γραμμή λέει στον διακομιστή να εκδώσει μια σελίδα 403: απαγορευμένη

Μέθοδος 2: Αποκλεισμός από πράκτορες χρήστη

Ο ευκολότερος τρόπος είναι να χρησιμοποιήσετε τη μηχανή επανεγγραφής του Apache

Ενεργοποίηση επανεγγραφής

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

Ξαναγράψτε τον κανόνα. - [F, L]

Η πρώτη γραμμή διασφαλίζει ότι η ενότητα επανεγγραφής είναι ενεργοποιημένη. Η δεύτερη γραμμή είναι η συνθήκη στην οποία εφαρμόζεται ο κανόνας. Το "F" στη γραμμή 4 λέει στον διακομιστή να επιστρέψει ένα 403: Απαγορευμένο, ενώ το "L" σημαίνει ότι αυτός είναι ο τελευταίος κανόνας.

Στη συνέχεια, θα ανεβάσετε το αρχείο .htaccess στον διακομιστή σας και θα αντικαταστήσετε το υπάρχον. Με τον καιρό, θα χρειαστεί να ενημερώσετε την IP του bot. Σε περίπτωση που κάνετε σφάλμα, απλώς ανεβάστε το αντίγραφο ασφαλείας που δημιουργήσατε.

mass gmail