• 2024-12-03

Definició de Web Spidering i Web Crawlers

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100

Taula de continguts:

Anonim

Les aranyes són programes (o scripts automatitzats) que "rastregen" la web buscant dades. Les aranyes viatgen a través d'URL del lloc web i poden treure dades de pàgines web com a adreces de correu electrònic. Les aranyes també s'utilitzen per alimentar la informació que es troba als llocs web als motors de cerca.

Les aranyes, que també es coneixen com a "rastrejadors web", busquen a la web i no tots són amables en la seva intenció.

Llocs web de Spider per recopilar informació

Google, Yahoo! i altres motors de cerca no són els únics interessats en arrossegar llocs web - també són estafadors i spammers.

Els spammers utilitzen les aranyes i altres eines automatitzades per trobar adreces de correu electrònic (a Internet aquesta pràctica sovint es coneix com a "collita") i després les utilitza per crear llistes de correu brossa.

Les aranyes són també una eina utilitzada pels motors de cerca per obtenir més informació sobre el vostre lloc web, però sense marcar-la, un lloc web sense instruccions (o "permisos") sobre com rastrejar el vostre lloc pot presentar grans riscos de seguretat de la informació. Les aranyes es desplacen seguint els enllaços i són molt hàbils a trobar enllaços a bases de dades, fitxers de programes i altres informacions a les quals potser no voleu que tinguin accés.

Els administradors web poden veure els registres per veure quines aranyes i altres robots han visitat els seus llocs. Aquesta informació ajuda als administradors web a saber qui està indexant el lloc i la freqüència.

Aquesta informació és útil perquè permet als administradors web ajustar els seus fitxers SEO i actualitzar robots.txt per prohibir que certs robots puguin rastrejar el seu lloc en el futur.

Consells per protegir el vostre lloc web de robots de rastreig no desitjats

Hi ha una manera bastant senzilla de mantenir els rastrejadors no desitjats del vostre lloc web. Fins i tot si no us preocupa les aranyes malicioses que arrosseguen el vostre lloc (l’adreça electrònica ofuscant no us protegirà de la majoria dels rastrejadors), encara haureu de proporcionar als motors de cerca instruccions importants.

Tots els llocs web han de tenir un fitxer situat al directori arrel anomenat fitxer robots.txt. Aquest fitxer us permet instruir als rastrejadors web on voleu que busquin pàgines d'índex (llevat que s'indiqui el contrari en les metadades d'una pàgina específica per no indexar-les) si són un motor de cerca.

De la mateixa manera que podeu explicar els rastrejadors que voleu navegar, també podeu dir-los que no poden anar i, fins i tot, bloquejar rastrejadors específics del vostre lloc web complet.

És important tenir en compte que un fitxer robots.txt ben integrat tindrà un gran valor per als motors de cerca i fins i tot podria ser un element clau per millorar el rendiment del vostre lloc web, però alguns rastrejadors de robots encara ignoraran les vostres instruccions. Per aquest motiu, és important mantenir tots els programes, connectors i aplicacions actualitzats en tot moment.

Articles i informació relacionats

A causa de la prevalença de recol·lecció d’informació que s’utilitza fins a propòsits infames (spam), el 2003 es va aprovar una legislació per tal que determinades pràctiques no fossin il·legals. Aquestes lleis de protecció del consumidor queden sota la llei CAN-SPAM de 2003.

És important que tingueu temps per llegir la Llei CAN-SPAM si la vostra empresa participa en qualsevol enviament massiu o informació.

Podeu obtenir més informació sobre les lleis antispam i com tractar amb els spammers, i el que no feu com a propietari d’una empresa, llegint els articles següents:

  • Llei CAN-SPAM 2003
  • Normes de llei CAN-SPAM per a organitzacions no lucratives
  • 5 regles CAN-SPAM Els propietaris de petites empreses han de comprendre

Articles d'interès

Com respondre a les preguntes de l'entrevista de treball amb Títols cerebrals

Com respondre a les preguntes de l'entrevista de treball amb Títols cerebrals

Li han fet alguna vegada una pregunta inusual que us va deixar desconcertada durant una entrevista? Aquests consells i preguntes de mostra us poden preparar per si de nou ocorre.

MOS 12H - Constructlon Engineering Supervisor

MOS 12H - Constructlon Engineering Supervisor

Descripcions de feina i factors de qualificació per als llocs de treball de l’Exèrcit dels Estats Units (especialitats d’ocupació militar).

Especialista en laboratori mèdic: retribució, habilitats necessàries i més

Especialista en laboratori mèdic: retribució, habilitats necessàries i més

Un especialista en laboratori mèdic (68K) és un membre clau del personal mèdic de l'Exèrcit. Més informació sobre aquesta especialitat d'ocupació militar (MOS).

Gerent d’operacions de sucursals

Gerent d’operacions de sucursals

Obtingueu informació sobre les operacions de sucursals i sobre com els gestors de serveis mantenen les oficines d’intermediació en funcionament. Obtingueu informació sobre la feina sobre funcions, salaris i perspectives.

BP Pràctiques i oportunitats de cooperació

BP Pràctiques i oportunitats de cooperació

BP ofereix excel·lents pràctiques i programes cooperatius per a estudiants especialitzats en enginyeria, ciències i negocis. Conegueu oportunitats de pràctiques.

9 Box Matrix per a la planificació i el desenvolupament de successions

9 Box Matrix per a la planificació i el desenvolupament de successions

Què és una matriu de rendiment i potencial (9 caixes) i per què és una de les eines més utilitzades en la planificació de la successió i en el desenvolupament del lideratge?