Definició de Web Spidering i Web Crawlers
Нормы-принципы, -правила поведения, -дефиниции. ТГП ZNY100
Taula de continguts:
- Llocs web de Spider per recopilar informació
- Consells per protegir el vostre lloc web de robots de rastreig no desitjats
- Articles i informació relacionats
Les aranyes són programes (o scripts automatitzats) que "rastregen" la web buscant dades. Les aranyes viatgen a través d'URL del lloc web i poden treure dades de pàgines web com a adreces de correu electrònic. Les aranyes també s'utilitzen per alimentar la informació que es troba als llocs web als motors de cerca.
Les aranyes, que també es coneixen com a "rastrejadors web", busquen a la web i no tots són amables en la seva intenció.
Llocs web de Spider per recopilar informació
Google, Yahoo! i altres motors de cerca no són els únics interessats en arrossegar llocs web - també són estafadors i spammers.
Els spammers utilitzen les aranyes i altres eines automatitzades per trobar adreces de correu electrònic (a Internet aquesta pràctica sovint es coneix com a "collita") i després les utilitza per crear llistes de correu brossa.
Les aranyes són també una eina utilitzada pels motors de cerca per obtenir més informació sobre el vostre lloc web, però sense marcar-la, un lloc web sense instruccions (o "permisos") sobre com rastrejar el vostre lloc pot presentar grans riscos de seguretat de la informació. Les aranyes es desplacen seguint els enllaços i són molt hàbils a trobar enllaços a bases de dades, fitxers de programes i altres informacions a les quals potser no voleu que tinguin accés.
Els administradors web poden veure els registres per veure quines aranyes i altres robots han visitat els seus llocs. Aquesta informació ajuda als administradors web a saber qui està indexant el lloc i la freqüència.
Aquesta informació és útil perquè permet als administradors web ajustar els seus fitxers SEO i actualitzar robots.txt per prohibir que certs robots puguin rastrejar el seu lloc en el futur.
Consells per protegir el vostre lloc web de robots de rastreig no desitjats
Hi ha una manera bastant senzilla de mantenir els rastrejadors no desitjats del vostre lloc web. Fins i tot si no us preocupa les aranyes malicioses que arrosseguen el vostre lloc (l’adreça electrònica ofuscant no us protegirà de la majoria dels rastrejadors), encara haureu de proporcionar als motors de cerca instruccions importants.
Tots els llocs web han de tenir un fitxer situat al directori arrel anomenat fitxer robots.txt. Aquest fitxer us permet instruir als rastrejadors web on voleu que busquin pàgines d'índex (llevat que s'indiqui el contrari en les metadades d'una pàgina específica per no indexar-les) si són un motor de cerca.
De la mateixa manera que podeu explicar els rastrejadors que voleu navegar, també podeu dir-los que no poden anar i, fins i tot, bloquejar rastrejadors específics del vostre lloc web complet.
És important tenir en compte que un fitxer robots.txt ben integrat tindrà un gran valor per als motors de cerca i fins i tot podria ser un element clau per millorar el rendiment del vostre lloc web, però alguns rastrejadors de robots encara ignoraran les vostres instruccions. Per aquest motiu, és important mantenir tots els programes, connectors i aplicacions actualitzats en tot moment.
Articles i informació relacionats
A causa de la prevalença de recol·lecció d’informació que s’utilitza fins a propòsits infames (spam), el 2003 es va aprovar una legislació per tal que determinades pràctiques no fossin il·legals. Aquestes lleis de protecció del consumidor queden sota la llei CAN-SPAM de 2003.
És important que tingueu temps per llegir la Llei CAN-SPAM si la vostra empresa participa en qualsevol enviament massiu o informació.
Podeu obtenir més informació sobre les lleis antispam i com tractar amb els spammers, i el que no feu com a propietari d’una empresa, llegint els articles següents:
- Llei CAN-SPAM 2003
- Normes de llei CAN-SPAM per a organitzacions no lucratives
- 5 regles CAN-SPAM Els propietaris de petites empreses han de comprendre
Implicació dels empleats: definició i exemples
Cal entendre el que comporta la implicació dels empleats com a estratègia i filosofia organitzativa? La majoria de les organitzacions es malmeten. Esbrineu per què.
Gènere Ficció: definició per a escriptors creatius
Què és l'escriptura de gènere, i quina diferència hi ha entre el gènere i el gènere literari? La ficció de gènere sol ser escrita i llegida principalment per a l'entreteniment.
Definició de "Condició clau en mà" al sector immobiliari
La definició de "Condició clau en mà" al sector immobiliari descriu un espai de compra o de lloguer que es troba en estat de trasllat.