Idiomes per convertir-vos en un mestre de ciències de dades
Inside the mind of a master procrastinator | Tim Urban
Taula de continguts:
Tothom vol que la seva carrera estigui molt demandada, ja que la demanda es tradueix en un gran salari i no hi manca feina. En aquests dies, l'espai de grans dades està ple d'aquest tipus de feina, ja que les empreses de totes les mides necessiten recopilar i analitzar informació per prendre decisions i prediccions (i obtenir resultats).
Això és precisament el que fan les dades científiques: descobrir informació, establir connexions, crear visualitzacions de dades i ajudar les empreses a funcionar de manera eficient. I un coneixement exhaustiu dels llenguatges de programació adequats és essencial per interpretar estadístiques i treballar amb bases de dades.
Segons KDnuggets, el 91% dels científics de dades utilitzen els quatre idiomes següents.
Llengua 1: R
R és un llenguatge orientat a les estadístiques popular entre els miners de dades. És una aplicació de codi obert, orientada a objectes, i no és massa difícil d’aprendre.
Si voleu aprendre a desenvolupar programari estadístic, R és un bon idioma per saber-ne. També us permet manipular i visualitzar gràficament les dades.
Com a part del seu programa d’especialització en ciències de dades, Coursera ofereix una classe de R que no només ensenya com programar en l’idioma, sinó que també explica com s’aplica en el context de la ciència / anàlisi de dades.
Idioma 2: SAS
Igual que R, SAS s'utilitza principalment per a l'anàlisi estadística. És una eina poderosa per transformar les dades de bases de dades i fulls de càlcul en formats llegibles (com a documents HTML i PDF), així com a les taules i gràfics més visuals.
Desenvolupat originalment per investigadors acadèmics, s'ha convertit en una de les eines d’anàlisi més populars de tot el món per a empreses i organitzacions de tot tipus. És més d’un tipus de programari de gran corporació i no s’utilitza habitualment per empreses més petites o persones que treballen soles.
Els recursos per a l’aprenentatge del SAS es mostren en aquest document. El llenguatge no és de codi obert, de manera que probablement no podreu ensenyar-vos de franc.
Idioma 3: Python
Tot i que R i SAS són considerats habitualment com els "dos grans" al món de l’anàlisi, Python també s'ha convertit recentment en un candidat. Un dels seus avantatges principals és la seva àmplia varietat de biblioteques (p. Ex., Pandas, NumPy, SciPi, etc.) i funcions estadístiques.
Atès que Python (com R) és un llenguatge de codi obert, s'hi afegeixen actualitzacions ràpidament. (Amb els programes adquirits com ara SAS, heu d'esperar a la versió següent.)
Un altre factor a tenir en compte és que Python és potser el més fàcil d’aprendre, a causa de la seva senzillesa i de l’extensa disponibilitat de cursos i recursos. El lloc web LearnPython és un lloc ideal per començar.
També podeu trobar una llista més completa dels materials d'aprenentatge de Python.
Idioma 4: SQL
Fins ara hem estat examinant idiomes que són de la mateixa família i (més o menys) tenen les mateixes funcions. SQL, que significa "llenguatge de consulta estructurat", és on canvia. Aquest llenguatge no té res a veure amb les estadístiques; se centra a gestionar la informació en bases de dades relacionals.
És el llenguatge de base de dades més utilitzat i és de codi obert, de manera que els científics aspirants a les dades no haurien de saltar-se'n.
L’aprenentatge SQL us hauria d’equipar per crear bases de dades SQL, gestionar les dades dins d’elles i utilitzar funcions rellevants. Udemy ofereix un curs de formació que cobreix tots els conceptes bàsics i es pot completar de manera bastant ràpida i sense dolor.
Conclusió
Com a mínim, probablement hauríeu d’aprendre SQL i triar almenys un dels idiomes d’estadístiques. Però si teniu temps (i en el cas de SAS, diners) i voleu realment adaptar-vos a la vostra comercialització, no hi ha res a dir que no pugueu aprendre els quatre.
No us arrossegueu, feu molta pràctica, perfeccioneu les vostres habilitats i gaudiu de la seguretat laboral.
Dades i exemples d’habilitats de científics de dades
Un científic de dades analitza les dades per conèixer els processos científics. Aquesta llista d’habilitats es pot utilitzar per a currículums, cartes de presentació i entrevistes de treball.
Com evitar infraccions de dades amb seguretat de dades
La seguretat de les dades és un imperatiu empresarial fonamental, atès les enormes responsabilitats potencials. Educa't sobre el tema amb aquesta cartilla.
Intimidació al lloc de treball: dades i dades
La intimidació laboral va en augment. Més informació sobre l'assetjament escolar, incloent el que constitueix un comportament d'assetjament moral.