Kaip išmokti „Python“ duomenų mokslui (atnaujinta)

Šiame vadove aptarsime, kaip išmokti „Python“ duomenų mokslui, įskaitant mūsų mėgstamą savarankiškų studijų programą.

Matote, duomenų mokslas yra susijęs su problemų sprendimu, tyrimu ir vertingos informacijos išskyrimu iš duomenų.

Norėdami tai padaryti efektyviai, turėsite susigrumti su duomenų rinkiniais, mokyti mašininio mokymosi modelius, vizualizuoti rezultatus ir daug daugiau. Įveskite „Python“.

Tai geriausias laikas kada nors išmokti „Python“. Tiesą sakant, „Forbes“ tai įvardijo kaip 10 geriausių techninių įgūdžių, susijusių su darbo paklausos augimu. Aptarkime, kodėl …

Kodėl verta mokytis „Python“ duomenų mokslui?

„Python“ yra viena iš labiausiai paplitusių kalbų pasaulyje ir turi aistringą vartotojų bendruomenę:

Ji turi dar lojalesnį duomenų mokslo profesijos atstovą.

Kai kurie žmonės vertina programavimo kalbos kokybę pagal jos „labas, pasauli!“ Paprastumą. programa. „Python“ veikia gana gerai pagal šį standartą:

Palyginimui, čia yra ta pati „Java“ išvestis:

Puiku, byla baigta. Iki pasimatymo čia, kai jau įsisavinsite „Python“?

Na, visiškai rimtai, paprastumas yra viena didžiausių „Python“ stipriųjų pusių. Tikslios ir efektyvios sintaksės dėka „Python“ gali atlikti tas pačias užduotis naudodamas mažiau kodo nei kitos kalbos. Tai leidžia sprendimus greitai atnaujinti.

Be to, „Python“ energingas duomenų mokslo bendruomenė reiškia, kad galėsite rasti daug vadovėlių, kodo fragmentų ir žmonių taiso įprastas klaidas. „Stackoverflow“ bus vienas geriausių jūsų draugų.

Galiausiai „Python“ turi visų žvaigždžių sudėtis bibliotekų (dar žinomų paketų) duomenų analizei ir mašininiam mokymuisi, o tai labai sumažina laiką, kurio reikia rezultatams gauti. Apie tai vėliau.

Kaip efektyviai išmokti „Python“

Prieš pradėdami nagrinėti tai, ko jums reikės išmokti, aptarkime tai, ko jums nereikės.

Jums nereikės CS laipsnio.

Dauguma duomenų mokslininkų niekada nesusitvarkys su tokiomis temomis kaip atminties nutekėjimas, kriptografija ar „Big O“ žymėjimas. Jums bus gerai tol, kol galėsite rašyti švarų, logišką kodą scenarijų kalba, pvz., „Python“ ar „R“.

Jums nereikės baigti „Python“ kursų.

Python ir duomenų mokslas nėra sinonimai.

Visi „Python“ naudojimo būdai

Jums nereikės įsiminti visos sintaksės.

Vietoj to, susitelkite į intuicijos suvokimą, pavyzdžiui, kada funkcija tinkama arba kaip veikia sąlyginiai teiginiai. Palaipsniui prisiminsite sintaksę po „Google“ paieškos, dokumentų skaitymo ir geros praktikos.

Mes rekomenduojame taikyti metodą „iš viršaus į apačią“.

Mes pasisakome už „iš viršaus į apačią“ metodą, kurio tikslas – pirmiausia gauti rezultatų, o po to įtvirtinti koncepcijas. Tiesą sakant, mes norėtume nutraukti „klasės“ studijas, kad būtų naudinga reali praktika.

  1. Pradėsite mokydamiesi pagrindinių programavimo koncepcijų.
  2. Tada įgysite darbo žinių apie pagrindines duomenų mokslo bibliotekas.
  3. Galiausiai, jūs praktikuosite ir tobulinsite savo įgūdžius įgyvendindami faktinius projektus.

Šis požiūris leis jums sukurti meistriškumą laikui bėgant ir smagiau.

Be to: „Python“ diegimas per „Anaconda“

Yra daugybė būdų, kaip įdiegti „Python“ į savo kompiuterį, tačiau mes rekomenduojame „Anaconda“ paketą, kuris pateikiamas kartu su bibliotekomis, kurių jums reikės duomenų mokslui.

1 žingsnis: Pagrindinės programavimo koncepcijos

Veiksmingas programavimas yra ne sintaksės įsiminimas, o naujo mąstymo įsisavinimas.

Todėl neskubėkite kurti tvirtą pagrindinių programavimo koncepcijų pagrindą. Tai padės jums galvoje pateiktus sprendimus paversti instrukcijomis kompiuteriui.

Jei dar nesinaudojote programavimu …

Jei programavimo srityje esate visiškai naujas, rekomenduojame puikią knygą „Automatizuokite nuobodų dalyką su Python“, kuri nemokamai išleista internete pagal „Creative Commons“ licenciją.

Knygoje žadamas „praktinis programavimas visiškai pradedantiesiems“, ir kiekviena pamoka paliekama žemėje. Perskaitykite iki 6 skyriaus – Stygų manipuliavimas ir pakeliui užpildykite praktikos klausimus.

Automatizuokite Al Sweigarto „Boring Stuff“

Jei turite patirties kita kalba …

Jei jums reikia tik atnaujinti „Python“ sintaksę, rekomenduojame šį vaizdo įrašą, tinkamu pavadinimu „Sužinokite„ Python “viename vaizdo įraše“:

Vėlgi, šio žingsnio tikslas nėra mokytis viskas apie „Python“ ir programavimą. Verčiau susitelkite į intuiciją.

Turėtumėte mokėti atsakyti į tokius klausimus:

  • Kuo skiriasi sveikasis skaičius, plūdė ir eilutė?
  • Kaip galiu naudoti „Python“ kaip skaičiuoklę?
  • Kas yra „loop“? Kada parašyčiau vieną?
  • Kokia yra pagrindinė funkcijos struktūra?
  • Kaip naudoti sąlyginius sakinius (jei … dar …) logikai pridėti?
  • Kaip veikia importo ataskaitos?

Papildomi resursai

Jei norite daugiau praktikos su pagrindinėmis programavimo koncepcijomis, peržiūrėkite šiuos išteklius.

  • „Code Fights“ yra platforma, kurioje yra daugybė trumpo kodavimo iššūkių, kuriuos galima įveikti 5 minučių dalimis (nors tai yra taip smagu, kad gali pasirodyti, kad tuo metu žaidi kelias valandas). Kelyje gausite taškų ir atrakinsite naujus lygius, todėl tai bus puikus būdas stebėti ir jūsų progresą.
  • „Python Challenge“ yra vienas šauniausių galvosūkių internete, todėl nenusiminkite jo 1990-ųjų grafikos. Visus 33 lygius galite atlikti naudodami „Python“ scenarijus. Vienas vartotojas tai pavadino „priklausomu būdu išmokti„ Python “trūkumų …“ Mes sutinkame!
  • „PracticePython.org“ yra trumpų „Python“ praktikos problemų rinkinys. Beveik kas savaitę jis atnaujinamas su nauja problema. Iš tiesų malonu tai, kad autorius pateikia kelis vartotojų pateiktus kiekvienos problemos sprendimus, kad galėtumėte pamatyti alternatyvius jų sprendimo būdus.
  • „Kaip mąstyti kaip kompiuteriu“ yra fantastinė interaktyvi internetinė knyga, apkelianti viesulą per pagrindines programavimo koncepcijas (su „Python“). Jei tu visiškai naujiena programavimo srityje, tai gali būti geras pasirinkimas. Tai tarsi sutrumpintas „CS 101“ kursas.

2 žingsnis: pagrindinės duomenų mokslo bibliotekos

Toliau mes sutelksime dėmesį į duomenų mokslui dalis „kaip išmokti„ Python “duomenų mokslui“.

Kaip jau minėjome anksčiau, „Python“ turi visų žvaigždžių duomenų mokslų bibliotekų sąrašą. Bibliotekos yra tiesiog jau esamų funkcijų ir objektų rinkiniai, kuriuos galite sutaupyti laiko importuodami į scenarijų.

Tai yra veiksmo veiksmai, kuriuos rekomenduojame efektyviai rinkti naują biblioteką:

  1. Atidarykite naują „Jupyter“ užrašų knygelę (žr. Toliau).
  2. 30 minučių skaitykite bibliotekos dokumentaciją, kad aukšto lygio įvadas į jos modulius.
  3. Importuokite biblioteką į savo „Jupyter“ užrašų knygutę.
  4. Vykdykite nuoseklią „Quickstart“ pamoką, kad pamatytumėte, kaip biblioteka veikia.
  5. Peržiūrėkite jo dokumentus dar 30 minučių, kad sužinotumėte, ką dar jis sugeba.

Šiuo metu nerekomenduojame nerti daug giliau į biblioteką, nes greičiausiai pamiršite didžiąją dalį to, ką išmokote, kol pradėsite projektus. Vietoj to, siekite sužinoti, ką sugeba kiekviena biblioteka.

Jei „Python“ įdiegėte per „Anaconda“ paketą, kaip rekomendavome aukščiau, jis taip pat bus su „Jupyter Notebook“. „Jupyter Notebook“ yra lengvas IDE, mėgstamas duomenų mokslininkų. Mes rekomenduojame tai savo projektams. Naują nešiojamąjį kompiuterį galite atidaryti naudodami „Anaconda Navigator“, pateiktą kartu su „Anaconda“. Peržiūrėkite šį trumpą vaizdo įrašą, kad gautumėte instrukcijas.

Tai yra pagrindinės bibliotekos, kurių jums reikės:

NumPy

„NumPy“ leidžia lengvai ir efektyviai skaičiuoti skaitmenimis, o ant jo yra sukurta daugybė kitų duomenų mokslo bibliotekų.

Pandos

„Pandas“ yra didelio našumo duomenų struktūrų ir tiriamosios analizės biblioteka. Jis pastatytas ant „NumPy“.

Matplotlib

„Matplotlib“ yra lanksti braižymo ir vizualizavimo biblioteka. Tai galinga, bet šiek tiek sudėtinga. Dabar galite praleisti „Matplotlib“ ir pradėti naudoti „Seaborn“ (žr. Toliau pateiktą „Seaborn“ rekomendaciją).

„Scikit-Learn“

„Scikit-Learn“ yra svarbiausia bendrosios paskirties „Python“ mašininio mokymosi biblioteka. Jame yra daug populiarių išankstinio apdorojimo, kryžminio patvirtinimo ir daug daugiau algoritmų bei modulių.

Premija: Seaborn

„Seaborn“ leidžia žymiai lengviau braižyti bendras duomenų vizualizacijas. Jis pastatytas ant „Matplotlib“ viršaus ir siūlo malonesnį aukšto lygio įvyniojimą.

3 žingsnis: Projektai nuo pabaigos

Dabar turėsite pagrindinį supratimą apie programavimą ir žinios apie pagrindines bibliotekas. Tai iš tikrųjų apima didžiąją dalį „Python“, kurio jums reikės norint pradėti naudotis duomenų mokslu.

Šiuo metu kai kurie studentai jausis kiek priblokšti. Tai gerai, ir tai yra visiškai normalu.

Jei pasirinktumėte lėtą ir tradicinį metodą „iš apačios į viršų“, galėtumėte jaustis mažiau priblokšti, tačiau jums čia prireikė 10 kartų daugiau laiko.

Dabar svarbiausia nedelsiant pasinerti ir pradėti viską klijuoti. Vėlgi, mūsų tikslas iki šiol buvo tiesiog pakankamai išmokti pradėti.

Tada atėjo laikas sustiprinti savo žinias per daug praktikos ir projektų.

Jūs turite keletą galimybių.

„Kaggle“ varžybos

Pirmasis variantas yra dalyvauti „Kaggle“ svetainėje, kurioje rengiami duomenų mokslo konkursai.

Pagrindinis „Kaggle“ privalumas yra tas, kad kiekvienas projektas yra savarankiškas. Jums suteikiamas duomenų rinkinys, tikslas ir pamokos, kad galėtumėte pradėti.

Pagrindinis konkursų trūkumas yra tas, kad jie paprastai neatstovauja realaus pasaulio duomenų mokslo. „Pradžia“ varžybos yra per daug paprastos, o standartinės varžybos (ty turinčios prizinius fondus) pradedantiesiems paprastai būna per sunkios.

Jei jus domina šis kelias, peržiūrėkite mūsų „Kaggle“ vadovą pradedantiesiems.

Pasidaryk pats projektai

Kitas variantas yra susisteminti savo projektus ir pasirinkti jus dominančius duomenų rinkinius.

Pagrindinis šio požiūrio privalumas yra tas, kad projektai labiau atspindi realaus pasaulio duomenų mokslą. Tikriausiai turėsite apibrėžti savo tikslus, rinkti duomenis, išvalyti duomenų rinkinį, inžinieriaus funkcijas ir pan.

Pasidaryk pats projektų trūkumas yra tas, kad jau turėsi būti susipažinęs su tinkama duomenų mokslo darbo eiga. Neturėdami vieno, galite praleisti svarbius žingsnius arba užstrigti nežinodami, kaip elgtis. Jei eisite šiuo keliu, peržiūrėkite mūsų straipsnį su keliomis „pasidaryk pats“ projekto idėjomis.

Parašykite komentarą