Ar norite išmokti duomenų mokslo statistikos, nelaikydami lėto ir brangaus kurso? Prekių naujienos … Galite išmokti pagrindines sąvokas, tikimybę, Bajeso mąstymą ir net statistinį mašininį mokymąsi naudodamiesi tik nemokamais internetiniais šaltiniais. Čia yra geriausi šaltiniai pradedantiesiems!
Beje … norint sėkmingai pasiekti šį metodą, jums nereikia matematikos laipsnio. Vis dėlto, jei turite matematikos išsilavinimą, jums tikrai patiks ir šis įdomus praktinis metodas.
Šis vadovas suteiks jums statistinio mąstymo įrankių, reikalingų duomenų mokslui. Tai apgaus jus didžiulis pranašumas prieš kitus siekiančius duomenų mokslininkų kurie bando išsiversti be jo.
Matote, gali būti pagunda pereiti tiesiai į mašininio mokymosi paketų naudojimą, kai išmoksite programuoti … Ir žinote ką? Gerai, jei norite iš pradžių suvaldyti kamuolį su realiais projektais.
Tačiau niekada neturėtumėte visiškai praleisti statistikos ir tikimybių teorijos mokymosi. Tai būtina norint tobulinti duomenų mokslininko karjerą.
Štai kodėl…
Duomenų mokslui reikalinga statistika
Statistika yra plati sritis, naudojama daugelyje pramonės šakų.
Vikipedijoje tai apibrėžiama taip duomenų rinkimo, analizės, aiškinimo, pateikimo ir organizavimo tyrimas. Todėl nereikėtų stebėtis, kad duomenų mokslininkai turi žinoti statistiką.
Pavyzdžiui, duomenų analizei reikalinga aprašomoji statistika ir tikimybių teorija. Šios koncepcijos padės priimti geresnius verslo sprendimus iš duomenų.
Pagrindinės sąvokos apima tikimybių skirstiniai, statistinis reikšmingumas, Hipotezės bandymasir regresija.
Be to, norint mokytis mašinai, reikia suprasti Bajeso mąstymą. Bajeso mąstymas yra įsitikinimų atnaujinimo procesas, kai renkami papildomi duomenys, ir tai yra daugelio mašininio mokymosi modelių variklis.
Pagrindinės sąvokos apima sąlyginė tikimybė, priors ir posterisir didžiausia tikimybė.
Jei šie terminai jums skamba kaip mumbo jumbo, nesijaudinkite. Visa tai bus prasminga, kai pasiraitosite rankoves ir pradėsite mokytis.
Geriausias būdas sužinoti apie duomenų mokslo statistiką
Iki šiol tikriausiai pastebėjote, kad viena „savarankiško starto būdo mokantis X“ tema yra praleisti pamokas klasėje ir mokykis „darydamas sh * t“.
Duomenų mokslo statistikos įvaldymas nėra išimtis.
Tiesą sakant, mes spręsime pagrindines statistikos sąvokas, programuodami jas kodu! Patikėkite mumis … tai bus labai smagu.
Jei neturite formalaus matematikos mokymo, šis požiūris jums bus daug intuityvesnis nei bandymas iššifruoti sudėtingas formules. Tai leidžia apgalvoti kiekvieno skaičiavimo loginius žingsnius.
Jei turite oficialų matematikos pagrindą, šis metodas padės jums pritaikyti teoriją praktikoje ir suteiks jums įdomių programavimo iššūkių.
Štai 3 žingsniai, norint išmokti statistikos ir tikimybės, reikalingos duomenų mokslui:
-
1
Pagrindinės statistikos sąvokos
Aprašomoji statistika, skirstiniai, hipotezių tikrinimas ir regresija.
-
2
Bajeso mąstymas
Sąlyginė tikimybė, priors, užnugaris ir didžiausia tikimybė.
-
3
Įvadas į statistinį mašininį mokymąsi
Sužinokite pagrindines mašinų sąvokas ir tai, kaip telpa statistika.
Atlikę šiuos 3 veiksmus, būsite pasirengę užpulti sunkesnes mašininio mokymosi problemas ir įprastas realias duomenų mokslo programas.
1 žingsnis: Pagrindinės statistikos sąvokos
Norint žinoti, kaip išmokti duomenų mokslo statistikos, naudinga pradėti nuo to, kaip ji bus naudojama.
Pažvelkime į keletą realių analizių ar programų, kurių gali prireikti įgyvendinti kaip duomenų mokslininką, pavyzdžių:
- Eksperimentinis dizainas: Jūsų įmonė pristato naują produktų liniją, tačiau ji parduodama mažmeninėse parduotuvėse. Turite sukurti A / B testą, kuris valdytų geografinių vietovių skirtumus. Taip pat turite įvertinti, kiek parduotuvių bandyti, kad gautumėte statistiškai reikšmingus rezultatus.
- Regresijos modeliavimas: Jūsų įmonė turi geriau numatyti atskirų produktų linijų paklausą savo parduotuvėse. Tiek atsargos, tiek atsargos yra brangios. Svarstote galimybę sukurti reguliaraus regresijos modelių seriją.
- Duomenų transformacija: Turite kelis bandomus mašininio mokymosi modelio kandidatus. Keletas jų daro prielaidą, kad yra tikri įvesties duomenų pasiskirstymai, o jūs turite sugebėti juos identifikuoti ir tinkamai transformuoti įvesties duomenis arba žinoti, kada galima sušvelninti pagrindines prielaidas.
Duomenų mokslininkas kiekvieną dieną priima šimtus sprendimų. Jie svyruoja nuo mažų, pavyzdžiui, kaip suderinti modelį, iki didelių, tokių kaip komandos MTTP strategija.
Daugeliui šių sprendimų reikia tvirtų statistikos ir tikimybių teorijos pagrindų.
Pavyzdžiui, duomenų mokslininkams dažnai reikia nuspręsti, kurie rezultatai yra tikėtina o kurios yra nesąmonė greičiausiai dėl atsitiktinumo. Be to, jie turi žinoti jei yra susidomėjusių kišenių, kurias reikėtų nagrinėti toliau.
Tai yra pagrindiniai analitinio sprendimo priėmimo įgūdžiai (žinant, kaip apskaičiuoti p reikšmes, tik subraižyti paviršių).
Čia yra vienas geriausių šaltinių, kurį radome mokėdami pagrindinę statistiką kaip savarankišką startuolį:
Galvok kaip statistikas …
„Think Stats“ yra puiki knyga (su nemokama PDF versija), pristatanti visas pagrindines sąvokas. Knygos prielaida? Jei mokate programuoti, galite naudoti šį įgūdį mokydami sau statistikos. Mes nustatėme, kad šis metodas yra labai efektyvus net tiems, kurie turi oficialų matematinį išsilavinimą.
2 žingsnis: Bajeso mąstymas
Viena iš filosofinių statistikos diskusijų yra tarp bajeziečių ir dažnų diskusijų. Bajeso pusė yra svarbesnė mokantis statistikos duomenų mokslui.
Trumpai tariant, dažni specialistai tikimybę naudoja tik imitacijos procesams modeliuoti. Tai reiškia, kad jie tikimybes priskiria jau surinktiems duomenims apibūdinti.
Kita vertus, Bajeso gyventojai naudoja tikimybę modeliuodami atrankos procesus ir kiekybiškai įvertinti neapibrėžtumą prieš renkant duomenis. Jei norite sužinoti daugiau apie šią takoskyrą, peržiūrėkite šį „Quora“ įrašą: Koks skirtumas tarp Bajeso ir dažno požiūrio į ne ekspertus?
Bajeso mąstyme neapibrėžtumas prieš renkant duomenis vadinamas išankstinė tikimybė. Tada jis atnaujinamas į a užpakalinė tikimybė surinkus duomenis. Tai yra pagrindinė daugelio mašininio mokymosi modelių koncepcija, todėl svarbu tai įvaldyti.
Vėlgi, visos šios sąvokos bus prasmingos jas įgyvendinus.
Štai vienas geriausių šaltinių, kurį radome mokant Bajeso mąstymo kaip savarankiško startuolio:
Galvok kaip bajesietis …
„Think Bayes“ yra tolesnė „Think Stats“ knyga (su nemokama PDF versija). Viskas yra apie Bajeso mąstymą, ir jis naudoja tą patį metodą, kai programavimas naudojamas mokant statistikos. Šis požiūris yra įdomus ir intuityvus, ir jūs gerai išmoksite kiekvienos koncepcijos pagrindinę mechaniką, nes jas įgyvendinsite.
3 žingsnis: Įvadas į statistinį mašininį mokymąsi
Jei norite išmokti duomenų mokslo statistikos, nėra geresnio būdo nei žaisti su statistiniais mašininio mokymosi modeliais, išmokus pagrindines sąvokas ir Bajeso mąstymą.
Statistika ir mašininio mokymosi sritys yra glaudžiai susijusios, o „statistinis“ mašininis mokymasis yra pagrindinis požiūris į šiuolaikinį mašininį mokymąsi.
Šiame žingsnyje jūs įdiegsite kelis mašininio mokymosi modelius nuo nulio. Tai padės jums suprasti tikrąjį jų mechanikos supratimą.
Šiame etape gerai, jei jūs tiesiog kopijuojate kodą eilutėmis.
Tai padeda atverti juodą mašininio mokymosi langelį, tuo pačiu sustiprinant supratimą apie duomenų mokslui reikalingą taikomą statistiką.
Šie modeliai buvo pasirinkti, nes jie iliustruoja keletą pagrindinių ankstesnių koncepcijų.
Tiesinė regresija
Pirma, mes turime planuojančio modelio vaiką …
Naivusis Bayesas Klasifikatorius
Toliau mes turime gėdingai paprastą modelį, kuris veikia gana gerai …
Daugiarankiai banditai
Ir galiausiai turime garsųjį „20 kodo eilučių, įveikiančių bet kurį A / B testą!“
Jei esate alkanas daugiau, rekomenduojame šį šaltinį. Mes taip pat išleisime išsamų vadovą, kaip išmokti mašininio mokymosi savarankiškai pradedančiuoju būdu, todėl sekite naujienas.
Jūsų nuoroda …
Įvadas į statistinį mašininį mokymąsi yra puikus vadovėlis (su nemokama PDF versija), kurį galite naudoti kaip nuorodą. Pavyzdžiai yra R raidės, o knyga apima daug platesnį temų ratą, todėl tai yra vertinga priemonė, kai jūs dirbate daugiau darbo mašininio mokymosi srityje.
Daugiau išteklių