Inteligjenca artificiale

Regresioni i thjeshtë linear në fushën e shkencës së të dhënave

Përditësuar on Dhjetor 9, 2022

Shkenca e të dhënave është një fushë e gjerë që po rritet çdo ditë që kalon. Sot, kompanitë kryesore janë në kërkim të shkencëtarëve profesionistë të të dhënave që posedojnë njohuri të forta rreth fushës dhe koncepteve të lidhura me të. Për të performuar mirë në këtë fushë, është e rëndësishme të keni njohuri të shëndosha për të gjitha algoritmet e shkencës së të dhënave. Një nga algoritmet më themelore të shkencës së të dhënave është një regresion i thjeshtë linear. Çdo shkencëtar i të dhënave duhet të dijë se si ta përdorë këtë algoritëm për të zgjidhur problemet dhe për të nxjerrë rezultate domethënëse.

Regresioni i thjeshtë linear është një metodologji e përcaktimit të marrëdhënies ndërmjet variablave hyrëse dhe dalëse. Variablat hyrëse konsiderohen si variabla ose parashikues të pavarur, dhe variablat e daljes janë variabla ose përgjigje të varura. Në regresionin e thjeshtë linear, merret parasysh vetëm një ndryshore hyrëse.

Një shembull në kohë reale i regresionit të thjeshtë linear

Le të shqyrtojmë një grup të dhënash të përbërë nga dy parametra: numri i orëve të punës dhe sasia e punës së bërë. Regresioni i thjeshtë linear synon të hamendësojë sasinë e punës së bërë nëse jepen orët e punës. Vizatohet një vijë regresioni, e cila gjeneron një gabim minimal. Formohet gjithashtu një ekuacion linear, i cili më pas mund të përdoret për pothuajse çdo grup të dhënash.

Parimet që përshkruajnë qëllimin e regresionit të thjeshtë linear:

Regresioni i thjeshtë linear përdoret për të parashikuar marrëdhënien midis variablave në një grup të dhënash dhe për të nxjerrë përfundime kuptimplota. Regresioni i thjeshtë linear përdoret kryesisht për të nxjerrë marrëdhënien statistikore midis variablave, e cila nuk është mjaft e saktë. Katër parime bazë përshkruajnë përdorimin e regresionit të thjeshtë linear. Këto parime janë renditur më poshtë:

Marrëdhënia midis dy variablave konsiderohet të jetë lineare dhe shtuese: Për çdo çift variablash të varur dhe të pavarur vendoset një funksion me vijë të drejtë. Pjerrësia e kësaj linje është e ndryshme nga vlerat e variablave të disponueshëm në grupin e të dhënave. Variablat e varur kanë një efekt shtues në vlerat e variablave të pavarur.
Gabimet janë statistikisht të pavarura: Ky parim mund të konsiderohet për një grup të dhënash që përmban informacion në lidhje me kohën dhe seritë. Gabimet e njëpasnjëshme të një grupi të tillë të dhënash nuk lidhen dhe janë statistikisht të pavarura.
Gabimet kanë variancë konstante (homoskedasticiteti): Homoskedasticiteti i gabimeve mund të konsiderohet në bazë të parametrave të ndryshëm. Këta parametra përfshijnë kohën, parashikimet e tjera dhe variabla të tjerë.
Normaliteti i shpërndarjes së gabimit: Ky është një parim i rëndësishëm pasi mbështet tre të tjerat e përmendura më sipër. Nëse nuk mund të vendoset asnjë lidhje midis variablave në një grup të dhënash, ose nëse ndonjë nga parimet e mësipërme nuk është vendosur, atëherë të gjitha parashikimet dhe përfundimet e prodhuara nga modeli janë të pasakta. Këto përfundime nuk mund të përdoren më tej në projekt pasi nuk do të arrihen rezultate reale nëse përdoren të dhëna të gabuara dhe mashtruese.

Përparësitë e regresionit të thjeshtë linear

Kjo metodologji është jashtëzakonisht e lehtë për t'u përdorur dhe rezultatet mund të merren pa mundim.
Kjo metodë ka jashtëzakonisht më pak kompleksitet se algoritmet e tjera të shkencës së të dhënave, kryesisht nëse dihet marrëdhënia midis variablave të varur dhe të pavarur.
Mbi përshtatja është një gjendje e zakonshme që ndodh kur kjo metodologji merr informacion të pakuptimtë. Për t'u marrë me këtë problem, është në dispozicion teknika e rregullimit, e cila redukton problemin e mbi-montimit duke reduktuar kompleksitetin.

Disavantazhet e regresionit të thjeshtë linear

Megjithëse problemi i përshtatjes së tepërt mund të eliminohet, ai nuk mund të injorohet. Metoda mund të marrë parasysh të dhëna të pakuptimta dhe gjithashtu të eliminojë informacionin kuptimplotë. Në një rast të tillë, të gjitha parashikimet janë përfundime për një grup të caktuar të dhënash që do të jenë të pasakta dhe nuk mund të gjenerohen rezultate efektive.
Problemi i të dhënave të jashtme është gjithashtu shumë i zakonshëm. Të dhënat e jashtme konsiderohen si vlera të gabuara që nuk përputhen me të dhënat e sakta. Kur merren parasysh vlera të tilla, i gjithë modeli do të prodhojë rezultate mashtruese që nuk janë të dobishme.
Në regresionin e thjeshtë linear, grupi i të dhënave në dorë konsiderohet të ketë të dhëna të pavarura. Ky supozim është i gabuar sepse mund të ketë një varësi midis variablave.

Regresioni i thjeshtë linear është një teknikë e dobishme për të përcaktuar marrëdhëniet e variablave të ndryshme hyrëse dhe dalëse në një grup të dhënash. Ka disa aplikime në kohë reale të regresionit të thjeshtë linear. Ky algoritëm nuk kërkon fuqi të lartë llogaritëse dhe mund të zbatohet lehtësisht. Ekuacionet dhe përfundimet e nxjerra mund të ndërtohen më tej dhe janë jashtëzakonisht të thjeshta për t'u kuptuar. Megjithatë, disa profesionistë mendojnë gjithashtu se regresioni i thjeshtë linear nuk është metodologjia e duhur për t'u përdorur për aplikime të ndryshme pasi ka shumë supozime që bëhen. Këto supozime mund të vërtetohen gjithashtu të gabuara. Prandaj, është e nevojshme të përdoret kjo teknikë kudo që mund të zbatohet saktë.

Temat e ngjashme:shkenca e të dhënave linear regres

E rradhes

Studiuesit zhvillojnë sensorin optik për të imituar syrin e njeriut

Mos e humbas

Inteligjenca artificiale e re e DeepMind është në gjendje të mësojë rregullat e një loje ndërsa luan

Palak Airon

Personel Data Scientist me mbi 8 vite përvojë profesionale në industrinë e IT. Kompetent në Data Science dhe Digital Marketing. Ekspertizë në përmbajtjen teknike të hulumtuar profesionalisht.