Skillnad mellan linjär regression och logistisk regression

De huvudskillnad mellan linjär regression och logistisk regression är att linjär regression används för att förutse ett kontinuerligt värde medan den logistiska regressionen används för att förutsäga ett diskret värde.

Maskininlärningssystem kan förutsäga framtida resultat baserat på träning av tidigare insatser. Det finns två huvudtyper maskininlärning som kallas övervakat lärande och oövervakat lärande. Regression och klassificering faller under kontrollerad inlärning medan gruppering faller under oövervakat lärande. Övervakade inlärningsalgoritmer använder märkta data för att träna datasatsen. Linjär regression och logistisk regression är två typer av övervakade inlärningsalgoritmer. Linjär regression används när den beroende variabeln är kontinuerlig och modellen är linjär. Logistisk regression används när den beroende variabeln är diskret och modellen är olinjär.

Viktiga områden som omfattas

1. Vad är linjär regression
     - Definition, Funktionalitet
2. Vad är logistisk regression
     - Definition, Funktionalitet
3. Skillnad mellan linjär regression och logistisk regression
     - Jämförelse av viktiga skillnader

Nyckelbegrepp

Linjär regression, logistisk regression, maskinlärande

Vad är linjär regression

Linjär regression finner relationen mellan oberoende och beroende variabler. Båda är angränsande. Den oberoende variabeln är den variabel som inte ändras av de andra variablerna. Den betecknas med x. Det kan också finnas flera oberoende variabler som x1, x2, x3, etc. Beroendevariabler ändras enligt den oberoende variabeln och betecknas av y.

När det finns en oberoende variabel är regressionsekvationen som följer.

y = b0 + b1x

Antag exempelvis att x representerar nederbörd och y representerar avkastningen.

Figur 1: Linjär regression

Datasetet kommer att se ut ovan. Därefter väljs en rad som täcker de flesta datapunkterna. Denna rad representerar de förutsagda värdena.

Figur 2: Avstånd mellan de faktiska datapunkterna och de förutspådda värdena

Därefter hittas avståndet från varje data till linjen som visas i ovanstående diagram. Detta är avståndet mellan det faktiska värdet och det förutspådda värdet. Detta avstånd är också känt som felet eller resterna. Den bästa passformen bör ha minst summa av felaktiga kvadrater. När nytt regnvärde ges (x), är det möjligt att hitta motsvarande odlingsutbyte (y) med denna linje.  

I den verkliga världen kan det finnas flera oberoende variabler (x1, x2, x3 ...). Detta kallas multipel linjär regression. Den multipla linjära regressionsekvationen är som följer.

Vad är logistisk regression

Logistisk regression kan användas för att klassificera två klasser. Det är också känt som binär klassificering.  Kontrollera om ett e-postmeddelande är spam eller inte förutsäga om en kund kommer att köpa en produkt eller inte, förutsäga om det är möjligt att få en kampanj eller ej, är några andra exempel på logistisk regression.

Figur 3: Logistisk regression

Antag att antalet timmar en elev studerade per dag är den oberoende variabeln. Beroende på detta beräknas sannolikheten för godkänd tentamen. Värdet 0,5 betraktas som tröskeln. När det nya antalet timmar ges, är det möjligt att hitta motsvarande sannolikhet att klara provet med hjälp av denna graf. Om sannolikheten är över 0,5 betraktas den som 1 eller passera. Om sannolikheten är under 0,5, anses den vara 0 eller misslyckas.

Att tillämpa den linjära regressionsekvationen på sigmoidfunktionen kommer att ge den logistiska regressionsekvationen.

Sigmoid-funktionen är    

En annan viktig punkt att notera är att logistisk regression endast är tillämplig för att klassificera 2 klasser. Det används inte för klassificering av flera klasser.

Skillnad mellan linjär regression och logistisk regression

Definition

Linjär regression är ett linjärt tillvägagångssätt som modellerar förhållandet mellan en beroende variabel och en eller flera oberoende variabler. Däremot är logistisk regression en statistisk modell som förutsäger sannolikheten för ett resultat som endast kan ha två värden.

Användande

Medan linjär regression används för att lösa regressionsproblem används logistisk regression för att lösa klassificeringsproblem (binär klassificering).

Metodik

Linjär regression uppskattar den beroende variabeln när det finns en ändring i den oberoende variabeln. Logistisk regression beräknar möjligheten att en händelse inträffar. Detta är en viktig skillnad mellan linjär regression och logistisk regression.

Utgångsvärde

Vid linjär regression är även utmatningsvärdet kontinuerligt. Vid logistisk regression är utgångsvärdet diskret.

Modell

Även om linjär regression använder en rak linje använder logistisk regression en S-kurva eller sigmoid-funktion. Detta är en annan viktig skillnad mellan linjär regression och logistisk regression.

exempel

Att förutse BNP för ett land, förutsäga produktpris, förutsäga husförsäljningspriset, poängförutsägning är några exempel på linjär regression. Förutsägande om ett e-postmeddelande är skräppost eller inte, förutsäga om kreditkortstransaktionen är bedrägeri eller inte, förutsäga om en kund ska ta ett lån eller ej, är några exempel på logistisk regression.

Slutsats

Skillnaden mellan linjär regression och logistisk regression är att linjär regression används för att förutsäga ett kontinuerligt värde medan logistisk regression används för att förutsäga ett diskret värde. I korthet används linjär regression för regression medan logistisk regression används för klassificering.

Referens:

1. Linjär regressionsanalys | Linjär regression i Python | Maskininlärningsalgoritmer | Simplilearn, 26 mars 2018, Tillgänglig här.
2. Logistisk regression | Logistisk regression i Python | Maskininlärningsalgoritmer | Simplilearn, 22 Mars 2018, Tillgänglig här.

Image Courtesy:

1. "Linjär regression" Av Sewaqu - eget arbete, allmän domän) via Commons Wikimedia
2. "Residuals for Linear Regression Fit" av Thomas.haslwanter - eget arbete (CC BY-SA 3.0) via Wikimedia Commons
3. "Logistisk kurva" Av Qef (talk) - Skapad från grunden med gnuplot (Public Domain) via Commons Wikimedia