Övervakat lärande och oövervakat lärande är två grundläggande begrepp för maskininlärning. Övervakad lärande är en maskininlärningsuppgift för att lära en funktion som kartlägger en ingång till en utgång baserad på exemplet input-output-par. Unsupervised Learning är maskinlärarens uppgift att avleda en funktion för att beskriva dold struktur från omärkta data. De nyckelskillnad mellan övervakad och oövervakad maskininlärning är det Övervakat lärande använder märkt data medan oövervakat lärande använder obelagda data.
Maskininlärning är ett fält i datavetenskap som ger möjligheten för ett datorsystem att lära av data utan att uttryckligen programmeras. Det tillåter att analysera data och förutspå mönster i den. Det finns många tillämpningar av maskininlärning. Vissa av dem är ansiktsigenkänning, gestgodkännande och taligenkänning. Det finns olika algoritmer relaterade till maskininlärning. Vissa av dem är regression, klassificering och kluster. De vanligaste programmeringsspråken för att utveckla maskinbaserade applikationer är R och Python. Andra språk som Java, C ++ och Matlab kan också användas.
1. Översikt och nyckelskillnad
2. Vad är övervakad lärande
3. Vad är Unsupervised Learning
4. Likheter mellan övervakad och oövervakad maskinlärning
5. Jämförelse vid sida vid sida - Övervakad mot oövervakad maskinlärning i tabellform
6. Sammanfattning
I maskinläringsbaserade system fungerar modellen enligt en algoritm. Under övervakad inlärning övervakas modellen. För det första är det nödvändigt att träna modellen. Med den vunna kunskapen kan den förutsäga svar för framtida fall. Modellen utbildas med en märkt dataset. När en ur samplingsdata ges till systemet kan det förutsäga resultatet. Följande är ett litet extrakt från den populära IRIS dataset.
Enligt ovanstående tabell kallas Sepal längd, Sepal bredd, Patel längd, Patel bredd och Arter egenskaperna. Kolumnerna är kända som funktioner. En rad har data för alla attribut. Därför kallas en rad en observation. Uppgifterna kan antingen vara numeriska eller kategoriska. Modellen ges observationerna med motsvarande artnamn som ingången. När en ny observation ges, bör modellen förutspå vilken typ av art det tillhör.
I övervakat lärande finns det algoritmer för klassificering och regression. Klassificering är processen att klassificera märkta data. Modellen skapade gränser som separerade kategorierna av data. När nya data tillhandahålls till modellen kan den kategorisera baserat på var punkten existerar. K-närmaste grannar (KNN) är en klassificeringsmodell. Beroende på k-värdet bestäms kategorin. Till exempel, när k är 5, om en viss datapunkt är nära åtta datapunkter i kategori A och sex datapunkter i kategori B kommer datapunkten att klassificeras som A.
Regressionen är processen att förutsäga trenden från tidigare data för att förutsäga utfallet av de nya data. Vid regression kan utmatningen bestå av en eller flera kontinuerliga variabler. Prediction görs med en rad som täcker de flesta datapunkter. Den enklaste regressionsmodellen är en linjär regression. Det är snabbt och behöver inte ställa parametrar som i KNN. Om data visar en parabolisk trend, är den linjära regressionsmodellen inte lämplig.
Det är några exempel på övervakade inlärningsalgoritmer. Generellt är resultaten som genereras av övervakade inlärningsmetoder mer exakta och tillförlitliga eftersom inmatningsdata är välkända och märkta. Därför måste maskinen bara analysera de dolda mönstren.
I oövervakat lärande är modellen inte övervakad. Modellen arbetar på egen hand för att förutsäga resultaten. Det använder maskininlärningsalgoritmer för att komma till slutsatser om omärkta data. Generellt är de oövervakade inlärningsalgoritmerna hårdare än övervakade inlärningsalgoritmer eftersom det finns få information. Clustering är en typ av oövervakat lärande. Det kan användas för att gruppera de okända data med algoritmer. K-medel- och densitetsbaserad klustring är två klustringsalgoritmer.
k-medelalgoritmen, ställer k centroid slumpmässigt för varje kluster. Då tilldelas varje datapunkt till närmaste centroid. Euklidiskt avstånd används för att beräkna avståndet från datapunktet till centroid. Datapunkterna klassificeras i grupper. Positionerna för k-centroider beräknas igen. Den nya centroidpositionen bestäms av medelvärdet av alla poäng i gruppen. Återigen tilldelas varje datapunkt till närmaste centroid. Denna process upprepas tills centroiderna inte längre förändras. k-mean är en snabb klustringsalgoritm, men det finns ingen angiven initialisering av klustringspunkter. Det finns också en stor variation av klustermodeller baserat på initialisering av klusterpunkter.
En annan klustringsalgoritm är Täthetsbaserad klustring. Det är också känt som Density Based Spatial Clustering Applications med ljud. Det fungerar genom att definiera ett kluster som den maximala uppsättningen täthetsanslutna punkter. De är två parametrar som används för täthetsbaserad klyvning. De är Ɛ (epsilon) och minsta poäng. Ɛ är den maximala radien av kvarteret. Minimipunkten är det lägsta antalet poäng i Ɛ-kvarteret för att definiera ett kluster. Det här är några exempel på gruppering som faller i oövervakat lärande.
Generellt är resultaten som genereras av oövervakade inlärningsalgoritmer inte mycket noggranna och tillförlitliga eftersom maskinen måste definiera och märka inmatningsdata före bestämning av de dolda mönster och funktioner.
Övervakad vs Unsupervised Machine Learning | |
Övervakad lärande är maskinlärningsuppgiften att lära en funktion som kartlägger en ingång till en utgång baserad på exempel inmatningsutgångspar. | Unsupervised Learning är maskinlärarens uppgift att avleda en funktion för att beskriva dold struktur från omärkta data. |
Huvudfunktionalitet | |
I övervakat lärande förutser modellen resultatet baserat på de märkta inmatningsdata. | I oövervakat lärande förutspår modellen resultatet utan märkta data genom att själv identifiera mönstren. |
Resultatenas noggrannhet | |
Resultaten som genereras av övervakade inlärningsmetoder är mer exakta och tillförlitliga. | Resultaten från oövervakade inlärningsmetoder är inte mycket korrekta och pålitliga. |
Huvudalgoritmer | |
Det finns algoritmer för regression och klassificering i övervakat lärande. | Det finns algoritmer för gruppering i oövervakat lärande. |
Övervakad lärande och oövervakad lärande är två typer av maskinlärande. Övervakad lärande är maskinlärningsuppgiften att lära en funktion som kartlägger en ingång till en utgång baserad på exempel inmatningsutgångspar. Unsupervised Learning är maskinlärarens uppgift att avleda en funktion för att beskriva dold struktur från omärkta data. Skillnaden mellan övervakad och oövervakad maskininlärning är att övervakat lärande använder märkt data medan oövervakad lutande använder obelagda data.
1.TheBigDataUniversity. Maskininlärning - Övervakad VS Unsupervised Learning, kognitiv klass, 13 mars 2017. Tillgänglig här
2. "Unsupervised Learning." Wikipedia, Wikimedia Foundation, 20 mars 2018. Tillgänglig här
3. "Övervakad lärande." Wikipedia, Wikimedia Foundation, 15 mars 2018. Tillgänglig här
1.'2729781 'av GDJ (Public Domain) via pixabay