వర్గీకరణ అనేది ఒక డేటా మైనింగ్ టెక్నిక్, ఇది ఖచ్చితమైన అంచనాలు మరియు విశ్లేషణలకు సహాయపడటానికి డేటా సేకరణకు కేతగిస్తుంది. కొన్ని సార్లు డెసిషన్ ట్రీ అని కూడా పిలవబడుతుంది, చాలా పెద్ద డేటాసెట్లను సమర్థవంతంగా విశ్లేషించడానికి అనేక పద్ధతుల్లో వర్గీకరణ ఒకటి.
ఎందుకు వర్గీకరణ?
భారీ డేటాబేస్లు నేటి ప్రపంచంలో "పెద్ద డేటా" లో కట్టుబాటు అవుతున్నాయి. అనేక టెరాబైట్ల డేటాతో ఒక డేటాబేస్ను ఊహించండి - టెరాబైట్ డేటా యొక్క ఒక ట్రిలియన్ బైట్లు.
ఒంటరిగా ఫేస్బుక్ ఒక్కొక్క రోజులో 600 టెరాబైట్ల కొత్త డేటాను క్రంచ్ చేస్తుంది (2014 నాటికి, ఇది చివరిసారిగా ఈ స్పెక్స్ని నివేదించింది). పెద్ద డేటా ప్రాథమిక సవాలు అది అర్ధవంతం ఎలా ఉంది.
మరియు పరిమాణపు వాల్యూమ్ మాత్రమే సమస్య కాదు: పెద్ద డేటా విభిన్నమైన, అసంపూర్ణంగా మరియు వేగవంతంగా మారుతూ ఉంటుంది. ఆడియో మరియు వీడియో డేటా, సోషల్ మీడియా పోస్ట్లు, 3D డేటా లేదా జియోస్పటియల్ డేటాను పరిగణించండి. ఈ రకమైన డేటా సులభంగా వర్గీకరించబడదు లేదా నిర్వహించబడదు.
ఈ సవాలును ఎదుర్కోవటానికి, ఉపయోగకరమైన సమాచారమును సంగ్రహించుటకు స్వయంచాలక పద్దతుల యొక్క శ్రేణి అభివృద్ధి చేయబడింది, వాటిలో వర్గీకరణ .
ఎలా వర్గీకరణ పనిచేస్తుంది
టెక్-స్పీకర్లో చాలా దూరం ప్రయాణించే ప్రమాదంలో, వర్గీకరణ ఎలా పని చేస్తుందో చర్చించండి. ఒక ప్రశ్నకు సమాధానం ఇవ్వడం, నిర్ణయం తీసుకోవడం లేదా ప్రవర్తనను అంచనా వేయడం వంటి వర్గీకరణ నియమాల సమితిని రూపొందించడం లక్ష్యంగా చెప్పవచ్చు.ప్రారంభించడానికి, ఒక శిక్షణా సమితి యొక్క డేటాను అభివృద్ధి చేస్తుంది, ఇది నిర్దిష్ట సమూహ లక్షణాలను కలిగి ఉంటుంది అలాగే అవకాశం ఫలితం ఉంటుంది.
వర్గీకరణ అల్గోరిథం యొక్క పని లక్షణాల సమితి దాని ముగింపుకు ఎలా చేరుతుందో తెలుసుకోవడం.
దృష్టాంతం : బహుశా క్రెడిట్ కార్డు కంపెనీ క్రెడిట్ కార్డు ఆఫర్ను ఏ అవకాశాలు అందుకోవాలి అనేదానిని గుర్తించడానికి ప్రయత్నిస్తుంటుంది.
ఇది శిక్షణా డేటా యొక్క సెట్ కావచ్చు:
పేరు | వయసు | జెండర్ | వార్షిక ఆదాయం | క్రెడిట్ కార్డ్ ఆఫర్ |
---|---|---|---|---|
జాన్ డో | 25 | M | $ 39.500 | తోబుట్టువుల |
జేన్ డో | 56 | F | $ 125,000 | అవును |
"ప్రిడిక్టార్" నిలువు వయస్సు , లింగం మరియు వార్షిక ఆదాయం "ప్రిడిక్టర్ గుణం" క్రెడిట్ కార్డ్ ఆఫర్ యొక్క విలువను నిర్ణయించాయి. ఒక శిక్షణా సెట్లో, ప్రిడిక్టర్ గుణం తెలిసినది. వర్గీకరణ అల్గోరిథం అప్పుడు predictor లక్షణం యొక్క విలువ ఎలా చేరుకున్నారో తెలుసుకోవడానికి ప్రయత్నిస్తుంది: ప్రిడిక్టర్లు మరియు నిర్ణయం మధ్య ఏ సంబంధాలు ఉన్నాయి? ఇది సాధారణంగా ఒక IF / THEN స్టేట్మెంట్, ప్రిడిక్షన్ నియమాలను అభివృద్ధి చేస్తుంది, ఉదాహరణకు:
IF (వయసు> 18 లేదా వయసు <75) మరియు వార్షిక ఆదాయం> 40,000 THEN క్రెడిట్ కార్డ్ ఆఫర్ = అవును
సహజంగానే, ఇది ఒక సాధారణ ఉదాహరణ, మరియు అల్గోరిథం ఇక్కడ చూపించిన రెండు రికార్డుల కంటే పెద్ద డేటా మాదిరిని కలిగి ఉండాలి. అంతేకాక, ప్రిడిక్షన్ నియమాలు లక్షణం వివరాలను సంగ్రహించడానికి ఉప-నిబంధనలతో సహా చాలా క్లిష్టమైనవి.
తరువాత, అల్గోరిథం విశ్లేషించడానికి డేటా యొక్క "అంచనా సెట్" ఇవ్వబడుతుంది, కానీ ఈ సెట్ అంచనా లక్షణం (లేదా నిర్ణయం) లేదు:
పేరు | వయసు | జెండర్ | వార్షిక ఆదాయం | క్రెడిట్ కార్డ్ ఆఫర్ |
---|---|---|---|---|
జాక్ ఫ్రాస్ట్ | 42 | M | $ 88,000 | |
మేరీ ముర్రే | 16 | F | $ 0 |
ఈ ప్రిడిక్టర్ డేటా ప్రిడిక్షన్ నియమాల కచ్చితత్వాన్ని అంచనా వేయడానికి సహాయపడుతుంది మరియు డెవలపర్ అంచనాలను ప్రభావవంతంగా మరియు ఉపయోగకరంగా పరిగణించేవరకు నియమాలు tweaked ఉంటాయి.
వర్గీకరణకు రోజుకు ఉదాహరణలు
వర్గీకరణ, మరియు ఇతర డేటా మైనింగ్ టెక్నిక్స్, వినియోగదారులు మా రోజువారీ అనుభవం చాలా వెనుక ఉంది.
వర్షం అంచనాలు రోజు వర్ష, సన్నీ లేదా మేఘాలుగా ఉన్నాయని నివేదించడానికి వర్గీకరణను ఉపయోగించుకోవచ్చు. మెడికల్ ఫలితాలను అంచనా వేయడానికి ఆరోగ్య వృత్తిని విశ్లేషించవచ్చు. వర్గీకరణ పద్ధతి యొక్క రకం, అమాయక బయేసియన్, స్పామ్ ఇమెయిల్లను వర్గీకరించడానికి నియత సంభావ్యతను ఉపయోగిస్తుంది. మోసం గుర్తింపు నుండి ఉత్పత్తి ఆఫర్లకు, వర్గీకరణ అనేది ప్రతిరోజు డేటా విశ్లేషించడం మరియు అంచనాలను ఉత్పత్తి చేసే దృశ్యాలు.