డేటా మైనింగ్ లో వర్గీకరణ

వర్గీకరణ అనేది ఒక డేటా మైనింగ్ టెక్నిక్, ఇది ఖచ్చితమైన అంచనాలు మరియు విశ్లేషణలకు సహాయపడటానికి డేటా సేకరణకు కేతగిస్తుంది. కొన్ని సార్లు డెసిషన్ ట్రీ అని కూడా పిలవబడుతుంది, చాలా పెద్ద డేటాసెట్లను సమర్థవంతంగా విశ్లేషించడానికి అనేక పద్ధతుల్లో వర్గీకరణ ఒకటి.

ఎందుకు వర్గీకరణ?

భారీ డేటాబేస్లు నేటి ప్రపంచంలో "పెద్ద డేటా" లో కట్టుబాటు అవుతున్నాయి. అనేక టెరాబైట్ల డేటాతో ఒక డేటాబేస్ను ఊహించండి - టెరాబైట్ డేటా యొక్క ఒక ట్రిలియన్ బైట్లు.

ఒంటరిగా ఫేస్బుక్ ఒక్కొక్క రోజులో 600 టెరాబైట్ల కొత్త డేటాను క్రంచ్ చేస్తుంది (2014 నాటికి, ఇది చివరిసారిగా ఈ స్పెక్స్ని నివేదించింది). పెద్ద డేటా ప్రాథమిక సవాలు అది అర్ధవంతం ఎలా ఉంది.

మరియు పరిమాణపు వాల్యూమ్ మాత్రమే సమస్య కాదు: పెద్ద డేటా విభిన్నమైన, అసంపూర్ణంగా మరియు వేగవంతంగా మారుతూ ఉంటుంది. ఆడియో మరియు వీడియో డేటా, సోషల్ మీడియా పోస్ట్లు, 3D డేటా లేదా జియోస్పటియల్ డేటాను పరిగణించండి. ఈ రకమైన డేటా సులభంగా వర్గీకరించబడదు లేదా నిర్వహించబడదు.

ఈ సవాలును ఎదుర్కోవటానికి, ఉపయోగకరమైన సమాచారమును సంగ్రహించుటకు స్వయంచాలక పద్దతుల యొక్క శ్రేణి అభివృద్ధి చేయబడింది, వాటిలో వర్గీకరణ .

ఎలా వర్గీకరణ పనిచేస్తుంది

టెక్-స్పీకర్లో చాలా దూరం ప్రయాణించే ప్రమాదంలో, వర్గీకరణ ఎలా పని చేస్తుందో చర్చించండి. ఒక ప్రశ్నకు సమాధానం ఇవ్వడం, నిర్ణయం తీసుకోవడం లేదా ప్రవర్తనను అంచనా వేయడం వంటి వర్గీకరణ నియమాల సమితిని రూపొందించడం లక్ష్యంగా చెప్పవచ్చు.ప్రారంభించడానికి, ఒక శిక్షణా సమితి యొక్క డేటాను అభివృద్ధి చేస్తుంది, ఇది నిర్దిష్ట సమూహ లక్షణాలను కలిగి ఉంటుంది అలాగే అవకాశం ఫలితం ఉంటుంది.

వర్గీకరణ అల్గోరిథం యొక్క పని లక్షణాల సమితి దాని ముగింపుకు ఎలా చేరుతుందో తెలుసుకోవడం.

దృష్టాంతం : బహుశా క్రెడిట్ కార్డు కంపెనీ క్రెడిట్ కార్డు ఆఫర్ను ఏ అవకాశాలు అందుకోవాలి అనేదానిని గుర్తించడానికి ప్రయత్నిస్తుంటుంది.

ఇది శిక్షణా డేటా యొక్క సెట్ కావచ్చు:

శిక్షణ డేటా
పేరు వయసు జెండర్ వార్షిక ఆదాయం క్రెడిట్ కార్డ్ ఆఫర్
జాన్ డో 25 M $ 39.500 తోబుట్టువుల
జేన్ డో 56 F $ 125,000 అవును

"ప్రిడిక్టార్" నిలువు వయస్సు , లింగం మరియు వార్షిక ఆదాయం "ప్రిడిక్టర్ గుణం" క్రెడిట్ కార్డ్ ఆఫర్ యొక్క విలువను నిర్ణయించాయి. ఒక శిక్షణా సెట్లో, ప్రిడిక్టర్ గుణం తెలిసినది. వర్గీకరణ అల్గోరిథం అప్పుడు predictor లక్షణం యొక్క విలువ ఎలా చేరుకున్నారో తెలుసుకోవడానికి ప్రయత్నిస్తుంది: ప్రిడిక్టర్లు మరియు నిర్ణయం మధ్య ఏ సంబంధాలు ఉన్నాయి? ఇది సాధారణంగా ఒక IF / THEN స్టేట్మెంట్, ప్రిడిక్షన్ నియమాలను అభివృద్ధి చేస్తుంది, ఉదాహరణకు:

IF (వయసు> 18 లేదా వయసు <75) మరియు వార్షిక ఆదాయం> 40,000 THEN క్రెడిట్ కార్డ్ ఆఫర్ = అవును

సహజంగానే, ఇది ఒక సాధారణ ఉదాహరణ, మరియు అల్గోరిథం ఇక్కడ చూపించిన రెండు రికార్డుల కంటే పెద్ద డేటా మాదిరిని కలిగి ఉండాలి. అంతేకాక, ప్రిడిక్షన్ నియమాలు లక్షణం వివరాలను సంగ్రహించడానికి ఉప-నిబంధనలతో సహా చాలా క్లిష్టమైనవి.

తరువాత, అల్గోరిథం విశ్లేషించడానికి డేటా యొక్క "అంచనా సెట్" ఇవ్వబడుతుంది, కానీ ఈ సెట్ అంచనా లక్షణం (లేదా నిర్ణయం) లేదు:

ప్రిడిక్టర్ డేటా
పేరు వయసు జెండర్ వార్షిక ఆదాయం క్రెడిట్ కార్డ్ ఆఫర్
జాక్ ఫ్రాస్ట్ 42 M $ 88,000
మేరీ ముర్రే 16 F $ 0

ఈ ప్రిడిక్టర్ డేటా ప్రిడిక్షన్ నియమాల కచ్చితత్వాన్ని అంచనా వేయడానికి సహాయపడుతుంది మరియు డెవలపర్ అంచనాలను ప్రభావవంతంగా మరియు ఉపయోగకరంగా పరిగణించేవరకు నియమాలు tweaked ఉంటాయి.

వర్గీకరణకు రోజుకు ఉదాహరణలు

వర్గీకరణ, మరియు ఇతర డేటా మైనింగ్ టెక్నిక్స్, వినియోగదారులు మా రోజువారీ అనుభవం చాలా వెనుక ఉంది.

వర్షం అంచనాలు రోజు వర్ష, సన్నీ లేదా మేఘాలుగా ఉన్నాయని నివేదించడానికి వర్గీకరణను ఉపయోగించుకోవచ్చు. మెడికల్ ఫలితాలను అంచనా వేయడానికి ఆరోగ్య వృత్తిని విశ్లేషించవచ్చు. వర్గీకరణ పద్ధతి యొక్క రకం, అమాయక బయేసియన్, స్పామ్ ఇమెయిల్లను వర్గీకరించడానికి నియత సంభావ్యతను ఉపయోగిస్తుంది. మోసం గుర్తింపు నుండి ఉత్పత్తి ఆఫర్లకు, వర్గీకరణ అనేది ప్రతిరోజు డేటా విశ్లేషించడం మరియు అంచనాలను ఉత్పత్తి చేసే దృశ్యాలు.