లినక్స్ వాయిస్ రికగ్నిషన్ స్టేట్

పరిచయం

నేను ఆర్టికల్స్ కోసం చాలా సమయాన్ని వెచ్చించాను మరియు తరచూ నేను స్టేషన్ గురించి రైలు స్టేషన్కి వెళ్ళేటప్పుడు లేదా బయటికి వెళ్లి సాధారణంగా గురించి వ్యాసం గురించి ఆలోచించండి.

ఒక సాయంత్రం నా పని నుండి 1.5 మైళ్ళు స్టేషన్కు నడిచేటప్పుడు నేను "నేను చెప్పాలనుకున్నది రికార్డు చేయగలిగితే అది మంచిది కాదని, తర్వాత నేను దానిని సవరించడం మరియు తరువాత ఫార్మాట్ చేయగల ఒక టెక్స్ట్ ఫైల్కు పంపించాను" .

నేను లినక్స్లో చెప్పుకోదగ్గ సాఫ్ట్ వేర్ ఉపయోగించి నేరుగా మైక్రోఫోన్ ద్వారా రికార్డింగ్ చేయటం, వాయిస్ గుర్తింపు మరియు డిక్టేషన్ కోసం అందుబాటులో ఉన్న వివిధ ఎంపికలను చూడటం కోసం చాలా ఎక్కువ గంటలు గడిపాను, MP3 లేదా WAV ఫార్మాట్కు ఫైల్ను రికార్డు చేసి, కమాండ్ లైన్ ద్వారా అలాగే క్రోమ్ మరియు Android అప్లికేషన్లు.

ఈ వ్యాసం కఠినమైన రోజుల తర్వాత నా అన్వేషణలను హైలైట్ చేస్తుంది.

Linux ఐచ్ఛికాలు

Linux లో వక్తలు మరియు వాయిస్ రికగ్నిషన్ సాఫ్ట్ వేర్ ను కనుగొనేందుకు ప్రయత్నిస్తున్నది అంత సులభం కాదు మరియు అందుబాటులో ఉన్న ఎంపికలు తెలివైన కాదు.

ఈ వికీపీడియా పేజీ CMU సింహిక, జూలియస్ మరియు సిమోన్లతో సహా సంభావ్య ఎంపికల జాబితాను కలిగి ఉంటుంది.

నేను ప్రస్తుతానికి డెబియన్ టెస్టింగ్ పైన ఆధారపడిన స్పార్కిలింక్స్ను వాడుతున్నాను మరియు రిపోజిటరీలలో మాత్రమే వాయిస్ గుర్తింపు ప్యాకేజీ Sphinx అని మీకు చెప్తాను.

నేను ప్రయత్నించిన స్థానిక లైనక్స్ ప్రోగ్రామ్లు పాకెట్స్ఫిన్క్స్, నేను WAV ఫైల్స్ టెక్స్ట్ మరియు Freespeech-VR ను మార్చాను, ఇది ఒక పైథాన్ అప్లికేషన్, ఇది మైక్రోఫోన్ నుండి నేరుగా రికార్డ్ చేయడానికి మీకు వీలు కల్పిస్తుంది.

నేను వాయిస్ నోట్ II మరియు డిక్టనోటోతో సహా కొన్ని క్రోమ్ అనువర్తనాలను కూడా ప్రయత్నించాను.

చివరగా నేను "డిక్టేషన్ అండ్ ఈమెయిల్" మరియు "టాక్ అండ్ టాక్ డిక్టేషన్" Android Apps ను ప్రయత్నించాను.

Freespeech-VR

Freespeech-VR ప్రామాణిక రిపోజిటరీలలో అందుబాటులో లేదు. నేను ఇక్కడ నుండి ఫైళ్ళను డౌన్లోడ్ చేసాను.

జిప్ ఫైల్ యొక్క కంటెంట్లను డౌన్లోడ్ చేసి, తీసివేసిన తర్వాత నేను ఒక టెర్మినల్ను తెరిచాను మరియు ఫైల్లను సంగ్రహించిన ఫోల్డర్కు నావిగేట్ చేసాను.

నేను freespeech-vr తెరవడానికి కింది టైప్ ఆదేశాన్ని.

సుడో python freespeech-vr

నేను ఒక మంచి మైక్రోఫోన్ మరియు ఒక స్పష్టమైన దక్షిణ ఆంగ్ల యాసతో హెడ్ఫోన్స్ జత.

ఈ కింది వచనం ఫ్రీసేపెక్-విఆర్ విండోలో కనిపించింది:

ఫలితం యొక్క యూనిట్ కుక్కలకు స్వాగతం నేడు పరీక్షలు ఎలా నిర్వహించబడుతున్నాయో భరోసా కలిగివుంటాయి ఒకదానిని పరీక్షించడానికి ఒక వ్యవస్థ మార్గం వాడుతున్నాను స్పీచ్ నేను ఒక్కొక్కటి మాత్రమే ఉంటున్నాను మరియు ఒక కోళ్లు బంగారు వ్యవస్థగా Ea అది నా పేరు తదుపరి పేరు ఫోన్ పిలుస్తుంది ఈ ఫైలు వెంటనే తగినంత కేసులు ఫోన్ చేతులు- స్పేస్ సింహిక గోయింగ్ ఇది ఒక ఫోన్లు భాగస్వామ్యం చేయబడదు ఒక శిక్షణ పొందిన మరియు టూల్స్ మీరు మాట్లాడటానికి ఉపయోగించు మీరు పూర్తి చేసినప్పుడు ఒక ఉపయోగించిన ఫైలు కథ ఒక మరియు ఉపయోగించి ఒక ద్వారా అది మీరు ఎలా నివారించండి వంటి ఈ Linux ఉంది ఎలా చాలా ఉంది

నేను డాగ్స్ వెబ్ సైట్ యొక్క యూనిట్ కాదు మరియు ఏ సమయంలో నేను గోల్డెన్ కోళ్లు తో ఏదైనా పేర్కొన్నారు లేదు అని ఇప్పుడు చెప్పాలనుకుంటున్నాను. నేను నిజానికి వాయిస్ గుర్తింపు సాఫ్ట్వేర్ను ఉపయోగించడాన్ని వివరించడానికి ప్రయత్నిస్తున్నాను.

నేను సాఫ్ట్వేర్ను పిచ్ మరియు వేగంతో సహా కొన్ని సార్లు ప్రయత్నించాను కానీ ఖచ్చితత్వం పేలవంగా ఉంది.

PocketSphinx

PocketSphinx ఒక WAV ఫైల్ను తీసుకొని కమాండ్ లైన్ ఉపయోగించి టెక్స్ట్కు మార్చగలదు.

పాకెట్ Sphinx డెబియన్ రిపోజిటరీల ద్వారా అందుబాటులో ఉంది మరియు చాలా పంపిణీకి అందుబాటులో ఉండాలి.

నేను PocketSphinx తో కనుగొన్న ప్రధాన సమస్య ఏమిటంటే మీరు వాయిస్ గుర్తింపు, భాష ఫైళ్లు, నిఘంటువులు మరియు వ్యవస్థను ఎలా శిక్షణ ఇవ్వడం అనే అంశాలలో ఒక డిగ్రీ అవసరం.

PocketSphinx ను ఇన్స్టాల్ చేసిన తర్వాత మీరు CMU Sphinx వెబ్సైట్కు వెళ్లి వీలైనంత ఎక్కువ సమాచారాన్ని చదవాలి. మీరు క్రింది మోడల్ ఫైల్ను కూడా డౌన్లోడ్ చేయాలి.

(మీరు స్థానిక ఇంగ్లీష్ స్పీకర్ కాకపోతే, మీ కోసం తగిన భాషా మోడల్ను ఎంచుకోండి).

సామాన్యంగా పాకెట్ స్పిన్క్స్ మరియు సింహిక యొక్క డాక్యుమెంటేషన్ లే వ్యక్తికి అర్థం చేసుకోవడం చాలా కష్టంగా ఉంటుంది, కాని నేను చేయగలిగే వాడే పదాల నుండి సాధ్యమైన పదాల జాబితాను మరియు భాషా నమూనాలను అందించడానికి ఉపయోగించబడుతుంది, ఇది సంభావ్య ఉచ్చారణల జాబితాను కలిగి ఉంటుంది.

పాకెట్ స్పిన్క్స్ పరీక్షించడానికి నా స్వంత వాయిస్, అల్ పాసినో నుండి "ది డెవిల్స్ అడ్వకేట్" మరియు "మోర్గాన్ ఫ్రీమాన్" నుండి స్నిప్పెట్లో ఒక స్నిప్పెట్ను నేను రికార్డింగ్ చేసాను. ఈ పాయింట్ వివిధ గాత్రాలు ప్రయత్నించండి మరియు నాకు మోర్గాన్ ఫ్రీమాన్ గా స్పష్టంగా ఒక కథ చెప్పడం ఎవరూ మరియు ఎవరూ అల్ పాసినో వంటి ఒక లైన్ అందిస్తుంది.

PocketSphinx పని చేయడానికి ఇది ఒక WAV ఫైల్ అవసరం మరియు ఇది ఒక నిర్దిష్ట ఆకృతిలో ఉండాలి. ఫైల్ MP3 ఫార్మాట్ లో ఉంటే అది FAVmpeg కమాండ్ను WAV ఫార్మాట్గా మార్చడానికి ఉపయోగిస్తుంది:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx అమలు చేయడానికి కింది ఆదేశాన్ని ఉపయోగించండి:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous ఒక WAV ఫైల్ తీసుకుని దానిని టెక్స్ట్ కు మారుస్తుంది.

పైకెట్స్ఫిన్క్స్ పైన ఉన్న కమాండ్లో "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" అని పిలవబడే ఒక నిఘంటువు ఫైల్ను ఉపయోగించమని చెప్పబడింది, భాషా మోడల్ "cmusphinx-5.0-en-us.lm" తో. వచనంగా మార్చబడిన ఫైల్ను voice2.wav అని పిలుస్తారు (ఇది నా వాయిస్తో చేసిన రికార్డింగ్). చివరగా 2> అన్ని verboose అవుట్పుట్ను మీకు వాయిస్ 2.log అని పిలువబడే ఒక ఫైల్ లో అవసరం లేదు. పరీక్ష యొక్క వాస్తవ ఫలితాలు టెర్మినల్ విండోలో ప్రదర్శించబడతాయి.

నా వాయిస్ ఉపయోగించి ఫలితాలు క్రింది విధంగా ఉన్నాయి:

ఒక నిమిషం లో గుర్తింపు సాఫ్ట్ వేర్ గురించి ఈ వారం విషయం గురించి బాగా రాదు

ఫలితాలు freespeech-vr వంటి భయానక కాదు కానీ ఇప్పటికీ నిజంగా ఉపయోగకరమైన కాదు. నేను అల్ పాసినోతో పాకెట్ స్పిన్క్స్ ను ఉపయోగించి ప్రయత్నించాను కాని ఇది ఏ ఒక్కటీ ఫలితాన్ని ఇవ్వలేదు.

చివరిగా నేను "బ్రూస్ ఆల్మైటీ" చిత్రం నుండి మోర్గాన్ ఫ్రీమాన్ యొక్క గాత్రాన్ని ఉపయోగించి ప్రయత్నించాను మరియు ఇక్కడ ఫలితాలు వచ్చాయి:

000000000: మేము ఆమె మీద ఉంటాము
000000001: అన్ని ఆ కఠినమైన yeah అవును ఇప్పుడు yeah ఈ మేము వేడిగా నేను భాగం సజీవంగా ఉన్నాను చాలా ఉంది
000000002: ఎలివేటర్ లో ఎవరు బేస్బాల్ గంటల బిట్ బయటకు కీ లేదా జీవితాల్లో ఏమి తెలుసు
000000003: పునరుద్ధరించే వాటిని ఏమిటి
000000004: వారు రాయలేదు
000000005: వారు నాకు కుడి వైపున ఉన్నారు
000000006: మీరు నియమాలు ఉండాలి
000000007: నేను నిన్ను ఎదురు చూస్తున్నాను
000000008: మరియు అతను ఇక్కడ నేర్చుకున్నాడు ఒక ఉదాహరణ ఉంది కిల్లర్ క్రిస్మస్ పార్టీ
000000009: ఇది o రాయడానికి మార్గం ఒకటి మారుతుంది. గాడిద నేను కొంచెం ధరించాను
000000010: సమస్య ఐక్యత వంటి నేను మంచి ప్రపంచంలో ఇవ్వాలని లేదు నేను ప్రపంచంలో నేను భావిస్తున్నాను అన్ని కాదు నేను ఆ సమయంలో వాటిని అంచనా మరియు నేను ఆ చూసిన
000000011: ఇది ఉన్న తండ్రి
000000012: ఈ గురించి చాలా ఏమి
000000013: ఇచ్చిన చేస్తుంది
000000014: మీరు చాలా వస్తాయి లేని ప్రతిదీ
000000015: కుడి పతనం లో
000000016: బాగా నాకు పట్టుకోండి
000000017: నేను వారు ఒక న వివాహం ఆ అన్ని మేము మార్గం కాకుండా కాకుండా ఇష్టపడటం లేదు ఒక కలిగి వెళుతున్న కూడా చాలా అనుకుంటే ఇది ఒక సంతోషంగా

నా పరీక్ష శాస్త్రీయంగా పరిగణించబడదు మరియు పాకెట్ సైఫిక్స్ యొక్క డెవలపర్లు నేను సాఫ్ట్వేర్ను సరిగ్గా ఉపయోగించడం లేదని చెప్పవచ్చు. వాయిస్ ట్రైనింగ్ అని పిలవబడే టెక్నిక్ కూడా ఉంది, ఇది మంచి నిఘంటువులు మరియు భాష ఫైళ్ళను సృష్టించేందుకు ఉపయోగించబడుతుంది.

అయినప్పటికీ నా అసంతృప్తికరమైన అభిప్రాయం ఏమిటంటే ప్రామాణిక రోజువారీ ఉపయోగం కోసం ఇది చాలా కష్టం.

వాయిస్ నోట్ II

వాయిస్ నోట్ II అనేది Google వాయిస్ గుర్తింపు API ని ఉపయోగిస్తున్న Chrome అనువర్తనం.

మీరు Chrome లేదా Chromium బ్రౌజర్లను ఉపయోగిస్తుంటే, వెబ్ స్టోర్ ద్వారా VoiceNote II ని ఇన్స్టాల్ చేయవచ్చు.

వాయిస్ నోట్ II లోని ఐకాన్ల వింత పద్ధతిలో అమర్చబడుతున్నాయి, మీరు విండో దిగువ భాగంలో భాషని సెట్ చేయవలసి ఉంటుంది మరియు సవరణ బటన్ దిగువన కూడా ఉంటుంది, అయితే రికార్డు బటన్ కుడి ఎగువ స్థానంలో ఉంది.

మీరు చేయవలసిన మొదటి విషయం ఒక భాషను ఎంచుకుని, ప్రపంచ చిహ్నంపై క్లిక్ చేయడం ద్వారా దీనిని సాధించవచ్చు.

రికార్డింగ్ ప్రారంభించడానికి, మైక్రోఫోన్ చిహ్నంపై క్లిక్ చేసి, మీ మైక్రోఫోన్లో మాట్లాడటం ప్రారంభించండి. ఉత్తమ ఫలితాల కోసం సాఫ్ట్వేర్ నెమ్మదిగా మాట్లాడటం నేను గుర్తించాను, అందువల్ల సాఫ్ట్వేర్ను ఉంచడానికి అవకాశం ఉంటుంది.

ఫలితాలు క్రింద చూడవచ్చు వంటి గొప్ప కాదు:

హలో మరియు కనెక్ట్ చేయడానికి స్వాగతం. టెక్స్ట్ మార్పిడికి డూలమ్ ఫర్రేల్ మాంద్యం 2008 ను మార్పిడులుగా మార్చడం గురించి నేటి కథనాలు మరియు 2014.bian లేదా rpm ప్యాకేజీని ప్రదర్శించడానికి వాయిస్ టెక్స్ట్ యాడ్ఆన్ ను ఉత్తమంగా చూడడానికి ఉత్తమ మార్గం మద్దతు ఇచ్చింది. vs edinburgh french german లో ఎంచుకున్నాడు మీరు సముద్ర మైదానంలో యునైటెడ్ రాజ్యానికి లో సమయం మీరు ఉత్తమ ఒక ఇంగ్లాండ్ యొక్క దక్షిణ నుండి చాలా ప్రామాణిక ఇంగ్లీష్ యాసను దాని బాగా టెక్స్ట్ టెక్స్ట్ మీ టెక్స్ట్ రాయడం పూర్తి కాని నేను టెక్స్ట్హోవా ఈ torrentalong వెళుతున్న అసలు పత్రంతో మరియు మీరు వినే స్నేహితుల కోసం మీరు చేసిన తప్పులను చూడవచ్చు

Dictanote

డిక్టనోటో అనేది మరొక క్రోమ్ అనువర్తనం, ఇది డిక్టేషన్ ప్రయోజనాల కోసం ఉపయోగించబడుతుంది మరియు మరింత స్పష్టమైనదిగా ఉంటుంది కానీ ఫలితాలు వాయిస్ నోట్ II కంటే మంచివి కావు.

నేను డిక్టొనెట్ యొక్క డెమో వెర్షన్ను మాత్రమే ఉపయోగించుకున్నాను, అది కొత్త పత్రాలను సృష్టించకుండా నిరోధిస్తుంది, కానీ ఎడిటర్లో ఇప్పటికే ఉన్న టెక్స్ట్పై మాట్లాడటానికి ఇది మీకు వీలు కల్పిస్తుంది. నేను వాయిస్ గుర్తింపు పరీక్షించగలిగారు కానీ ఫలితాలు వాయిస్ నోట్ II కంటే మెరుగైనవి కావు మరియు నేను అనుకూల సంస్కరణకు సైన్ అప్ చేయలేదు.

డిక్టేషన్ అండ్ మెయిల్

"డిక్టేషన్ అండ్ మెయిల్" అనేది స్థానిక Google వాయిస్ గుర్తింపు API ని ఉపయోగించే ఒక Android అనువర్తనం.

"డిక్టేషన్ అండ్ మెయిల్" లోని ఫలితాలు ఈ దశకు ప్రయత్నించిన ఇతర ప్రోగ్రామ్ల కంటే మెరుగైనవి.

హలో స్వాగతం గురించి Linux., నేడు మేము టెక్స్ట్ ధ్వని మార్పిడి గురించి మాట్లాడటం

"డిక్టేషన్ మరియు మెయిల్" తో ట్రిక్ నెమ్మదిగా మాట్లాడటం మరియు మీరు కూడా స్వరంతో మాట్లాడటం.

మీరు మాట్లాడటం ముగిసిన తర్వాత మీ ఫలితాలను మీకు ఇమెయిల్ చేయవచ్చు.

చర్చ మరియు చర్చ డిక్టేషన్

నేను ప్రయత్నించిన ఇతర Android అనువర్తనం "చర్చ మరియు చర్చ డిక్టేషన్".

ఈ అనువర్తనానికి ఇంటర్ఫేస్ సమూహంలో ఉత్తమమైనది మరియు వాయిస్ గుర్తింపు నిజానికి బాగా పని చేసింది. డిక్టేషన్ రికార్డింగ్ తరువాత నేను ఇమెయిల్ ద్వారా సహా వివిధ మార్గాల్లో ఫలితాలు భాగస్వామ్యం చేయగలిగింది.

నేటికి linux about.com కు స్వాగతం

మీరు చూడగలరు గా పైన టెక్స్ట్ మీరు బహుశా ఊహించిన విధంగా గురించి స్పష్టమైన ఉంది. నెమ్మదిగా మాట్లాడటం కీ.

సారాంశం

స్థానిక లైనక్స్ వాయిస్ గుర్తింపు మరియు ప్రత్యేకంగా డిక్టేషన్ సంబంధించి వెళ్ళడానికి కొంత మార్గం ఉంది. గూగుల్ వాయిస్ API ను ఉపయోగించే కొన్ని అనువర్తనాలు ఉన్నాయి కానీ అవి ఇంకా రిపోజిటరీలలో జాబితా చేయబడలేదు.

ChromeOS అనువర్తనాలు కొంచెం మెరుగ్గా ఉంటాయి కానీ నా Android ఫోన్ను ఉపయోగించి ఉత్తమ ఫలితాలను సాధించాయి. బహుశా ఫోన్ మంచి మైక్రోఫోన్ని కలిగి ఉంటుంది మరియు అందువల్ల వాయిస్ గుర్తింపు సాఫ్ట్వేర్ అనేది మెరుగైన మార్పును కలిగి ఉంటుంది.

నిజంగా ఉపయోగపడేలా వాయిస్ గుర్తింపు కోసం తక్కువ సెటప్ అవసరంతో మరింత స్పష్టమైనది కావాలి. మీరు భాషా నమూనాలు మరియు నిఘంటువులు సరిగ్గా అర్థం చేసుకోవటానికి గజిబిజి చేయకూడదు.

ప్రతి ఒక్కరికీ విభిన్న వాయిస్ ఉన్నందున మొత్తం స్వర గుర్తింపు మొత్తం కళ చాలా సవాలుగా ఉందని మరియు ప్రపంచవ్యాప్తంగా ఉపయోగించే వందల భాషల గురించి ఆందోళన చెందకుండా ఒక దేశంలో ప్రాంతం నుండి అనేక మాండలికాలు ఉన్నాయి.

నా విశ్లేషణ, కాబట్టి, వాయిస్ గుర్తింపు సాఫ్ట్వేర్ ఇప్పటికీ పురోగతి పని ఉంది.