រដ្ឋការទទួលស្គាល់វិទ្យុលីនុច

by ហ្គារីញូអែល

សេចក្តីណែនាំ

ខ្ញុំចំណាយពេលច្រើនក្នុងការស្រាវជ្រាវអត្ថបទហើយជារឿយៗខ្ញុំគិតអំពីប្រធានបទសម្រាប់អត្ថបទខណៈពេលដើរទៅស្ថានីយរថភ្លើងឬនៅពេលចេញនិងអំពីជាទូទៅ។

នៅល្ងាចមួយខណៈពេលដែលដើរ 1.5 គីឡូម៉ែត្រទៅស្ថានីយ៍ពីការងាររបស់ខ្ញុំខ្ញុំគិតថា "វានឹងមិនល្អទេប្រសិនបើខ្ញុំអាចកត់ត្រាអ្វីដែលខ្ញុំចង់និយាយហើយបន្ទាប់មកវាត្រូវបានចម្លងដោយស្វ័យប្រវត្តិទៅឯកសារអត្ថបទដែលខ្ញុំអាចកែសម្រួលនិងធ្វើទ្រង់ទ្រាយនៅពេលក្រោយ" ។

ខ្ញុំបានចំណាយពេលច្រើនម៉ោងដើម្បីមើលជម្រើសផ្សេងៗគ្នាដែលអាចរកបានសម្រាប់ការស្គាល់សំឡេងនិងការសរសេរតាមអានរួមទាំងការថតដោយផ្ទាល់តាមរយៈមីក្រូហ្វូនដោយប្រើកម្មវិធីសរសេរអក្សរក្នុងលីនីកថតឯកសារជាទ្រង់ទ្រាយ MP3 ឬ WAV និងបម្លែងវាតាមបន្ទាត់ពាក្យបញ្ជាក៏ដូចជាការប្រើប្រាស់ Chrome និងកម្មវិធី Android ។

អត្ថបទនេះបង្ហាញពីការរកឃើញរបស់ខ្ញុំបន្ទាប់ពីប៉ុន្មានថ្ងៃនៃពលកម្មរឹង។

ជម្រើសលីនុច

ការព្យាយាមស្វែងយល់តាមការសរសេរនិងសរសេរសំឡេងនៅក្នុងលីនីកមិនមែនជាការងាយស្រួលដូចអ្វីដែលអាចធ្វើបាននោះទេហើយជម្រើសដែលមានគឺមិនឆ្លាតនោះទេ។

វិគីភីឌាទំព័រនេះមានបញ្ជីនៃជម្រើសសក្តានុពលរួមទាំង CMU Sphinx, Julius និង Simon ។

ខ្ញុំកំពុងប្រើប្រាស់ SparkyLinux ដែលមានមូលដ្ឋានលើការធ្វើតេស្ត Debian នៅពេលនេះហើយខ្ញុំអាចប្រាប់អ្នកថាកញ្ចប់ទទួលស្គាល់សម្លេងតែមួយគត់នៅក្នុងឃ្លាំងគឺ Sphinx ។

កម្មវិធីលីនុចដើមដែលខ្ញុំបានព្យាយាមសាកល្បងគឺ PocketSpinx ដែលខ្ញុំបានប្រើដើម្បីបម្លែងឯកសារ WAV ទៅជាអត្ថបទនិង Freespeech-VR ដែលជាកម្មវិធីពស់ថ្លាន់ដែលអនុញ្ញាតឱ្យអ្នកកត់ត្រាត្រង់ពីមីក្រូហ្វូន។

ខ្ញុំក៏បានព្យាយាមកម្មវិធី Chrome ពីររួមទាំង VoiceNote II និង Dictanote ផងដែរ។

ចុងក្រោយខ្ញុំបានសាកល្បង "ការនិយាយនិងអ៊ីម៉ែល" និង "ការពិភាក្សានិងការនិយាយ" កម្មវិធី Android ។

Freespeech-VR

Freespeech-VR មិនមាននៅក្នុងឃ្លាំងស្តង់ដារទេ។ ខ្ញុំបានទាញយកឯកសារពីទីនេះ។

បន្ទាប់ពីទាញយកនិងទាញយកមាតិកានៃឯកសារបង្ហាប់ខ្ញុំបានបើកស្ថានីយហើយបានរុករកទៅថតដែលឯកសារត្រូវបានស្រង់ចេញទៅ។

ខ្ញុំបានវាយពាក្យបញ្ជាដូចខាងក្រោមដើម្បីបើក freespeech -vr ។

sudo python freespeech-vr

ខ្ញុំមានកាសពីរដែលមានមីក្រូហ្វូនសមរម្យនិងសំដីអង់គ្លេសច្បាស់លាស់។

អត្ថបទខាងក្រោមបានបង្ហាញនៅក្នុងបង្អួច freespeech -vr:

សូមស្វាគមន៍មកកាន់សត្វឆ្កែដែលមានលទ្ធផលថ្ងៃនេះមានការធានានូវវិធីធ្វើតេស្តដែលត្រូវបានគ្រប់គ្រងត្រូវសាកល្បងពេលណាប្រើអត្ថបទប្រើវិធីប្រព័ន្ធរបៀបនិយាយខ្ញុំម្នាក់ៗមានតែមួយគត់ក្នុងក្តីសង្ឃឹមថានឹងស្នាក់នៅនិងមានន័យថាមាន់មាន់មាសជាប្រព័ន្ធ។ Ea នៅពេលដែលឈ្មោះរបស់ខ្ញុំទូរស័ព្ទបន្ទាប់ទៀតហៅទូរស័ព្ទនេះឯកសារនេះឆាប់ៗមានករណីទូរស័ព្ទទៅជាដៃ - អវកាស sphinx ទៅនោះមិនមែនជាទូរស័ព្ទដែលនឹងត្រូវបានចែករំលែកការហ្វឹកហ្វឺននិងឧបករណ៍ប្រើប្រាស់និយាយនៅពេលអ្នកបញ្ចប់និយាយថាឯកសារដែលបានប្រើចុងក្រោយ a រឿងមួយនិងការប្រើមួយដោយនៅពេលដែលវាគឺជារបៀបដែលទទួលបានជោគជ័យលីនុចនេះគឺដូចដែលអ្នកជៀសវាងគឺ

ខ្ញុំគ្រាន់តែចង់និយាយថាឥឡូវនេះថានេះមិនមែនជាគេហទំព័ររបស់សត្វឆ្កែទេហើយខ្ញុំក៏មិននិយាយពីអ្វីដែលត្រូវធ្វើជាមួយសត្វមាន់មាសនោះដែរ។ ខ្ញុំពិតជាកំពុងព្យាយាមរៀបរាប់ពីដំណើរការនៃការប្រើកម្មវិធីដែលស្គាល់សំឡេង។

ខ្ញុំបានសាកល្បងកម្មវិធីពីរបីដងរួមទាំងល្បឿនខុសៗគ្នានិងល្បឿនប៉ុន្តែភាពត្រឹមត្រូវគឺមិនល្អ។

PocketSphinx

PocketSphinx អាចយកឯកសារ WAV និងបម្លែងវាទៅជាអត្ថបទដោយប្រើបន្ទាត់ពាក្យបញ្ជា។

PocketSphinx អាចរកបានតាមរយៈឃ្លាំងដេបៀនហើយគួរតែអាចរកបានសម្រាប់ការចែកចាយភាគច្រើន។

បញ្ហាចម្បងដែលខ្ញុំបានរកឃើញជាមួយ PocketSphinx នោះគឺថាអ្នកស្ទើរតែត្រូវការសញ្ញាបត្រនៃការស្គាល់សំលេងឯកសារភាសាវចនានុក្រមនិងរបៀបបង្ហាត់ប្រព័ន្ធ។

បន្ទាប់ពីដំឡើង PocketSphinx អ្នកគួរទៅគេហទំព័រ CMU Sphinx និងអានព័ត៌មានច្រើនតាមតែអាចធ្វើទៅបាន។ អ្នកក៏ត្រូវទាញយកឯកសារគំរូដូចខាងក្រោម។

គំរូភាសាអង់គ្លេសទូទៅរបស់អាមេរិក

(ប្រសិនបើអ្នកមិនមែនជាអ្នកនិយាយភាសាអង់គ្លេសដើមអ្នកត្រូវជ្រើសរើសគំរូភាសាដែលសមរម្យសម្រាប់អ្នក) ។

ឯកសារសម្រាប់ PocketSpinx និង Sphinx ជាទូទៅគឺពិបាកយល់ពីមនុស្សដែលមិនស្គាល់ប៉ុន្តែពីអ្វីដែលខ្ញុំអាចបង្កើតឯកសារវចនានុក្រមត្រូវបានប្រើដើម្បីផ្តល់នូវបញ្ជីពាក្យដែលអាចធ្វើបាននិងម៉ូដែលភាសាមានបញ្ជីនៃការបញ្ចេញសម្លេងសក្តានុពល។

ដើម្បីសាកល្បង PocketSphinx ខ្ញុំបានប្រើការថតសម្លេងសំលេងរបស់ខ្ញុំពីបទចំរៀងរបស់ Al Pacino នៅក្នុងរឿង "The Devils Advocate" និងបទភ្លេងពី "Morgan Freeman" ។ ចំនុចនេះគឺដើម្បីសាកល្បងសំឡេងផ្សេងគ្នាហើយសម្រាប់ខ្ញុំគ្មាននរណាម្នាក់អាចប្រាប់រឿងរ៉ាវយ៉ាងច្បាស់ដូច Morgan Freeman ទេហើយគ្មាននរណាម្នាក់ផ្តល់បន្ទាត់ដូច Al Pacino ទេ។

សម្រាប់ PocketSphinx ដើម្បីធ្វើការវាត្រូវការឯកសារ WAV ហើយវាត្រូវការទ្រង់ទ្រាយ។ ប្រសិនបើឯកសារមានទ្រង់ទ្រាយ MP3 វាប្រើពាក្យបញ្ជា ffmpeg ដើម្បីបម្លែងវាទៅជាទ្រង់ទ្រាយ WAV:

ffmpeg -i inputfilename.mp3-acodec pcm_s16le -ar 16000 outputfilename.wav

ដើម្បីដំណើរការ PocketSphinx សូមប្រើពាក្យបញ្ជាខាងក្រោម:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous ត្រូវការឯកសារ WAV ហើយបម្លែងវាទៅជាអត្ថបទ។

នៅក្នុងពាក្យបញ្ជាខាងលើ pocketsphinx ត្រូវបានគេប្រាប់ឱ្យប្រើឯកសារវចនានុក្រមមួយដែលមានឈ្មោះថា "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" ជាមួយគំរូភាសា "cmusphinx-5.0-en-us.lm" ។ ឯកសារដែលត្រូវបានបម្លែងទៅជាអត្ថបទត្រូវបានគេហៅថា voice2.wav (ដែលជាការថតដែលខ្ញុំបានធ្វើជាមួយសម្លេងរបស់ខ្ញុំ) ។ ទីបំផុត 2> ដាក់លទ្ធផលទាំងអស់ដែលអ្នកមិនត្រូវការទៅក្នុងឯកសារដែលហៅថា voice2.log ។ លទ្ធផលពិតនៃការធ្វើតេស្តនេះត្រូវបានបង្ហាញនៅក្នុងបង្អួចស្ថានីយ។

លទ្ធផលដោយប្រើសម្លេងរបស់ខ្ញុំមានដូចខាងក្រោម:

សូមស្វាគមន៍ចំពោះសំណួរបន្ទាប់អំពីប្រធានបទសប្តាហ៍នេះអំពីកម្មវិធីដែលទទួលស្គាល់ក្នុងមួយនាទី

លទ្ធផលគឺមិនសូវអាក្រក់ដូចនឹង freespeech-vr ដែរប៉ុន្តែនៅតែមិនអាចប្រើបាន។ បន្ទាប់មកខ្ញុំបានព្យាយាមប្រើ PocketSphinx ជាមួយ Al Pacino ប៉ុន្តែនេះមិនមានលទ្ធផលអ្វីទាល់តែសោះ។

នៅទីបំផុតខ្ញុំបានព្យាយាមប្រើសំឡេងរបស់ Morgan Freeman ពីខ្សែភាពយន្ត "Bruce Almighty" ហើយទីនេះគឺជាលទ្ធផល:

000000000: យើងនឹងនៅលើនាង
000000001: ទាំងអស់សុទ្ធតែមានភាពរឹងមាំណាស់នាពេលបច្ចុប្បន្ននេះហើយនេះគឺជាអ្វីដែលយើងធ្លាប់រស់នៅ។
000000002: នៅក្នុងជណ្តើរយន្តដែលជាគន្លឹះចេញពីប៊ីតនៃប៊ីចឬដឹងពីអ្វីដែលត្រូវធ្វើក្នុងជីវិត
000000003: អ្វីដែលជាអ្នកដែលនឹងងើបឡើងវិញ
000000004: ពួកគេមិនបានសរសេរវាទេ
000000005: ពួកគេមាននៅលើខ្ញុំខាងស្ដាំចេញ
000000006: អ្នកត្រូវតែជាច្បាប់
000000007: ខ្ញុំបានរំពឹងទុកអ្នក
000000008: ហើយគាត់បានរៀននៅទីនេះដែលជាឧទាហរណ៍មួយគឺជាពិធីជប់លៀងណូអែលឃាតករ
000000009: វាប្រែចេញពីវិធីមួយដើម្បីសរសេរ o ។ ass ខ្ញុំគិតថាប៉ុន្មានតែងតែពាក់មួយ
000000010: ដូចជាបញ្ហាដែលរួបរួមគ្នានឹងមិនផ្តល់ឱ្យគាត់នូវអ្វីដែលល្អទេខ្ញុំជាអ្នកប៉ាន់ប្រមាណថាពួកគេនៅពេលនោះនៅពេលដែលយើងមិនបានគិតទាំងអស់ដែលអ្នកគិតថាខ្ញុំនៅលើពិភពលោកនឹងផ្ទះហើយខ្ញុំបានមើលឃើញថា
000000011: ឪពុកដែលមានវា
000000012: អ្វីដែលច្រើនអំពីរឿងនេះ
000000013: តើវាបានផ្តល់ឱ្យ
000000014: អ្វីគ្រប់យ៉ាងដែលអ្នកដែលមិនធ្លាក់ចុះច្រើន
000000015: សិទ្ធិក្នុងការដួលរលំ
000000016: សង្កត់ល្អលើខ្ញុំ
000000017: វាមិនសប្បាយចិត្តទេប្រសិនបើខ្ញុំគិតថាពួកគេនឹងមានអ្វីដែលនឹងរៀបការជាមួយគ្នានោះទេយើងមិនចូលចិត្តវិធីដែលមិនដូចវិធីនោះទេ។

ការធ្វើតេស្តរបស់ខ្ញុំស្ទើរតែមិនត្រូវបានគេចាត់ទុកថាជាវិទ្យាសាស្ត្រទេហើយអ្នកអភិវឌ្ឍន៍ PocketSpinx អាចបញ្ជាក់ថាខ្ញុំមិនប្រើកម្មវិធីនេះឱ្យបានត្រឹមត្រូវទេ។ វាក៏មានបច្ចេកទេសហៅថាការបណ្តុះបណ្តាលសម្លេងដែលអាចត្រូវបានប្រើដើម្បីបង្កើតវចនានុក្រមនិងឯកសារភាសាអង់គ្លេសបានល្អជាងមុន។

គំនិតផ្តេសផ្តាស់របស់ខ្ញុំគឺថាវាពិបាកក្នុងការប្រើប្រាស់ជារៀងរាល់ថ្ងៃ។

VoiceNote ទី II

VoiceNote II គឺជាកម្មវិធី Chrome ដែលប្រើ API ទទួលស្គាល់ Google Voice ។

ប្រសិនបើអ្នកកំពុងប្រើកម្មវិធី Chrome ឬ Chromium អ្នកអាចដំឡើង VoiceNote II តាមរយៈ Web Store ។

រូបតំណាងនៅលើ VoiceNote II ត្រូវបានបង្ហាញនៅក្នុងរបៀបចម្លែកមួយនៅពេលដែលអ្នកត្រូវការបង្កើតភាសានៅផ្នែកខាងក្រោមនៃបង្អួចហើយប៊ូតុងកែសម្រួលក៏ស្ថិតនៅផ្នែកខាងក្រោមដែរទោះបីជាប៊ូតុងកំណត់ត្រាស្ថិតនៅផ្នែកខាងស្តាំក៏ដោយ។

រឿងដំបូងដែលអ្នកត្រូវធ្វើគឺជ្រើសរើសភាសាហើយនេះអាចសម្រេចបានដោយចុចលើរូបតំណាងពិភពលោក។

ដើម្បីចាប់ផ្តើមថតសូមចុចលើរូបមីក្រូហ្វូនហើយចាប់ផ្តើមនិយាយទៅកាន់មីក្រូហ្វូនរបស់អ្នក។ សម្រាប់លទ្ធផលល្អបំផុតដែលខ្ញុំបានរកឃើញការនិយាយយឺតគឺជាគន្លឹះដូច្នេះកម្មវិធីនឹងមានឱកាសដើម្បីរក្សាឡើង។

លទ្ធផលមិនល្អដូចដែលអាចមើលឃើញដូចខាងក្រោម:

ជំរាបសួរនិងស្វាគមន៍ក្នុងការតភ្ជាប់។ About.com សព្វថ្ងៃអត្ថបទអំពីសំឡេងទៅការបម្លែងអត្ថបទ dunelm farrell ការធ្លាក់ចុះសេដ្ឋកិច្ចឆ្នាំ 2008 ជាការសន្ទនាហើយវាបាននិយាយថាបានគាំទ្រផងដែរនូវវិធីដ៏ល្អបំផុតដែលខ្ញុំបានរកឃើញអត្ថបទ addon អត្ថបទដើម្បីបង្ហាញកញ្ចប់ 2014 ដេបៀនឬ rpm កញ្ចប់បើកវាជាសំលេងទៅជាការនិយាយទៅអត្ថបទបើកវាប្រសិនបើអ្នកចង់ជ្រើសរើស នៅក្នុងប្រទេសអេស្បាញដែលបានបង្កើតឡើងនៅសមុទ្រមីក្រូហ្សែនអ្នកបានបញ្ចប់ការសរសេរអត្ថបទរបស់អ្នកជាឯកសារអត្ថបទមួយដើម្បីទទួលបានភាពជោគជ័យដែលជាការបញ្ចេញសំឡេងភាសាអង់គ្លេសស្តង់ដារយ៉ាងពិតប្រាកដពីភាគខាងត្បូងប្រទេសអង់គ្លេសដែលល្អបំផុតសម្រាប់វាប៉ុន្តែខ្ញុំនឹងទៅអត្ថបទនេះដែលជា torrentalong ជាមួយនឹងឯកសារពិតប្រាកដហើយអ្នកអាចមើលឃើញកំហុសឆ្គងដែលធ្វើអោយអ្នកស្តាប់ស្តាប់

Dictanote

Dictanote គឺជាកម្មវិធី Chrome មួយផ្សេងទៀតដែលអាចត្រូវបានប្រើសម្រាប់គោលបំណងសរសេរតាមអាននិងបានឆ្លងកាត់ការយល់ដឹងកាន់តែច្រើនប៉ុន្តែលទ្ធផលមិនបានល្អជាង VoiceNote II ទេ។

ខ្ញុំបានប្រើតែកំណែ Dictanote សាកល្បងដែលរារាំងអ្នកពីការបង្កើតឯកសារថ្មីប៉ុន្តែវាអនុញ្ញាតឱ្យអ្នកនិយាយលើអត្ថបទដែលមាននៅក្នុងកម្មវិធីនិពន្ធ។ ខ្ញុំអាចសាកល្បងការទទួលស្គាល់សំឡេងប៉ុន្តែលទ្ធផលមិនបានល្អជាង VoiceNote II ហើយដូច្នេះខ្ញុំមិនបានចុះឈ្មោះសម្រាប់កំណែគាំទ្រ។

ការសរសេរនិងសំបុត្រ

"Dictation And Mail" គឺជាកម្មវិធី Android ដែលប្រើ API Google ស្គាល់សំលេងកំណើត។

លទ្ធផលពី "ការនិយាយនិងសំបុត្រ" មានភាពល្អប្រសើរជាងកម្មវិធីណាមួយដែលបានប៉ុនប៉ងរហូតដល់ចំណុចនេះ។

ជំរាបសួរស្វាគមន៍មកកាន់លីនុចអំពី។ ថ្ងៃនេះយើងនិយាយអំពីការបម្លែងសំឡេងទៅជាអត្ថបទ

ល្បិចកលជាមួយ "ការនិយាយនិងសំបុត្រ" គឺនិយាយយឺត ៗ និងបញ្ចេញសម្លេងព្រមទាំងអ្នកអាចនិយាយបាន។

បន្ទាប់ពីអ្នកបានបញ្ចប់ការនិយាយអ្នកអាចបញ្ជូនលទ្ធផលទៅខ្លួនអ្នក។

ការពិភាក្សានិងនិយាយ

កម្មវិធី Android ផ្សេងទៀតដែលខ្ញុំបានព្យាយាមគឺ "ការនិយាយនិងការពិភាក្សាការនិយាយ" ។

ចំណុចប្រទាក់សម្រាប់កម្មវិធីនេះគឺល្អបំផុតរបស់ក្រុមហើយការស្គាល់សំឡេងបានដំណើរការយ៉ាងល្អ។ បន្ទាប់ពីបានកត់ត្រាការសរសេរតាមខ្ញុំខ្ញុំអាចចែករំលែកលទ្ធផលតាមវិធីជាច្រើនរួមទាំងតាមរយៈអ៊ីម៉ែល។

សូមស្វាគមន៍មកកាន់លីនុច about.com សព្វថ្ងៃនេះយើងកំពុងនិយាយអំពីការបម្លែងការនិយាយជាអត្ថបទ

ដូចដែលអ្នកអាចមើលឃើញអត្ថបទខាងលើនេះគឺច្បាស់អំពីអ្វីដែលអ្នកអាចរំពឹងថានឹងទទួលបាន។ និយាយយឺត ៗ គឺជាគន្លឹះ។

សង្ខេប

លីនុចដើមមានវិធីខ្លះក្នុងការទាក់ទងជាមួយការស្គាល់សម្លេងនិងការសរសេរដោយផ្ទាល់ជាពិសេស។ មានកម្មវិធីមួយចំនួនដែលប្រើ Google Voice API ប៉ុន្តែពួកគេមិនទាន់ត្រូវបានរាយនៅក្នុងឃ្លាំង។

កម្មវិធី ChromeOS មានភាពល្អប្រសើរបន្តិចប៉ុន្តែមកដល់ពេលនេះលទ្ធផលល្អបំផុតត្រូវបានសម្រេចដោយប្រើទូរស័ព្ទ Android របស់ខ្ញុំ។ ប្រហែលជាទូរស័ព្ទមានម៉ៃក្រូហ្វូនប្រសើរជាងមុនហើយដូច្នេះកម្មវិធីទទួលស្គាល់សំឡេងឈរជាឱកាសល្អប្រសើរជាងមុននៃការប្រែចិត្តជឿ។

សម្រាប់ការស្គាល់សំលេងដើម្បីក្លាយជាអាចប្រើបានវាពិតជាត្រូវការវិចារណញាណជាមួយការតំឡើងតិចជាងនេះ។ អ្នកមិនចាំបាច់រញ៉េរញ៉ៃជាមួយម៉ូដែលភាសានិងវចនានុក្រមដើម្បីធ្វើឱ្យវាអាចយល់បាន។

ខ្ញុំសូមកោតសរសើរយ៉ាងណាក៏ដោយទោះបីជាយ៉ាងណាក៏ដោយសិល្បៈទាំងមូលនៃការទទួលស្គាល់សំលេងគឺពិបាកណាស់ព្រោះអ្នករាល់គ្នាមានសម្លេងខុសៗគ្នាហើយមានគ្រាមភាសាជាច្រើនពីតំបន់មួយទៅតំបន់មួយនៅក្នុងប្រទេសមួយដែលមិនមានការព្រួយបារម្ភអំពីភាសារាប់រយដែលត្រូវបានប្រើប្រាស់ទូទាំងពិភពលោក។

ដូច្នេះការវិភាគរបស់ខ្ញុំគឺថាកម្មវិធីទទួលស្គាល់សំឡេងនៅតែដំណើរការនៅឡើយ។