តើអ្វីទៅជាការទទួលស្គាល់តួអក្សរអុបទិក (OCR)?

ការទទួលស្គាល់តួអក្សរអុបទិក (OCR) សំដៅលើកម្មវិធីដែលបង្កើតកំណែឌីជីថលនៃឯកសារបោះពុម្ព, វាយឬសរសេរដោយដៃដែលកុំព្យូទ័រអាចអានបានដោយមិនចាំបាច់សរសេរដោយដៃឬបញ្ចូលអត្ថបទ។ OCR ត្រូវបានប្រើជាទូទៅនៅលើឯកសារដែលបានស្កេន ជា ទម្រង់ PDF ប៉ុន្តែក៏អាចបង្កើតកំណែដែលអាចអានបានតាមកុំព្យូទ័រដែលមាននៅក្នុងឯកសាររូបភាព។

តើ OCR គឺជាអ្វី?

OCR ក៏ត្រូវបានគេស្គាល់ថាជាការទទួលស្គាល់ជាអត្ថបទដែលជាបច្ចេកវិទ្យាកម្មវិធីដែលបំលែងតួអក្សរដូចជាលេខអក្សរនិងសញ្ញាវណ្ណយុត្តពីឯកសារដែលបានបោះពុម្ពឬសរសេរទៅជាសំណុំបែបបទអេឡិចត្រូនិចដែលត្រូវបានទទួលស្គាល់និងអានដោយកុំព្យូទ័រនិងកម្មវិធីជាច្រើនទៀត។ កម្មវិធី OCR មួយចំនួនធ្វើដូចនេះជាឯកសារដែលត្រូវបានស្កេនឬថតរូបជាមួយកាមេរ៉ាឌីជីថលហើយអ្នកផ្សេងទៀតអាចអនុវត្តដំណើរការនេះទៅឯកសារដែលបានស្កេនពីមុនឬថតដោយគ្មាន OCR ។ OCR អនុញ្ញាតឱ្យអ្នកប្រើស្វែងរកនៅក្នុងឯកសារ PDF កែសម្រួលអត្ថបទនិងធ្វើទ្រង់ទ្រាយឯកសារឡើងវិញ។

តើ OCR ត្រូវបានប្រើប្រាស់សម្រាប់អ្វីខ្លះ?

សម្រាប់តម្រូវការរហ័ស, ការស្កេនជារៀងរាល់ថ្ងៃ, OCR មិនអាចជាកិច្ចព្រមព្រៀងធំ។ ប្រសិនបើអ្នកធ្វើការស្កេនច្រើនពេកអ្នកអាចស្វែងរកនៅក្នុងឯកសារ PDF ដើម្បីស្វែងរកអ្វីដែលអ្នកត្រូវការអាចរក្សាទុកបានបន្តិចបន្តួចនិងធ្វើឱ្យមុខងារ OCR នៅក្នុងកម្មវិធីស្កេនរបស់អ្នកកាន់តែសំខាន់។ នេះគឺជាអ្វីផ្សេងទៀតដែល OCR ជួយជាមួយ:

ហេតុអ្វីប្រើ OCR?

ហេតុអ្វីមិនគ្រាន់តែយករូបភាព, សិទ្ធិ? ដោយសារតែអ្នកមិនអាចកែសម្រួលអ្វីឬស្វែងរកអត្ថបទបានទេព្រោះវាគ្រាន់តែជារូបភាព។ ការស្កេនឯកសារនិងដំណើរការកម្មវិធី OCR អាចបង្វែរឯកសារនោះទៅជាអ្វីដែលអ្នកអាចកែសម្រួលហើយអាចស្វែងរកបាន។

ប្រវត្តិរបស់ OCR

ខណៈពេលដែលការកត់សម្គាល់លើអត្ថបទដែលបានកត់សម្គាល់ជាលើកដំបូងនៅឆ្នាំ 1914 ការអភិវឌ្ឍរីករាលដាលនិងការប្រើប្រាស់បច្ចេកវិជ្ជាដែលទាក់ទងនឹង OCR បានចាប់ផ្តើមយ៉ាងឆាប់រហ័សក្នុងទសវត្សឆ្នាំ 1950 ជាពិសេសជាមួយការបង្កើតពុម្ពអក្សរសាមញ្ញ ៗ ដែលងាយស្រួលក្នុងការបម្លែងទៅជាអត្ថបទឌីជីថលដែលអាចអានបាន។ ដំបូងនៃពុម្ពអក្សរសាមញ្ញទាំងនេះត្រូវបានបង្កើតឡើងដោយលោក David Shepard និងត្រូវបានគេស្គាល់ជាទូទៅថាជា OCR-7B ។ OCR-7B នៅតែត្រូវបានប្រើប្រាស់នៅសព្វថ្ងៃនេះនៅក្នុងឧស្សាហកម្មហិរញ្ញវត្ថុសម្រាប់ពុម្ពអក្សរស្តង់ដារដែលប្រើនៅលើកាតឥណទាននិងកាតឥណពន្ធ។ នៅទសវត្សឆ្នាំ 1960 សេវាកម្មប្រៃសណីយ៍នៅតាមបណ្តាប្រទេសមួយចំនួនបានចាប់ផ្តើមប្រើបច្ចេកវិទ្យា OCR ដើម្បីបង្កើនល្បឿនការផ្ញើតាមសំបុត្ររួមទាំងសហរដ្ឋអាមេរិកចក្រភពអង់គ្លេសកាណាដានិងអាល្លឺម៉ង់។ OCR នៅតែជាបច្ចេកវិទ្យាស្នូលដែលបានប្រើដើម្បីតម្រៀបសំបុត្រសម្រាប់សេវាប្រៃសណីយ៍នៅជុំវិញពិភពលោក។ នៅឆ្នាំ 2000 ចំណេះដឹងសំខាន់ៗអំពីដែនកំណត់និងសមត្ថភាពរបស់បច្ចេកវិទ្យា OCR ត្រូវបានប្រើដើម្បីបង្កើត កម្មវិធី CAPTCHA ដែល ត្រូវបានប្រើដើម្បីបញ្ឈប់ កម្មវិធី Botswick និងផ្ញើសារឥតបានការ។

អស់រយៈពេលជាច្រើនទសវត្សរ៍មកហើយ OCR បានរីកចម្រើននិងមានភាពជឿនលឿនជាងមុនដោយសារតែការរីកចម្រើននៅក្នុងវិស័យបច្ចេកវិទ្យាដែលទាក់ទងដូចជា បញ្ញាសិប្បនិម្មិតការ រៀនម៉ាស៊ីន និងចក្ខុវិស័យរបស់កុំព្យូទ័រ។ សព្វថ្ងៃនេះកម្មវិធី OCR ប្រើការស្គាល់គំរូការរកឃើញលក្ខណៈពិសេសនិងការរកឃើញអត្ថបទដើម្បីផ្លាស់ប្តូរឯកសារបានលឿននិងត្រឹមត្រូវជាងមុន។