ការចាត់ថ្នាក់គឺជាបច្ចេកទេសរុករករ៉ែទិន្នន័យដែលចាត់ទុកប្រភេទទៅជាការប្រមូលទិន្នន័យក្នុងគោលបំណងដើម្បីជួយក្នុងការព្យាករនិងការវិភាគត្រឹមត្រូវបន្ថែមទៀត។ ត្រូវបានហៅផងដែរថាជួនកាលគេហៅថា ដើមឈើការសម្រេចចិត្ត ការចាត់ថ្នាក់គឺជាវិធីសាស្រ្តមួយក្នុងចំនោមវិធីសាស្រ្តជាច្រើនដើម្បីធ្វើឱ្យការវិភាគទិន្នន័យមានទំហំធំខ្លាំង។
ហេតុអ្វីបានជាចំណាត់ថាក់?
មូលដ្ឋានទិន្នន័យធំ ៗ ជាច្រើនកំពុងក្លាយជាបទដ្ឋាននៅក្នុងពិភពលោក "ទិន្នន័យធំ" នាពេលបច្ចុប្បន្ននេះ។ ស្រមៃមើលមូលដ្ឋានទិន្នន័យដែលមានទិន្នន័យច្រើនពេកតារ៉ាតេគឺ 1 ពាន់ពាន់លាន បៃ។
ហ្វេសប៊ុកតែមួយគត់ច្រឡំទិន្នន័យថ្មី 600 terabytes រាល់ថ្ងៃ (គិតត្រឹមឆ្នាំ 2014 ដែលជាចុងក្រោយវាបានរាយការណ៍ពីលក្ខណៈពិសេសទាំងនេះ) ។ បញ្ហាចម្បងនៃទិន្នន័យធំគឺការយល់ដឹងអំពីវា។
ហើយបរិមាណបរិមាណមិនមែនជាបញ្ហាតែមួយគត់នោះទេ: ទិន្នន័យធំក៏មានលក្ខណៈខុសៗគ្នាមិនមានរចនាសម្ព័ន្ធនិងមានការផ្លាស់ប្តូរយ៉ាងឆាប់រហ័ស។ ពិចារណាអំពីទិន្នន័យអូឌីយ៉ូនិងវីដេអូការបង្ហោះប្រព័ន្ធផ្សព្វផ្សាយទិន្នន័យសង្គមទិន្នន័យ 3D ឬទិន្នន័យភូមិសាស្ត្រ។ ប្រភេទនៃទិន្នន័យនេះមិនត្រូវបានចាត់ជាក្រុមឬរៀបចំបានយ៉ាងងាយស្រួលនោះទេ។
ដើម្បីឆ្លើយតបទៅនឹងបញ្ហាប្រឈមនេះវិធីសាស្ត្រស្វ័យប្រវត្តិជាច្រើនសម្រាប់ទាញយកព័ត៌មានដែលមានប្រយោជន៍ត្រូវបានបង្កើតឡើងក្នុងនោះមាន ចំណាត់ថ្នាក់ ។
របៀបធ្វើចំណាត់ថ្នាក់
នៅក្នុងគ្រោះថ្នាក់នៃការផ្លាស់ប្តូរពេកទៅក្នុងបច្ចេកវិទ្យា - និយាយ, សូមពិភាក្សាអំពីរបៀបដែលការធ្វើចំណាត់ថ្នាក់។ គោលដៅគឺបង្កើតសំណុំនៃវិធានការចំណាត់ថ្នាក់ដែលនឹងឆ្លើយសំនួរធ្វើការសម្រេចចិត្តឬទស្សន៍ទាយអាកប្បកិរិយា។ ដើម្បីចាប់ផ្តើមសំណុំទិន្នន័យបណ្តុះបណ្តាលត្រូវបានបង្កើតឡើងដែលមានសំណុំច្បាស់លាស់នៃគុណលក្ខណៈក៏ដូចជាលទ្ធផល។
ការងារនៃក្បួនដោះស្រាយការចាត់ថ្នាក់គឺដើម្បីរកឱ្យឃើញពីរបៀបដែលសំណុំនៃគុណលក្ខណៈនេះឈានទៅដល់ការសន្និដ្ឋានរបស់វា។
សេណារីយ៉ូ : ប្រហែលជាក្រុមហ៊ុនប័ណ្ណឥណទានមួយកំពុងព្យាយាមកំណត់ថាតើអតិថិជនណាម្នាក់គួរទទួលបានប័ណ្ណឥណទាន។
នេះអាចជាសំណុំទិន្នន័យបណ្តុះបណ្តាលរបស់វា:
ឈ្មោះ | អាយុ | យេនឌ័រ | ចំនូលប្រចាំឆ្នាំ | ផ្តល់ជូនកាតឥណទាន |
---|---|---|---|---|
John Doe | 25 | M | $ 39,500 | ទេ |
Jane Doe | 56 | F | $ 125,000 | បាទ |
ជួរឈរ "ព្យាករណ៍" អាយុ ភេទ និង ចំណូលប្រចាំឆ្នាំ កំណត់តម្លៃនៃ "ការព្យាករពីគុណលក្ខណៈ" ការផ្តល់ជូនប័ណ្ណឥណទាន ។ នៅក្នុងសំណុំហ្វឹកហ្វឺនមួយ, លក្ខណៈនៃការទស្សន៏ទាយត្រូវបានគេស្គាល់។ ក្បួនដោះស្រាយការចាត់ថ្នាក់ព្យាយាមដើម្បីកំណត់ពីរបៀបដែលគុណតម្លៃរបស់អ្នកព្យាករណ៍ត្រូវបានសម្រេច។ តើទំនាក់ទំនងរវាងអ្នកព្យាករណ៍និងការសម្រេចចិត្តមានទំនាក់ទំនងអ្វីខ្លះ? វានឹងបង្កើតសំណុំនៃការព្យាករក្បួនជាធម្មតាឧទាហរណ៍ IF / THEN ឧទាហរណ៍:
IF (អាយុ> 18 ឆ្នាំឬអាយុ <75) និងប្រាក់ចំណូលប្រចាំឆ្នាំ> 40,000 បន្ទាប់មកការផ្តល់ជូនកាតឥណទាន = បាទ / ចាស
ជាក់ស្តែងនេះគឺជាឧទាហរណ៍សាមញ្ញហើយក្បួនដោះស្រាយនឹងត្រូវការគំរូទិន្នន័យដែលមានទំហំធំជាងទិន្នន័យពីរដែលបានបង្ហាញនៅទីនេះ។ លើសពីនេះទៀតច្បាប់ព្យាករណ៍ទំនងជាស្មុគ្រស្មាញជាងនេះរួមទាំងអនុក្រឹត្យដើម្បីចាប់យកព័ត៌មានលំអិតអំពីគុណលក្ខណៈ។
បន្ទាប់ក្បួនដោះស្រាយត្រូវបានផ្តល់ "សំណុំព្យាករណ៍" នៃទិន្នន័យដើម្បីវិភាគប៉ុន្តែសំណុំនេះខ្វះគុណលក្ខណៈព្យាករណ៍ (ឬការសម្រេចចិត្ត):
ឈ្មោះ | អាយុ | យេនឌ័រ | ចំនូលប្រចាំឆ្នាំ | ផ្តល់ជូនកាតឥណទាន |
---|---|---|---|---|
Jack Frost | 42 | M | $ 88,000 | |
Mary Murray | 16 | F | $ 0 |
ទិន្នន័យដែលព្យាករណ៍នេះអាចជួយប៉ាន់ប្រមាណភាពត្រឹមត្រូវនៃច្បាប់ព្យាករណ៍ហើយច្បាប់ត្រូវបានកែសម្រួលរហូតទាល់តែអ្នកអភិវឌ្ឍន៍គិតថាការព្យាករណ៍មានប្រសិទ្ធភាពនិងមានប្រយោជន៍។
ឧទាហរណ៍ពីមួយថ្ងៃទៅមួយថ្ងៃ
ចំណាត់ថ្នាក់និងបច្ចេកទេសជីកយករ៉ែទិន្នន័យផ្សេងទៀតគឺនៅពីក្រោយភាគច្រើននៃបទពិសោធន៍ប្រចាំថ្ងៃរបស់យើងជាអ្នកប្រើប្រាស់។
ការព្យាករណ៍អាកាសធាតុអាចប្រើការចាត់ថ្នាក់ដើម្បីរាយការណ៍ថាតើថ្ងៃនោះនឹងមានភ្លៀងមានពន្លឺព្រះអាទិត្យឬពពក។ វិជ្ជាជីវៈវេជ្ជសាស្រ្តអាចវិភាគស្ថានភាពសុខភាពដើម្បីទស្សន៍ទាយលទ្ធផលវេជ្ជសាស្ត្រ។ ប្រភេទនៃវិធីសាស្រ្តចំណាត់ថ្នាក់, Naive Bayesian, ប្រើប្រូបាប៊ីលីតេតាមលក្ខខណ្ឌដើម្បីប្រភេទអ៊ីម៉ែលសារឥតបានការ។ ពីការរាវរកការក្លែងបន្លំទៅការផ្តល់ជូនផលិតផលការចាត់ថ្នាក់គឺស្ថិតនៅពីក្រោយឆាកជារៀងរាល់ថ្ងៃវិភាគទិន្នន័យនិងបង្កើតការព្យាករណ៍។