ចំណាត់ថ្នាក់ក្នុងការជីកយករ៉ែទិន្នន័យ

ការចាត់ថ្នាក់គឺជាបច្ចេកទេសរុករករ៉ែទិន្នន័យដែលចាត់ទុកប្រភេទទៅជាការប្រមូលទិន្នន័យក្នុងគោលបំណងដើម្បីជួយក្នុងការព្យាករនិងការវិភាគត្រឹមត្រូវបន្ថែមទៀត។ ត្រូវបានហៅផងដែរថាជួនកាលគេហៅថា ដើមឈើការសម្រេចចិត្ត ការចាត់ថ្នាក់គឺជាវិធីសាស្រ្តមួយក្នុងចំនោមវិធីសាស្រ្តជាច្រើនដើម្បីធ្វើឱ្យការវិភាគទិន្នន័យមានទំហំធំខ្លាំង។

ហេតុអ្វីបានជាចំណាត់ថាក់?

មូលដ្ឋានទិន្នន័យធំ ៗ ជាច្រើនកំពុងក្លាយជាបទដ្ឋាននៅក្នុងពិភពលោក "ទិន្នន័យធំ" នាពេលបច្ចុប្បន្ននេះ។ ស្រមៃមើលមូលដ្ឋានទិន្នន័យដែលមានទិន្នន័យច្រើនពេកតារ៉ាតេគឺ 1 ពាន់ពាន់លាន បៃ។

ហ្វេសប៊ុកតែមួយគត់ច្រឡំទិន្នន័យថ្មី 600 terabytes រាល់ថ្ងៃ (គិតត្រឹមឆ្នាំ 2014 ដែលជាចុងក្រោយវាបានរាយការណ៍ពីលក្ខណៈពិសេសទាំងនេះ) ។ បញ្ហាចម្បងនៃទិន្នន័យធំគឺការយល់ដឹងអំពីវា។

ហើយបរិមាណបរិមាណមិនមែនជាបញ្ហាតែមួយគត់នោះទេ: ទិន្នន័យធំក៏មានលក្ខណៈខុសៗគ្នាមិនមានរចនាសម្ព័ន្ធនិងមានការផ្លាស់ប្តូរយ៉ាងឆាប់រហ័ស។ ពិចារណាអំពីទិន្នន័យអូឌីយ៉ូនិងវីដេអូការបង្ហោះប្រព័ន្ធផ្សព្វផ្សាយទិន្នន័យសង្គមទិន្នន័យ 3D ឬទិន្នន័យភូមិសាស្ត្រ។ ប្រភេទនៃទិន្នន័យនេះមិនត្រូវបានចាត់ជាក្រុមឬរៀបចំបានយ៉ាងងាយស្រួលនោះទេ។

ដើម្បីឆ្លើយតបទៅនឹងបញ្ហាប្រឈមនេះវិធីសាស្ត្រស្វ័យប្រវត្តិជាច្រើនសម្រាប់ទាញយកព័ត៌មានដែលមានប្រយោជន៍ត្រូវបានបង្កើតឡើងក្នុងនោះមាន ចំណាត់ថ្នាក់

របៀបធ្វើចំណាត់ថ្នាក់

នៅក្នុងគ្រោះថ្នាក់នៃការផ្លាស់ប្តូរពេកទៅក្នុងបច្ចេកវិទ្យា - និយាយ, សូមពិភាក្សាអំពីរបៀបដែលការធ្វើចំណាត់ថ្នាក់។ គោលដៅគឺបង្កើតសំណុំនៃវិធានការចំណាត់ថ្នាក់ដែលនឹងឆ្លើយសំនួរធ្វើការសម្រេចចិត្តឬទស្សន៍ទាយអាកប្បកិរិយា។ ដើម្បីចាប់ផ្តើមសំណុំទិន្នន័យបណ្តុះបណ្តាលត្រូវបានបង្កើតឡើងដែលមានសំណុំច្បាស់លាស់នៃគុណលក្ខណៈក៏ដូចជាលទ្ធផល។

ការងារនៃក្បួនដោះស្រាយការចាត់ថ្នាក់គឺដើម្បីរកឱ្យឃើញពីរបៀបដែលសំណុំនៃគុណលក្ខណៈនេះឈានទៅដល់ការសន្និដ្ឋានរបស់វា។

សេណារីយ៉ូ : ប្រហែលជាក្រុមហ៊ុនប័ណ្ណឥណទានមួយកំពុងព្យាយាមកំណត់ថាតើអតិថិជនណាម្នាក់គួរទទួលបានប័ណ្ណឥណទាន។

នេះអាចជាសំណុំទិន្នន័យបណ្តុះបណ្តាលរបស់វា:

ទិន្នន័យបណ្តុះបណ្តាល
ឈ្មោះ អាយុ យេនឌ័រ ចំ​នូ​ល​ប្រចាំឆ្នាំ ផ្តល់ជូនកាតឥណទាន
John Doe 25 M $ 39,500 ទេ
Jane Doe 56 F $ 125,000 បាទ

ជួរឈរ "ព្យាករណ៍" អាយុ ភេទ និង ចំណូលប្រចាំឆ្នាំ កំណត់តម្លៃនៃ "ការព្យាករពីគុណលក្ខណៈ" ការផ្តល់ជូនប័ណ្ណឥណទាន ។ នៅក្នុងសំណុំហ្វឹកហ្វឺនមួយ, លក្ខណៈនៃការទស្សន៏ទាយត្រូវបានគេស្គាល់។ ក្បួនដោះស្រាយការចាត់ថ្នាក់ព្យាយាមដើម្បីកំណត់ពីរបៀបដែលគុណតម្លៃរបស់អ្នកព្យាករណ៍ត្រូវបានសម្រេច។ តើទំនាក់ទំនងរវាងអ្នកព្យាករណ៍និងការសម្រេចចិត្តមានទំនាក់ទំនងអ្វីខ្លះ? វានឹងបង្កើតសំណុំនៃការព្យាករក្បួនជាធម្មតាឧទាហរណ៍ IF / THEN ឧទាហរណ៍:

IF (អាយុ> 18 ឆ្នាំឬអាយុ <75) និងប្រាក់ចំណូលប្រចាំឆ្នាំ> 40,000 បន្ទាប់មកការផ្តល់ជូនកាតឥណទាន = បាទ / ចាស

ជាក់ស្តែងនេះគឺជាឧទាហរណ៍សាមញ្ញហើយក្បួនដោះស្រាយនឹងត្រូវការគំរូទិន្នន័យដែលមានទំហំធំជាងទិន្នន័យពីរដែលបានបង្ហាញនៅទីនេះ។ លើសពីនេះទៀតច្បាប់ព្យាករណ៍ទំនងជាស្មុគ្រស្មាញជាងនេះរួមទាំងអនុក្រឹត្យដើម្បីចាប់យកព័ត៌មានលំអិតអំពីគុណលក្ខណៈ។

បន្ទាប់ក្បួនដោះស្រាយត្រូវបានផ្តល់ "សំណុំព្យាករណ៍" នៃទិន្នន័យដើម្បីវិភាគប៉ុន្តែសំណុំនេះខ្វះគុណលក្ខណៈព្យាករណ៍ (ឬការសម្រេចចិត្ត):

ទិន្នន័យអ្នកទស្សទាយ
ឈ្មោះ អាយុ យេនឌ័រ ចំ​នូ​ល​ប្រចាំឆ្នាំ ផ្តល់ជូនកាតឥណទាន
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

ទិន្នន័យដែលព្យាករណ៍នេះអាចជួយប៉ាន់ប្រមាណភាពត្រឹមត្រូវនៃច្បាប់ព្យាករណ៍ហើយច្បាប់ត្រូវបានកែសម្រួលរហូតទាល់តែអ្នកអភិវឌ្ឍន៍គិតថាការព្យាករណ៍មានប្រសិទ្ធភាពនិងមានប្រយោជន៍។

ឧទាហរណ៍ពីមួយថ្ងៃទៅមួយថ្ងៃ

ចំណាត់ថ្នាក់និងបច្ចេកទេសជីកយករ៉ែទិន្នន័យផ្សេងទៀតគឺនៅពីក្រោយភាគច្រើននៃបទពិសោធន៍ប្រចាំថ្ងៃរបស់យើងជាអ្នកប្រើប្រាស់។

ការព្យាករណ៍អាកាសធាតុអាចប្រើការចាត់ថ្នាក់ដើម្បីរាយការណ៍ថាតើថ្ងៃនោះនឹងមានភ្លៀងមានពន្លឺព្រះអាទិត្យឬពពក។ វិជ្ជាជីវៈវេជ្ជសាស្រ្តអាចវិភាគស្ថានភាពសុខភាពដើម្បីទស្សន៍ទាយលទ្ធផលវេជ្ជសាស្ត្រ។ ប្រភេទនៃវិធីសាស្រ្តចំណាត់ថ្នាក់, Naive Bayesian, ប្រើប្រូបាប៊ីលីតេតាមលក្ខខណ្ឌដើម្បីប្រភេទអ៊ីម៉ែលសារឥតបានការ។ ពីការរាវរកការក្លែងបន្លំទៅការផ្តល់ជូនផលិតផលការចាត់ថ្នាក់គឺស្ថិតនៅពីក្រោយឆាកជារៀងរាល់ថ្ងៃវិភាគទិន្នន័យនិងបង្កើតការព្យាករណ៍។