តើ K មានន័យថាជាចង្កោមឬ?

ការជីកយករ៉ែទិន្នន័យដោយប្រើក្បួនសាស្ត្រ K

K- មានន័យថាការចងក្រងក្បួនគឺជាការជីកយករ៉ែទិន្នន័យនិងឧបករណ៍សិក្សាម៉ាស៊ីនដែលត្រូវបានប្រើដើម្បីសង្កេតទៅចង្កោមទៅជាក្រុមនៃការសង្កេតដែលទាក់ទងដោយគ្មានចំណេះដឹងពីមុននៃទំនាក់ទំនងទាំងនោះ។ តាមគំរូការក្បួនដោះស្រាយព្យាយាមបង្ហាញក្នុងប្រភេទឬឃ្លាទិន្នន័យទិន្នន័យជាកម្មសិទ្ធិដោយចំនួនចង្កោមត្រូវបានកំណត់ដោយតម្លៃ k ។

ក្បួនឃ - មានន័យថាក្បួនដោះស្រាយគឺជាបច្ចេកទេសចង្កោមដែលសាមញ្ញបំផុតមួយហើយវាត្រូវបានគេប្រើជាទូទៅក្នុងការថតរូបវេជ្ជសាស្រ្តជីវមាត្រនិងវាលដែលពាក់ព័ន្ធ។ គុណសម្បត្តិរបស់ k- មានន័យថាការចង្កោមគឺវាប្រាប់ពីទិន្នន័យរបស់អ្នក (ដោយប្រើសំណុំបែបបទដែលមិនមានត្រួតពិនិត្យ) ជាជាងអ្នកត្រូវតែណែនាំក្បួនអំពីទិន្នន័យនៅពេលចាប់ផ្តើម (ដោយប្រើសំណុំបែបបទដែលបានត្រួតពិនិត្យនៃក្បួនដោះស្រាយ) ។

ជួនកាលវាត្រូវបានគេសំដៅទៅជាក្បួនដោះស្រាយរបស់ Lloyd ជាពិសេសនៅក្នុងរង្វង់វិទ្យាសាស្រ្តកុំព្យូទ័រដោយសារតែក្បួនដោះស្រាយស្តង់ដារត្រូវបានស្នើឡើងដោយ Stuart Lloyd ជាលើកដំបូងនៅក្នុងឆ្នាំ 1957 ។ ពាក្យថា "មធ្យោបាយខេ" ត្រូវបានបង្កើតឡើងនៅឆ្នាំ 1967 ដោយលោក James McQueen ។

របៀបដែល K មានន័យថាអនុគមន៍ក្បួនដោះស្រាយ

ក្បួនខ - ន័យថាក្បួនដោះស្រាយគឺជាក្បួនដោះស្រាយវិវត្តដែលទទួលបានឈ្មោះរបស់វាពីវិធីសាស្រ្តនៃការប្រតិបត្ដិការរបស់ខ្លួន។ ការសង្កេតតាមចង្កោម algorithm ជាក្រុម k ដែល k ត្រូវបានផ្តល់ជាប៉ារ៉ាម៉ែត្របញ្ចូល។ បន្ទាប់មកវាកំណត់ការសង្កេតនីមួយៗទៅជាចង្កោមដោយផ្អែកលើការសង្កេតរបស់ជិតទៅមធ្យមនៃចង្កោម។ មធ្យមរបស់ចង្កោមត្រូវបានគណនាឡើងវិញហើយដំណើរការចាប់ផ្តើមម្តងទៀត។ នេះជារបៀបដែលក្បួនដោះស្រាយដំណើរការ:

  1. ក្បួនដោះស្រាយដោយចេតនាជ្រើសចំណុច k ជាមជ្ឈមណ្ឌលចង្កោមដំបូង (មធ្យោបាយ) ។
  2. ចំណុចនីមួយៗនៅក្នុងសំណុំទិន្នន័យត្រូវបានកំណត់ទៅចង្កោមបិទដោយផ្អែកលើចំងាយអ៊ឺត្រដិនរវាងចំណុចនិមួយៗនិងមជ្ឈមណ្ឌលចង្កោមនីមួយៗ។
  3. មជ្ឈមណ្ឌលចង្កោមនីមួយៗត្រូវបានគណនាឡើងវិញជាមធ្យមពិន្ទុនៅក្នុងចង្កោមនោះ។
  4. ជំហានទី 2 និងទី 3 ម្តងទៀតរហូតទាល់តែចង្កោមជួបគ្នា។ ការបង្រួបបង្រួមអាចត្រូវបានកំណត់ខុសគ្នាអាស្រ័យលើការអនុវត្ដប៉ុន្តែជាទូទៅវាមានន័យថាមិនមានការសង្កេតមើលផ្លាស់ប្តូរចង្កោមទេនៅពេលដែលជំហានទី 2 និងទី 3 ត្រូវបានធ្វើម្តងទៀតឬថាការផ្លាស់ប្តូរមិនបានបង្កើតភាពខុសគ្នាច្រើននៅក្នុងនិយមន័យនៃចង្កោមឡើយ។

ការជ្រើសរើសលេខនៃចង្កោម

គុណវិបត្តិមួយក្នុងចំនោមគុណវិបត្តិសំខាន់ចំពោះ K- មានន័យថា clustering គឺជាការពិតដែលថាអ្នកត្រូវតែបញ្ជាក់ចំនួនចង្កោមជាការបញ្ចូលទៅក្បួនដោះស្រាយ។ ដូចដែលបានរៀបចំក្បួនដោះស្រាយមិនមានលទ្ធភាពកំណត់ចំនួនចង្កោមដែលសមស្របហើយអាស្រ័យលើអ្នកប្រើកំណត់អត្តសញ្ញាណនេះជាមុន។

ឧទាហរណ៍ប្រសិនបើអ្នកមានមនុស្សមួយក្រុមដែលត្រូវបានចងក្រងដោយផ្អែកលើអត្តសញ្ញាណយេនឌ័រជាបុរសឬស្រីនោះការហៅថា k- មានន័យថាក្បួនដោះស្រាយដោយប្រើបញ្ចូល k = 3 នឹងបង្ខំមនុស្សជាបីចង្កោមនៅពេលមានតែពីរឬមួយ បញ្ចូល k = 2 នឹងផ្តល់ឱ្យសមធម្មជាតិកាន់តែច្រើន។

ស្រដៀងគ្នាដែរប្រសិនបើក្រុមបុគ្គលមួយក្រុមត្រូវបានចងក្រងដោយងាយស្រួលតាមរដ្ឋហើយអ្នកហៅថា k- មានន័យថាក្បួនដោះស្រាយដោយ k = 20 បញ្ចូលលទ្ធផលអាចមានលក្ខណៈទូទៅពេកដើម្បីមានប្រសិទ្ធភាព។

សម្រាប់ហេតុផលនេះវាជាគំនិតល្អក្នុងការពិសោធន៍តម្លៃខុសគ្នារបស់ K ដើម្បីកំណត់តម្លៃដែលសាកសមនឹងទិន្នន័យរបស់អ្នក។ អ្នកក៏ប្រហែលជាចង់ស្វែងយល់ពីការប្រើប្រាស់ ក្បួនដោះស្រាយការជីកយករ៉ែទិន្នន័យផ្សេងទៀត នៅក្នុងដំណើរស្វែងរករបស់អ្នកសម្រាប់ចំនេះដឹងម៉ាស៊ីន។