អ្វីដែលអ្នកត្រូវដឹងអំពីតម្រង Spam Bayesian

by Heinz Tschabitscher

ស្វែងយល់ពីរបៀបដែលស្ថិតិអាចជួយឱ្យប្រអប់សំបុត្ររបស់អ្នកស្អាត

តម្រងសារឥតបានការ Bayesian គណនាប្រូបាប៊ីលីតេនៃសារដែលត្រូវបានសារឥតបានការដោយផ្អែកលើមាតិការបស់វា។ មិនដូចតម្រងមាតិកាដែលសាមញ្ញតម្រងសារឥតបានការ Bayesian រៀនពីសារឥតបានការនិងពីសំបុត្រល្អដែលជាវិធីសាស្រ្តប្រឆាំងនឹងសារឥតបានការដ៏រឹងមាំនិងសម្របសម្រួលនិងមានប្រសិទ្ធភាពដែលប្រសើរបំផុតនៃការត្រឡប់មកវិញស្ទើរតែមិនពិតវិជ្ជមាន។

តើអ្នកទទួលស្គាល់អ៊ីម៉ែល Junk យ៉ាងដូចម្តេច?

គិតអំពីរបៀបដែលអ្នករកឃើញ សារឥតបានការ ។ ការមើលរហ័សគឺគ្រប់គ្រាន់ហើយ។ អ្នកដឹងថាអ្វីទៅជាសារឥតបានការហើយអ្នកដឹងពីអ្វីដែលល្អ។

ប្រូបាប៊ីលីតេនៃសារឥតបានការដែលមើលទៅដូចជាសំបុត្រល្អគឺនៅជុំវិញ ... សូន្យ។

ការតម្រង់តម្រងតាមមាតិកាមិនត្រូវគ្នា

តើវាមិនអស្ចារ្យទេប្រសិនបើតម្រងសារឥតបានការដោយស្វ័យប្រវត្តិធ្វើដូចនោះដែរ?

រកមើលតម្រងសារពើភ័ណ្ឌដែលមានមូលដ្ឋានលើមាតិកាសាកល្បង។ ពួកគេរកមើលពាក្យនិងលក្ខណៈផ្សេងទៀតដែលមានលក្ខណៈធម្មតានៃសារឥតបានការ។ ធាតុលក្ខណៈទាំងអស់ត្រូវបានផ្តល់ពិន្ទុហើយពិន្ទុ spam សម្រាប់សារទាំងមូលត្រូវបានគណនាពីពិន្ទុនីមួយៗ។ តម្រងពិន្ទុមួយចំនួនក៏ស្វែងរកលក្ខណៈពិសេសនៃសំបុត្រស្របច្បាប់ដែលបន្ថយពិន្ទុចុងក្រោយរបស់សារ។

តម្រងពិន្ទុតម្រងវិធីធ្វើការងារប៉ុន្តែវាក៏មានគុណវិបត្តិជាច្រើន:

បញ្ជីលក្ខណៈត្រូវបានបង្កើតចេញពីសារឥតបានការ (និងសំបុត្រល្អ) ដែលអាចរកបានសម្រាប់វិស្វកររបស់តម្រង។ ដើម្បីទទួលបានការយល់ដឹងដ៏ល្អពីសារឥតបានការដែលមនុស្សគ្រប់គ្នាអាចទទួលអ៊ីម៉ែលត្រូវតែប្រមូលនៅលើអ៊ីម៉ែលរាប់រយ។ នេះធ្វើឱ្យខ្សោយប្រសិទ្ធភាពនៃតម្រងជាពិសេសដោយសារ លក្ខណៈនៃសំបុត្រល្អនឹងខុសគ្នាសម្រាប់មនុស្សម្នាក់ៗ ប៉ុន្តែវាមិនត្រូវបានគេយកមកពិចារណានោះទេ។
លក្ខណៈដែលត្រូវរកមើលមានច្រើនឬតិច នៅក្នុងថ្ម ។ ប្រសិនបើអ្នកផ្ញើសារឥតបានការធ្វើកិច្ចប្រឹងប្រែងដើម្បីសម្របខ្លួន (ហើយធ្វើឱ្យសារឥតបានការរបស់ពួកគេមើលទៅដូចជាសំបុត្រល្អ ៗ ដើម្បីតម្រង) លក្ខណៈតម្រងត្រូវបានកែប្រែដោយដៃ - កិច្ចខិតខំប្រឹងប្រែងសូម្បីតែធំជាងមុន។
ពិន្ទុដែលបានផ្ដល់ឱ្យពាក្យនីមួយៗប្រហែលជាផ្អែកលើការប៉ាន់ប្រមាណល្អប៉ុន្តែវានៅតែបំពាន។ ហើយដូចជាបញ្ជីនៃលក្ខណៈវាមិនប្រែប្រួលទៅនឹងការផ្លាស់ប្តូរពិភពលោកនៃសារឥតបានការជាទូទៅក៏មិនមែនចំពោះតម្រូវការរបស់អ្នកប្រើម្នាក់ៗដែរ។

តម្រងសារធាតុ Spam Bayesian បង្កើនល្បឿនខ្លួនឯងកាន់តែប្រសើរឡើងនិងល្អប្រសើរជាងមុន

តម្រងសារឥតបានការ Bayesian គឺជាប្រភេទពិន្ទុតម្រងផ្អែកលើមាតិកាផងដែរ។ វិធីសាស្រ្តរបស់ពួកគេមិនមានបញ្ហានៃតម្រងសារឥតបានការដែលរកពិន្ទុធម្មតាទេហើយវាធ្វើយ៉ាងខ្លាំង។ ដោយសារភាពទន់ខ្សោយនៃតម្រងពិន្ទុគឺនៅក្នុងបញ្ជីនៃលក្ខណៈនិងពិន្ទុដែលបានបង្កើតដោយដៃបញ្ជីនេះត្រូវបានលុបចោល។

ផ្ទុយទៅវិញតម្រងសារឥតបានការ Bayesian បង្កើតបញ្ជីដោយខ្លួនឯង។ តាមឧត្ដមគតិអ្នកចាប់ផ្តើមជាមួយអ៊ីម៉ែល (ធំ) ដែលអ្នកបានចាត់ថ្នាក់ថាជាសារឥតបានការនិងបណ្តុំសំបុត្រល្អមួយផ្សេងទៀត។ តម្រងមើលទាំងពីរនិងវិភាគសំបុត្រស្របច្បាប់ក៏ដូចជាសារឥតបានការដើម្បីគណនាប្រូបាប៊ីលីតេនៃលក្ខណៈផ្សេងៗដែលលេចឡើងក្នុងសារឥតបានការនិងក្នុងសំបុត្រល្អ។

របៀបតម្រងសារធាតុ Spam Bayesian ពិនិត្យអ៊ីម៉ែលមួយ

លក្ខណៈដែលតម្រងសារធាតុស្ពេសៀលអាចមើលបានគឺ:

ពាក្យនៅក្នុង តួ នៃសារ, ជាការពិតណាស់, និង
បឋមកថា (អ្នកផ្ញើនិង ផ្លូវសារ ឧទាហរណ៍!), ប៉ុន្តែក៏មាន
ទិដ្ឋភាពផ្សេងទៀតដូចជាកូដ HTML / CSS (ដូចជាពណ៌និងការធ្វើទ្រង់ទ្រាយផ្សេងទៀត), ឬសូម្បីតែ
គូពាក្យ, ឃ្លានិង
ព័ត៌មានមេតា (ជាឧទាហរណ៍ឃ្លាជាក់លាក់មួយលេចឡើង) ។

ប្រសិនបើពាក្យ "Cartesian" ឧទាហរណ៍មិនលេចឡើងជាសារឥតបានការទេប៉ុន្តែជាញឹកញាប់នៅក្នុងអ៊ីម៉ែលស្របច្បាប់ដែលអ្នកទទួលប្រូបាប៊ីលីតេដែលថា "Cartesian" បញ្ជាក់សារឥតបានការគឺនៅជិតសូន្យ។ ផ្ទុយទៅវិញ "Toner" លេចឡើងទាំងស្រុងនិងជាញឹកញាប់ក្នុងសារឥតបានការ។ "Toner" មានប្រូបាបខ្ពស់បំផុតដែលត្រូវបានគេរកឃើញក្នុងសារឥតបានការមិនតិចជាង 1 (100%) ទេ។

នៅពេលសារថ្មីមកដល់វាត្រូវបានវិភាគដោយតម្រងសារឥតបានការរបស់ Bayesian ហើយប្រូបាប៊ីលីតេនៃសារទាំងមូលដែលកំពុងត្រូវបានគណនាដោយប្រើលក្ខណៈបុគ្គល។

សន្មតថាសារមួយមានទាំង "Cartesian" និង "toner" ។ ពីពាក្យទាំងនេះតែឯងវាមិនទាន់ច្បាស់នៅឡើយទេថាតើយើងមានសារឥតបានការឬអ៊ីម៉ែលត្រឹមត្រូវ។ ចរិតលក្ខណៈផ្សេងទៀត (សង្ឃឹមថានឹងនិងភាគច្រើនបំផុត) បង្ហាញពីប្រូបាប៊ីលីតេដែលអនុញ្ញាតឱ្យតម្រងចាត់ថ្នាក់សារជាសារឥតបានការឬសំបុត្រល្អ។

តម្រងសារធាតុ Spam Bayesian អាចរៀនដោយស្វ័យប្រវត្តិ

ឥឡូវនេះយើងមានការចាត់ថ្នាក់មួយសារដែលអាចត្រូវបានប្រើដើម្បីបង្ហាត់តម្រងខ្លួនវាបន្ថែមទៀត។ ក្នុងករណីនេះទាំងប្រូបាប៊ីលីតេនៃ "Cartesian" ដែលបង្ហាញសំបុត្រល្អត្រូវបានបន្ថយ (ប្រសិនបើសារដែលមានទាំង "Cartesian" និង "toner" ត្រូវបានរកឃើញថាជាសារឥតបានការ) ឬក៏ប្រហែលជាការប៉ាន់ស្មានថា "toner" ដែលបង្ហាញសារឥតបានការត្រូវពិចារណាឡើងវិញ។

ដោយប្រើបច្ចេកទេសស្វ័យប្រវត្តិនេះតម្រង Bayesian អាច រៀនពីទាំងការសម្រេចចិត្តរបស់ខ្លួននិងការសម្រេចចិត្តរបស់អ្នកប្រើ (ប្រសិនបើនាងកែតម្រូវការវិនិច្ឆ័យខុសដោយតម្រង) ។ ការសម្របសម្រួលនៃតម្រង Bayesian ក៏ធ្វើឱ្យប្រាកដថាពួកគេមានប្រសិទ្ធិភាពបំផុតសម្រាប់អ្នកប្រើអ៊ីម៉ែលនីមួយៗ។ ខណៈពេលដែលសារឥតបានការរបស់មនុស្សភាគច្រើនមានលក្ខណៈស្រដៀងគ្នាសំបុត្រអ៊ីម៉ែលស្របច្បាប់គឺខុសគ្នាសម្រាប់អ្នកគ្រប់គ្នា។

តើអ្នកផ្ញើសារឥតបានការអាចទទួលបានតម្រង Bayesian កន្លងមកយ៉ាងដូចម្តេច?

ចរិតលក្ខណៈសំបុត្រស្របច្បាប់គឺមានសារៈសំខាន់សម្រាប់ដំណើរការតម្រងសារឥតបានការរបស់ក្រុម Bayesian ដែលជាសារឥតបានការ។ ប្រសិនបើតម្រងត្រូវបានបណ្តុះបណ្តាលជាពិសេសសម្រាប់អ្នកប្រើទាំងអស់នោះអ្នកផ្ញើសារឥតបានការនឹងមានពេលវេលាពិបាកក្នុងការធ្វើការនៅជុំវិញតម្រងសារឥតបានការរបស់មនុស្សគ្រប់គ្នា (ឬសូម្បីតែមនុស្សភាគច្រើន) ហើយតម្រងអាចសម្របខ្លួនទៅនឹងអ្នកផ្ញើសារឥតបានការស្ទើរតែទាំងអស់។

អ្នកផ្ញើសារឥតបានការនឹងធ្វើឱ្យវាឆ្លងកាត់តម្រងបាយសេអ៊ីនដែលបានបណ្តុះបណ្តាលយ៉ាងល្អប្រសិនបើពួកគេបង្កើតសារឥតបានការរបស់ពួកគេឱ្យល្អឥតខ្ចោះដូចអ៊ីមែលធម្មតាដែលមនុស្សគ្រប់គ្នាអាចទទួលបាន។

អ្នកផ្ញើសារឥតបានផ្ញើអ៊ីម៉ែលធម្មតាបែបនេះ។ ចូរយើងសន្មតថានេះគឺដោយសារតែអ៊ីម៉ែលទាំងនេះមិនដំណើរការជាអ៊ីម៉ែលឥតបានការ។ ដូច្នេះឱកាសគឺពួកគេនឹងមិនធ្វើវានៅពេលធម្មតាអ៊ីម៉ែលធុញថប់គឺជាមធ្យោបាយតែមួយគត់ដើម្បីធ្វើឱ្យវាឆ្លងកាត់តម្រងសារឥតបានការ។

ប្រសិនបើអ្នកផ្ញើសារឥតបានផ្លាស់ប្តូរអ៊ីម៉ែលដែលមើលទៅធម្មតាភាគច្រើនយើងនឹងឃើញសារឥតបានការជាច្រើននៅក្នុងប្រអប់សាររបស់យើងម្តងទៀតហើយអ៊ីម៉ែលអាចនឹងមានភាព តានតឹង ដូចជាវាស្ថិតនៅក្នុងថ្ងៃមុន Bayesian (ឬអាក្រក់ជាងនេះ) ។ វាក៏នឹងធ្វើឱ្យខូចដល់ទីផ្សារសម្រាប់ប្រភេទសារឥតបានការភាគច្រើនផងដែរហើយដូច្នេះនឹងមិនមានរយៈពេលយូរទេ។

សូចនាកររឹងមាំអាចជាតម្រងសារធាតុតម្រងនុយក្លេអ៊ែររបស់ Bayesian & # 39; កែងជើង

ការលើកលែងមួយអាចត្រូវបានគេដឹងថាសម្រាប់អ្នកផ្ញើសារឥតបានការដើម្បីធ្វើការតាមវិធីតាមរយៈតម្រង Bayesian ទោះបីជាជាមួយនឹងមាតិកាធម្មតារបស់ពួកគេក៏ដោយ។ វាស្ថិតនៅក្នុងលក្ខណៈនៃស្ថិតិ Bayesian ដែលពាក្យឬលក្ខណៈដែលមានជាញឹកញាប់នៅក្នុងអ៊ីម៉ែលល្អអាចមានសារសំខាន់ខ្លាំងណាស់ក្នុងការបង្វែរសារពីការមើលទៅដូចជាសារឥតបានការដែលត្រូវបានគេវាយតម្លៃថាជាតម្រៈតាមតម្រង។

ប្រសិនបើអ្នកផ្ញើសារឥតបានការស្វែងរកវិធីដើម្បីកំណត់ពាក្យអ៊ីមែលដែលច្បាស់លាស់របស់អ្នកដោយប្រើ វិក័យបត្រត្រឡប់ HTML ដើម្បីមើលសារដែលអ្នកបានបើកឧទាហរណ៍ពួកគេអាចរួមបញ្ចូលសារមួយក្នុងចំណោមពួកគេនៅក្នុងសំបុត្រឥត - បណ្តុះបណ្តា Bayesian តម្រង។

លោក John Graham-Cumming បានព្យាយាមធ្វើនេះដោយអនុញ្ញាតឱ្យតម្រង Bayesian ពីរធ្វើការប្រឆាំងនឹងគ្នាទៅវិញទៅមកដែលជា "អាក្រក់" មួយដែលសម្របទៅនឹងសារដែលត្រូវបានរកឃើញដើម្បីទទួលបានតាមរយៈតម្រង "ល្អ" ។ គាត់និយាយថាវាដំណើរការទោះបីជាដំណើរការនេះចំណាយពេលច្រើននិងស្មុគស្មាញក៏ដោយ។ យើងមិនគិតថាយើងនឹងឃើញរឿងរ៉ាវទាំងនេះកើតឡើងយ៉ាងហោចណាស់មិនមានទំហំធំនិងមិនត្រូវតាមលក្ខណៈបុគ្គលរបស់អ៊ីម៉ែលឡើយ។ អ្នកផ្ញើសារឥតបានការអាចព្យាយាមរកពាក្យគន្លឹះខ្លះៗសម្រាប់អង្គការ (អ្វីមួយដូចជា "Almaden" សម្រាប់មនុស្សមួយចំនួននៅក្រុមហ៊ុន IBM?) ជំនួសវិញ។

ជាទូទៅសារឥតបានការនឹងមានភាពខុសគ្នាយ៉ាងខ្លាំងពីអ៊ីមែលធម្មតាឬវានឹងមិនមែនជាសារឥតបានការនោះទេ។

បន្ទាត់ខាងក្រោម: ខ្សែក្រវាត់ Bayesian អាចជាភាពខ្សោយរបស់វា

តម្រងសារឥតបានការ Bayesian គឺ តម្រងផ្អែកលើមាតិកា ដែល:

ត្រូវបាន ទទួលការបណ្តុះបណ្តាលពិសេសដើម្បីទទួលស្គាល់សារឥតបានការនិងអ៊ីម៉ែលអ្នកប្រើអ៊ីម៉ែលរបស់បុគ្គល ដែលធ្វើឱ្យពួកគេមានប្រសិទ្ធិភាពខ្ពស់និងពិបាកក្នុងការសម្របខ្លួនសម្រាប់អ្នកផ្ញើសារឥតបានការ។
អាចបន្តនិងដោយគ្មានការខិតខំប្រឹងប្រែងច្រើនឬការវិភាគដោយដៃ សម្របខ្លួន ទៅនឹងល្បិចចុងក្រោយរបស់អ្នកផ្ញើសារឥតបានការ។
យកសំបុត្រល្អរបស់អ្នកប្រើម្នាក់ៗទៅក្នុងគណនីហើយមាន អត្រាកំណើនខុស ។
ជាអកុសលបើសិនជានេះបង្កឱ្យមានការទុកចិត្តងងឹតក្នុងតម្រងប្រឆាំងនឹងសារឥតបានការរបស់ Bayesian វានឹងធ្វើឱ្យមាន កំហុសម្តងម្កាលកាន់តែធ្ងន់ធ្ងរថែមទៀត ។ ផលប៉ះពាល់ផ្ទុយគ្នានៃ អវិជ្ជមានក្លែងក្លាយ (សារឥតបានការដែលមើលទៅដូចជាសំបុត្រធម្មតា) មានសក្តានុពលរំខាននិងធ្វើឱ្យអ្នកប្រើខ្ជះខ្ជាយ។