AI અસંગતતાઓ કેવી રીતે શોધી કાઢે છે?

AI અસંગતતાઓ કેવી રીતે શોધી કાઢે છે?

ડેટા ઓપરેશન્સનો શાંત હીરો એનોમલી ડિટેક્શન છે - ધુમાડાનો એલાર્મ જે આગ લાગતા પહેલા બબડાટ કરે છે.

સરળ શબ્દોમાં કહીએ તો: AI શીખે છે કે "સામાન્ય-ઇશ" કેવું દેખાય છે, નવી ઇવેન્ટ્સને અસંગતતા સ્કોર થ્રેશોલ્ડના આધારે માનવને પેજ કરવું (અથવા વસ્તુને ઓટો-બ્લોક કરવી) . જ્યારે તમારો ડેટા મોસમી, અવ્યવસ્થિત, વહેતો અને ક્યારેક તમારી સાથે ખોટું બોલતો હોય ત્યારે તમે "સામાન્ય-ઇશ" ને કેવી રીતે વ્યાખ્યાયિત કરો છો તેમાં શેતાન છે. [1]

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 શા માટે AI સમાજ માટે હાનિકારક હોઈ શકે છે
વ્યાપક AI અપનાવવાના નૈતિક, આર્થિક અને સામાજિક જોખમોની તપાસ કરે છે.

🔗 AI સિસ્ટમો ખરેખર કેટલું પાણી વાપરે છે તે
ડેટા સેન્ટર કૂલિંગ, તાલીમની માંગ અને પર્યાવરણીય પાણીની અસર સમજાવે છે.

🔗 AI ડેટાસેટ શું છે અને તે શા માટે મહત્વનું છે
ડેટાસેટ્સ, લેબલિંગ, સ્ત્રોતો અને મોડેલ પ્રદર્શનમાં તેમની ભૂમિકા વ્યાખ્યાયિત કરે છે.

🔗 જટિલ ડેટામાંથી AI વલણોની આગાહી કેવી રીતે કરે છે
તેમાં પેટર્ન ઓળખ, મશીન લર્નિંગ મોડેલ્સ અને વાસ્તવિક દુનિયાની આગાહીના ઉપયોગોનો સમાવેશ થાય છે.


"AI અસંગતતાઓ કેવી રીતે શોધી કાઢે છે?" 

એક સારા જવાબમાં ફક્ત અલ્ગોરિધમ્સની યાદી જ હોવી જોઈએ નહીં. તેમાં મિકેનિક્સ અને વાસ્તવિક, અપૂર્ણ ડેટા પર તેનો ઉપયોગ કેવી રીતે થાય છે તે સમજાવવું જોઈએ. શ્રેષ્ઠ સમજૂતીઓ:

  • મૂળભૂત ઘટકો બતાવો: સુવિધાઓ , બેઝલાઇન , સ્કોર્સ અને થ્રેશોલ્ડ . [1]

  • કોન્ટ્રાસ્ટ વ્યવહારુ પરિવારો: અંતર, ઘનતા, એક-વર્ગ, અલગતા, સંભાવના, પુનર્નિર્માણ. [1]

  • સમય-શ્રેણીની વિચિત્રતાઓને સંભાળો: "સામાન્ય" દિવસના સમય, અઠવાડિયાના દિવસ, પ્રકાશનો અને રજાઓ પર આધાર રાખે છે. [1]

  • મૂલ્યાંકનને વાસ્તવિક અવરોધ તરીકે ગણો: ખોટા એલાર્મ ફક્ત હેરાન કરતા નથી - તે વિશ્વાસને બાળી નાખે છે. [4]

  • અર્થઘટનક્ષમતા + માનવ-ઇન-ધ-લૂપ શામેલ કરો, કારણ કે "તે વિચિત્ર છે" એ મૂળ કારણ નથી. [5]


મુખ્ય મિકેનિક્સ: બેઝલાઇન્સ, સ્કોર્સ, થ્રેશોલ્ડ્સ 🧠

મોટાભાગની વિસંગતતા પ્રણાલીઓ - ફેન્સી હોય કે ન હોય - ત્રણ ગતિશીલ ભાગોમાં ઉકળે છે:

૧) પ્રતિનિધિત્વ (ઉર્ફે: મોડેલ શું જુએ છે )

કાચા સંકેતો ભાગ્યે જ પૂરતા હોય છે. તમે કાં તો સુવિધાઓ (રોલિંગ આંકડા, ગુણોત્તર, લેગ્સ, મોસમી ડેલ્ટા) ને એન્જિનિયર કરો છો અથવા રજૂઆતો (એમ્બેડિંગ્સ, સબસ્પેસ, પુનર્નિર્માણ) શીખો છો. [1]

૨) સ્કોરિંગ (ઉર્ફ: આ કેટલું "વિચિત્ર" છે?)

સામાન્ય સ્કોરિંગ વિચારોમાં શામેલ છે:

  • અંતર-આધારિત : પડોશીઓથી દૂર = શંકાસ્પદ. [1]

  • ઘનતા-આધારિત : ઓછી સ્થાનિક ઘનતા = શંકાસ્પદ (LOF એ પોસ્ટર ચાઇલ્ડ છે). [1]

  • એક-વર્ગની સીમાઓ : "સામાન્ય" શીખો, બહાર શું આવે છે તે ચિહ્નિત કરો. [1]

  • સંભાવના : ફીટ કરેલા મોડેલ હેઠળ ઓછી સંભાવના = શંકાસ્પદ. [1]

  • પુનર્નિર્માણ ભૂલ : જો સામાન્ય રીતે તાલીમ પામેલ મોડેલ તેને ફરીથી બનાવી શકતું નથી, તો તે કદાચ બંધ છે. [1]

૩) થ્રેશોલ્ડિંગ (ઉર્ફે: ઘંટ ક્યારે વગાડવો)

થ્રેશોલ્ડ નિશ્ચિત, ક્વોન્ટાઇલ-આધારિત, પ્રતિ-સેગમેન્ટ, અથવા ખર્ચ-સંવેદનશીલ હોઈ શકે છે - પરંતુ તેમને માપાંકિત , વાઇબ્સ સામે નહીં. [4]

એક ખૂબ જ વ્યવહારુ વિગત: સાયકિટ-લર્નના આઉટલાયર/નોવેલ્ટી ડિટેક્ટર કાચા સ્કોર્સને અને પછી થ્રેશોલ્ડ (ઘણીવાર દૂષણ-શૈલી ધારણા દ્વારા નિયંત્રિત) લાગુ કરે છે. [2]


પાછળથી પીડા અટકાવતી ઝડપી વ્યાખ્યાઓ 🧯

બે ભેદ જે તમને સૂક્ષ્મ ભૂલોથી બચાવે છે:

  • આઉટલાયર ડિટેક્શન : તમારા તાલીમ ડેટામાં પહેલાથી જ આઉટલાયર શામેલ હોઈ શકે છે; અલ્ગોરિધમ કોઈપણ રીતે "ડેન્સ નોર્મલ રિજન" નું મોડેલ બનાવવાનો પ્રયાસ કરે છે.

  • નવીનતા શોધ : તાલીમ ડેટા સ્વચ્છ માનવામાં આવે છે; તમે નક્કી કરી રહ્યા છો કે નવા અવલોકનો શીખેલા સામાન્ય પેટર્નમાં બંધબેસે છે કે નહીં. [2]

ઉપરાંત: નવીનતા શોધને ઘણીવાર એક-વર્ગના વર્ગીકરણ - અસામાન્ય ઉદાહરણો દુર્લભ અથવા અવ્યાખ્યાયિત હોવાથી સામાન્ય મોડેલિંગ. [1]

 

AI અસંગતતાઓમાં ગ્લિચિંગ

દેખરેખ વગરના વર્કહોર્સ જેનો તમે ખરેખર ઉપયોગ કરશો 🧰

જ્યારે લેબલ્સ દુર્લભ હોય છે (જે મૂળભૂત રીતે હંમેશા હોય છે), ત્યારે આ સાધનો વાસ્તવિક પાઇપલાઇન્સમાં દેખાય છે:

  • આઇસોલેશન ફોરેસ્ટ : ઘણા ટેબ્યુલર કેસોમાં એક મજબૂત ડિફોલ્ટ, વ્યવહારમાં વ્યાપકપણે ઉપયોગમાં લેવાય છે અને સાયકિટ-લર્નમાં અમલમાં મૂકવામાં આવે છે. [2]

  • એક-વર્ગ SVM : અસરકારક હોઈ શકે છે પરંતુ ટ્યુનિંગ અને ધારણાઓ પ્રત્યે સંવેદનશીલ છે; સાયકિટ-લર્ન સ્પષ્ટપણે કાળજીપૂર્વક હાઇપરપેરામીટર ટ્યુનિંગની જરૂરિયાતને બોલાવે છે. [2]

  • લોકલ આઉટલાયર ફેક્ટર (LOF) : ક્લાસિક ડેન્સિટી-આધારિત સ્કોરિંગ; જ્યારે "સામાન્ય" એક સરસ બ્લોબ ન હોય ત્યારે ઉત્તમ. [1]

એક વ્યવહારુ ગોચા ટીમો સાપ્તાહિક પુનઃશોધ કરે છે: LOF તમે તાલીમ સેટ પર આઉટલાયર ડિટેક્શન કરી રહ્યા છો કે નહીં તેના આધારે અલગ રીતે વર્તે છે. નવા ડેટા પર નવીનતા શોધ - scikit-learn ને પણ novelty=True ની જેથી સુરક્ષિત રીતે અદ્રશ્ય પોઈન્ટ મેળવી શકાય. [2]


ડેટા તરંગી હોય ત્યારે પણ કામ કરતી એક મજબૂત બેઝલાઇન 🪓

જો તમે "આપણને ફક્ત એવી વસ્તુની જરૂર છે જે આપણને વિસ્મૃતિમાં ન મૂકે" સ્થિતિમાં છો, તો મજબૂત આંકડાઓને ઓછું આંકવામાં આવે છે.

સુધારેલા z-સ્કોર મધ્ય અને MAD (મધ્યમ સંપૂર્ણ વિચલન) નો ઉપયોગ કરે છે 3.5 થી ઉપરના સંપૂર્ણ મૂલ્ય પર સામાન્ય રીતે ઉપયોગમાં લેવાતા "સંભવિત આઉટલાયર" નિયમની નોંધ લે છે . [3]

આનાથી દરેક અસંગતતા સમસ્યા હલ થશે નહીં - પરંતુ તે ઘણીવાર મજબૂત પ્રથમ સંરક્ષણ હોય છે, ખાસ કરીને ઘોંઘાટીયા મેટ્રિક્સ અને પ્રારંભિક તબક્કાના નિરીક્ષણ માટે. [3]


સમય શ્રેણી વાસ્તવિકતા: "સામાન્ય" ક્યારે ⏱️📈 પર આધાર રાખે છે

સમય શ્રેણીની વિસંગતતાઓ જટિલ છે કારણ કે સંદર્ભ એ સમગ્ર મુદ્દો છે: બપોરના સમયે વધારો અપેક્ષિત હોઈ શકે છે; સવારે 3 વાગ્યે તે જ વધારો એનો અર્થ એ હોઈ શકે છે કે કંઈક આગ લાગી છે. તેથી ઘણી વ્યવહારુ સિસ્ટમો સમય-જાગૃત સુવિધાઓ (લેગ્સ, મોસમી ડેલ્ટા, રોલિંગ વિંડોઝ) અને અપેક્ષિત પેટર્નની તુલનામાં સ્કોર વિચલનોનો ઉપયોગ કરીને સામાન્યતાનું મોડેલ બનાવે છે. [1]

જો તમને ફક્ત એક જ નિયમ યાદ હોય: તમારા બેઝલાઇન (કલાક/દિવસ/પ્રદેશ/સેવા સ્તર) ને વિભાજિત કરો. [1]


મૂલ્યાંકન: દુર્લભ ઘટનાની જાળ 🧪

વિસંગતતા શોધ ઘણીવાર "ઘાસની ગંજીમાંથી સોય" હોય છે, જે મૂલ્યાંકનને વિચિત્ર બનાવે છે:

  • જ્યારે હકારાત્મકતા દુર્લભ હોય છે ત્યારે ROC વણાંકો ભ્રામક રીતે સુંદર દેખાઈ શકે છે.

  • અસંતુલિત સેટિંગ્સ માટે પ્રિસિઝન-રિકોલ વ્યૂ ઘણીવાર વધુ માહિતીપ્રદ હોય છે કારણ કે તે સકારાત્મક વર્ગ પર પ્રદર્શન પર ધ્યાન કેન્દ્રિત કરે છે. [4]

  • કાર્યકારી રીતે, તમારે ચેતવણી બજેટની : ગુસ્સો છોડ્યા વિના માણસો ખરેખર કલાક દીઠ કેટલા ચેતવણીઓ લખી શકે છે? [4]

રોલિંગ વિન્ડોમાં બેકટેસ્ટિંગ તમને ક્લાસિક નિષ્ફળતા મોડને પકડવામાં મદદ કરે છે: "તે સુંદર રીતે કામ કરે છે... ગયા મહિનાના વિતરણ પર." [1]


અર્થઘટનક્ષમતા અને મૂળ કારણ: તમારું કાર્ય બતાવો 🪄

સમજૂતી વિના ચેતવણી આપવી એ રહસ્યમય પોસ્ટકાર્ડ મેળવવા જેવું છે. ઉપયોગી છે, પણ નિરાશાજનક છે.

એનોમલી સ્કોરમાં કયા લક્ષણો સૌથી વધુ ફાળો આપે છે તે નિર્દેશ કરીને અથવા "આને સામાન્ય દેખાવા માટે શું બદલવાની જરૂર પડશે?" શૈલી સ્પષ્ટતા આપીને મદદ કરી શકે છે ઇન્ટરપ્રિટેબલિટી મશીન લર્નિંગ પુસ્તક સામાન્ય પદ્ધતિઓ (SHAP-શૈલીના એટ્રિબ્યુશન સહિત) અને તેમની મર્યાદાઓ માટે એક નક્કર, મહત્વપૂર્ણ માર્ગદર્શિકા છે. [5]

ધ્યેય ફક્ત હિસ્સેદારોને આરામ આપવાનો નથી - તે ઝડપી ટ્રાયજ અને ઓછી પુનરાવર્તિત ઘટનાઓનો છે.


ડિપ્લોયમેન્ટ, ડ્રિફ્ટ અને ફીડબેક લૂપ્સ 🚀

મોડેલો સ્લાઇડ્સમાં રહેતા નથી. તેઓ પાઇપલાઇન્સમાં રહે છે.

"ઉત્પાદનના પહેલા મહિના" ની એક સામાન્ય વાર્તા: ડિટેક્ટર મોટે ભાગે ડિપ્લોય, બેચ જોબ્સ અને ગુમ થયેલ ડેટાને ફ્લેગ કરે છે... જે હજુ પણ ઉપયોગી કારણ કે તે તમને "ડેટા ગુણવત્તાની ઘટનાઓ" ને "વ્યવસાયિક વિસંગતતાઓ" થી અલગ કરવા દબાણ કરે છે.

વ્યવહારમાં:

  • વર્તન બદલાય તેમ ડ્રિફ્ટનું નિરીક્ષણ કરો

  • લોગ સ્કોર ઇનપુટ્સ + મોડેલ વર્ઝન જેથી તમે કંઈક પેજ કેમ કર્યું તેનું પુનઃઉત્પાદન કરી શકો. [5]

  • સમય જતાં થ્રેશોલ્ડ અને સેગમેન્ટ્સને ટ્યુન કરવા માટે માનવ પ્રતિસાદ (ઉપયોગી વિરુદ્ધ ઘોંઘાટીયા ચેતવણીઓ) કેપ્ચર કરો


સુરક્ષા કોણ: IDS અને વર્તણૂકીય વિશ્લેષણ 🛡️

સુરક્ષા ટીમો ઘણીવાર નિયમ-આધારિત શોધ સાથે વિસંગતતાના વિચારોનું મિશ્રણ કરે છે: "સામાન્ય યજમાન વર્તન" માટે બેઝલાઇન, વત્તા જાણીતા ખરાબ પેટર્ન માટે સહીઓ અને નીતિઓ. NIST નું SP 800-94 (ફાઇનલ) ઘુસણખોરી શોધ અને નિવારણ પ્રણાલીના વિચારણાઓ માટે વ્યાપકપણે ટાંકવામાં આવતી ફ્રેમિંગ છે; તે એ પણ નોંધે છે કે 2012 નો ડ્રાફ્ટ "રેવ. 1" ક્યારેય અંતિમ બન્યો નહીં અને પછીથી તેને નિવૃત્ત કરવામાં આવ્યો. [3]

અનુવાદ: જ્યાં મદદ કરે છે ત્યાં ML નો ઉપયોગ કરો, પરંતુ કંટાળાજનક નિયમોને ફેંકી દો નહીં - તે કંટાળાજનક છે કારણ કે તે કામ કરે છે.


સરખામણી કોષ્ટક: એક નજરમાં લોકપ્રિય પદ્ધતિઓ 📊

સાધન / પદ્ધતિ માટે શ્રેષ્ઠ તે શા માટે કામ કરે છે (વ્યવહારમાં)
મજબૂત / સંશોધિત z-સ્કોર્સ સરળ મેટ્રિક્સ, ઝડપી બેઝલાઇન્સ જ્યારે તમને "પૂરતી સારી" અને ઓછા ખોટા એલાર્મની જરૂર હોય ત્યારે મજબૂત પહેલો પાસ. [3]
આઇસોલેશન ફોરેસ્ટ ટેબ્યુલર, મિશ્ર લક્ષણો મજબૂત ડિફોલ્ટ અમલીકરણ અને વ્યવહારમાં વ્યાપકપણે ઉપયોગમાં લેવાય છે. [2]
એક-વર્ગ SVM સંક્ષિપ્ત "સામાન્ય" પ્રદેશો સીમા-આધારિત નવીનતા શોધ; ટ્યુનિંગ ખૂબ મહત્વનું છે. [2]
સ્થાનિક બાહ્ય પરિબળ મેનીફોલ્ડ-ઇશ નોર્મલ્સ પડોશીઓ સામે ઘનતાનો વિરોધાભાસ સ્થાનિક વિચિત્રતાને પકડી પાડે છે. [1]
પુનર્નિર્માણ ભૂલ (દા.ત., ઓટોએન્કોડર-શૈલી) ઉચ્ચ-પરિમાણીય પેટર્ન સામાન્ય રીતે ટ્રેન કરો; મોટી પુનર્નિર્માણ ભૂલો વિચલનોને ચિહ્નિત કરી શકે છે. [1]

ચીટ કોડ: મજબૂત બેઝલાઇન + કંટાળાજનક અનસર્વિઝ્ડ પદ્ધતિથી શરૂઆત કરો, પછી ફક્ત ત્યાં જ જટિલતા ઉમેરો જ્યાં તે ભાડું ચૂકવે છે.


એક નાની પ્લેબુક: શૂન્યથી ચેતવણીઓ સુધી 🧭

  1. "વિચિત્ર" ને કાર્યાત્મક રીતે વ્યાખ્યાયિત કરો (લેટન્સી, છેતરપિંડીનું જોખમ, CPU થ્રેશ, ઇન્વેન્ટરી જોખમ).

  2. બેઝલાઇન (મજબૂત આંકડા અથવા વિભાજિત થ્રેશોલ્ડ) થી શરૂઆત કરો. [3]

  3. પ્રથમ પાસ તરીકે એક અનસપર્વાઇઝ્ડ મોડેલ પસંદ કરો

  4. ચેતવણી બજેટ સાથે થ્રેશોલ્ડ સેટ કરો , અને જો સકારાત્મકતાઓ દુર્લભ હોય તો PR-શૈલીની વિચારસરણી સાથે મૂલ્યાંકન કરો. [4]

  5. સ્પષ્ટીકરણો + લોગિંગ ઉમેરો જેથી દરેક ચેતવણી ફરીથી ઉત્પન્ન થાય અને ડીબગ કરી શકાય. [5]

  6. બેકટેસ્ટ, શિપ, શીખો, રિકૅલિબ્રેટ કરો - ડ્રિફ્ટ સામાન્ય છે. [1]

તમે આ એક અઠવાડિયામાં કરી શકો છો... ધારો કે તમારા ટાઇમસ્ટેમ્પ ડક્ટ ટેપ અને આશા સાથે જોડાયેલા નથી. 😅


અંતિમ ટિપ્પણી - ખૂબ લાંબું, મેં તે વાંચ્યું નથી🧾

AI "સામાન્ય" નું વ્યવહારુ ચિત્ર શીખીને, વિચલનોને સ્કોર કરીને અને થ્રેશોલ્ડને પાર કરતી વસ્તુઓને ચિહ્નિત કરીને વિસંગતતાઓ શોધી કાઢે છે. શ્રેષ્ઠ સિસ્ટમો આછકલા હોવાને કારણે નહીં, પરંતુ માપાંકિત : વિભાજિત બેઝલાઇન, ચેતવણી બજેટ, અર્થઘટનક્ષમ આઉટપુટ અને પ્રતિસાદ લૂપ જે ઘોંઘાટીયા એલાર્મ્સને વિશ્વસનીય સિગ્નલમાં ફેરવે છે. [1]


સંદર્ભ

  1. પિમેન્ટેલ એટ અલ. (૨૦૧૪) - નવીનતા શોધની સમીક્ષા (પીડીએફ, ઓક્સફર્ડ યુનિવર્સિટી) વધુ વાંચો

  2. scikit-learn દસ્તાવેજીકરણ - નવીનતા અને બાહ્ય શોધ વધુ વાંચો

  3. NIST/SEMATECH ઈ-હેન્ડબુક - ડિટેક્શન ઓફ આઉટલાયર્સ વધુ વાંચો અને NIST CSRC - SP 800-94 (ફાઇનલ): ઇન્ટ્રુઝન ડિટેક્શન એન્ડ પ્રિવેન્શન સિસ્ટમ્સ (IDPS) માટે માર્ગદર્શિકા વધુ વાંચો

  4. સૈટો અને રેહમ્સમીયર (૨૦૧૫) - (PLOS ONE) પર બાઈનરી ક્લાસિફાયરનું મૂલ્યાંકન કરતી વખતે પ્રિસિઝન-રિકોલ પ્લોટ ROC પ્લોટ કરતાં વધુ માહિતીપ્રદ છે. વધુ વાંચો

  5. મોલ્નાર - ઇન્ટરપ્રિટેબલ મશીન લર્નિંગ (વેબ બુક) વધુ વાંચો

અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા