AI પ્રદર્શન કેવી રીતે માપવું

AI પ્રદર્શન કેવી રીતે માપવું?

જો તમે ક્યારેય એવું મોડેલ મોકલ્યું હોય જે નોટબુકમાં ચમકતું હોય પણ ઉત્પાદનમાં ઠોકર ખાય, તો તમે પહેલાથી જ રહસ્ય જાણો છો: AI પ્રદર્શનને કેવી રીતે માપવું તે કોઈ જાદુઈ માપદંડ નથી. તે વાસ્તવિક દુનિયાના લક્ષ્યો સાથે જોડાયેલી તપાસની સિસ્ટમ છે. ચોકસાઈ સુંદર છે. વિશ્વસનીયતા, સલામતી અને વ્યવસાયિક અસર વધુ સારી છે.

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 AI સાથે કેવી રીતે વાત કરવી
સતત સારા પરિણામો માટે AI સાથે અસરકારક રીતે વાતચીત કરવા માટેની માર્ગદર્શિકા.

🔗 AI શું પ્રોમ્પ્ટ કરી રહ્યું છે?
સમજાવે છે કે પ્રોમ્પ્ટ્સ AI પ્રતિભાવો અને આઉટપુટ ગુણવત્તાને કેવી રીતે આકાર આપે છે.

🔗 AI ડેટા લેબલિંગ શું છે?
તાલીમ મોડેલો માટે ડેટાને સચોટ લેબલ સોંપવાની ઝાંખી.

🔗 AI નીતિશાસ્ત્ર શું છે?
જવાબદાર AI વિકાસ અને જમાવટને માર્ગદર્શન આપતા નૈતિક સિદ્ધાંતોનો પરિચય.


સારું AI પ્રદર્શન શું બનાવે છે? ✅

ટૂંકું સંસ્કરણ: સારા AI પ્રદર્શનનો અર્થ એ છે કે તમારી સિસ્ટમ ઉપયોગી, વિશ્વસનીય અને અવ્યવસ્થિત, બદલાતી પરિસ્થિતિઓમાં પુનરાવર્તિત થઈ શકે છે. ચોક્કસ રીતે:

  • કાર્ય ગુણવત્તા - તે યોગ્ય કારણોસર યોગ્ય જવાબો મેળવે છે.

  • માપાંકન - આત્મવિશ્વાસના સ્કોર વાસ્તવિકતા સાથે મેળ ખાય છે, જેથી તમે સ્માર્ટ પગલાં લઈ શકો.

  • મજબૂતાઈ - તે ડ્રિફ્ટ, એજ કેસ અને વિરોધી ફઝ હેઠળ ટકી રહે છે.

  • સલામતી અને ન્યાયીપણું - તે હાનિકારક, પક્ષપાતી અથવા બિન-પાલનકારી વર્તનને ટાળે છે.

  • કાર્યક્ષમતા - તે પૂરતું ઝડપી, પૂરતું સસ્તું અને મોટા પાયે ચલાવવા માટે પૂરતું સ્થિર છે.

  • વ્યવસાયિક અસર - તે ખરેખર તમારા માટે મહત્વપૂર્ણ KPI ને ખસેડે છે.

જો તમને મેટ્રિક્સ અને જોખમોને સંરેખિત કરવા માટે ઔપચારિક સંદર્ભ બિંદુ જોઈતું હોય, તો NIST AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક વિશ્વસનીય સિસ્ટમ મૂલ્યાંકન માટે એક મજબૂત ઉત્તર તારો છે. [1]

 

AI પ્રદર્શન માપવા

AI પ્રદર્શન માપવા માટેની ઉચ્ચ-સ્તરીય રેસીપી 🍳

ત્રણ સ્તરોમાં વિચારો :

  1. કાર્ય મેટ્રિક્સ - કાર્ય પ્રકાર માટે શુદ્ધતા: વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ, પેઢી, નિયંત્રણ, વગેરે.

  2. સિસ્ટમ મેટ્રિક્સ - લેટન્સી, થ્રુપુટ, કોલ દીઠ ખર્ચ, નિષ્ફળતા દર, ડ્રિફ્ટ એલાર્મ, અપટાઇમ SLA.

  3. પરિણામ મેટ્રિક્સ - તમે ખરેખર ઇચ્છો છો તે વ્યવસાય અને વપરાશકર્તા પરિણામો: રૂપાંતર, રીટેન્શન, સલામતી ઘટનાઓ, મેન્યુઅલ-સમીક્ષા લોડ, ટિકિટ વોલ્યુમ.

એક મહાન માપન યોજના ઇરાદાપૂર્વક ત્રણેયને મિશ્રિત કરે છે. નહીં તો તમને એક રોકેટ મળે છે જે ક્યારેય લોન્ચપેડ છોડતો નથી.


સમસ્યાના પ્રકાર દ્વારા મુખ્ય મેટ્રિક્સ - અને ક્યારે ઉપયોગ કરવો 🎯

૧) વર્ગીકરણ

  • ચોકસાઇ, રિકોલ, F1 - દિવસ-પહેલા ત્રિપુટી. F1 એ ચોકસાઇ અને રિકોલનો સુમેળ સરેરાશ છે; જ્યારે વર્ગો અસંતુલિત હોય અથવા ખર્ચ અસમપ્રમાણ હોય ત્યારે ઉપયોગી છે. [2]

  • ROC-AUC - વર્ગીકરણકર્તાઓનું થ્રેશોલ્ડ-અજ્ઞેયવાદી રેન્કિંગ; જ્યારે હકારાત્મકતા દુર્લભ હોય, ત્યારે PR-AUC નું . [2]

  • સંતુલિત ચોકસાઈ - વર્ગોમાં રિકોલની સરેરાશ; ત્રાંસી લેબલ્સ માટે ઉપયોગી. [2]

પિટફોલ વોચ: માત્ર ચોકસાઈ જ અસંતુલન સાથે ખૂબ જ ગેરમાર્ગે દોરનારી હોઈ શકે છે. જો 99% વપરાશકર્તાઓ કાયદેસર હોય, તો એક મૂર્ખ હંમેશા કાયદેસર મોડેલ 99% સ્કોર કરે છે અને લંચ પહેલાં તમારી છેતરપિંડી ટીમને નિષ્ફળ બનાવે છે.

૨) રીગ્રેશન

  • માનવ-સુવાચ્ય ભૂલ માટે MAE મોટી ભૂલોને સજા કરવા માટે RMSE ભિન્નતા માટે
    (ડોમેન-ફ્રેન્ડલી એકમોનો ઉપયોગ કરો જેથી હિસ્સેદારો ખરેખર ભૂલ અનુભવી શકે.)

૩) રેન્કિંગ, પુનઃપ્રાપ્તિ, ભલામણો

  • nDCG - સ્થાન અને ક્રમાંકિત સુસંગતતાની કાળજી રાખે છે; શોધ ગુણવત્તા માટે માનક.

  • MRR - પ્રથમ સંબંધિત વસ્તુ કેટલી ઝડપથી દેખાય છે તેના પર ધ્યાન કેન્દ્રિત કરે છે ("એક સારો જવાબ શોધો" કાર્યો માટે ઉત્તમ).
    (અમલીકરણ સંદર્ભો અને કાર્ય કરેલા ઉદાહરણો મુખ્ય પ્રવાહના મેટ્રિક લાઇબ્રેરીઓમાં છે.) [2]

૪) ટેક્સ્ટ જનરેશન અને સારાંશ

  • BLEU અને ROUGE - ક્લાસિક ઓવરલેપ મેટ્રિક્સ; બેઝલાઇન તરીકે ઉપયોગી.

  • એમ્બેડિંગ-આધારિત મેટ્રિક્સ (દા.ત., BERTScore ) ઘણીવાર માનવ નિર્ણય સાથે વધુ સારી રીતે સંકળાયેલા હોય છે; શૈલી, વફાદારી અને સલામતી માટે હંમેશા માનવ રેટિંગ્સ સાથે જોડો. [4]

૫) પ્રશ્નનો જવાબ

  • ચોક્કસ મેચ અને ટોકન-લેવલ F1 સામાન્ય છે; જો જવાબોમાં સ્ત્રોતોનો ઉલ્લેખ કરવો જરૂરી હોય, તો ગ્રાઉન્ડિંગ (જવાબ-સપોર્ટ તપાસ) પણ માપો.


માપાંકન, આત્મવિશ્વાસ અને બ્રાયર લેન્સ 🎚️

આત્મવિશ્વાસ સ્કોર્સ એવી જગ્યા છે જ્યાં ઘણી બધી સિસ્ટમો શાંતિથી રહે છે. તમારે એવી સંભાવનાઓ જોઈએ છે જે વાસ્તવિકતાને પ્રતિબિંબિત કરે છે જેથી ઓપ્સ થ્રેશોલ્ડ, માનવો સુધીનો માર્ગ અથવા ભાવ જોખમ સેટ કરી શકે.

  • માપાંકન વણાંકો - અનુમાનિત સંભાવના વિરુદ્ધ પ્રયોગમૂલક આવર્તનની કલ્પના કરો.

  • બ્રાયર સ્કોર - સંભાવના ચોકસાઈ માટે યોગ્ય સ્કોરિંગ નિયમ; ઓછું વધુ સારું છે. તે ખાસ કરીને ઉપયોગી છે જ્યારે તમે સંભાવનાની ગુણવત્તાની

ફીલ્ડ નોંધ: થોડું "ખરાબ" પરંતુ ઘણું સારું કેલિબ્રેશન મોટા પ્રમાણમાં સુધારો કરી શકે છે - કારણ કે લોકો આખરે સ્કોર્સ પર વિશ્વાસ કરી શકે છે.


સલામતી, પક્ષપાત અને ન્યાયીપણું - શું મહત્વનું છે તે માપો 🛡️⚖️

એક સિસ્ટમ એકંદરે સચોટ હોઈ શકે છે અને હજુ પણ ચોક્કસ જૂથોને નુકસાન પહોંચાડી શકે છે. જૂથબદ્ધ મેટ્રિક્સ અને ન્યાયીતાના માપદંડોને ટ્રૅક કરો:

  • વસ્તી વિષયક સમાનતા - જૂથોમાં સમાન હકારાત્મક દર.

  • સમાન મતભેદ / સમાન તક - જૂથોમાં સમાન ભૂલ દર અથવા સાચા-સકારાત્મક દર; આનો ઉપયોગ ટ્રેડ-ઓફ શોધવા અને મેનેજ કરવા માટે કરો, એક-શોટ પાસ-ફેલ સ્ટેમ્પ તરીકે નહીં. [5]

વ્યવહારુ ટિપ: ડેશબોર્ડથી શરૂઆત કરો જે મુખ્ય લાક્ષણિકતાઓ દ્વારા મુખ્ય મેટ્રિક્સને કાપી નાખે છે, પછી તમારી નીતિઓની જરૂરિયાત મુજબ ચોક્કસ ન્યાયીતા મેટ્રિક્સ ઉમેરો. તે અસ્પષ્ટ લાગે છે, પરંતુ તે ઘટના કરતાં સસ્તું છે.


LLM અને RAG - એક માપન પ્લેબુક જે ખરેખર કામ કરે છે 📚🔍

જનરેટિવ સિસ્ટમ્સનું માપન કરવું... અઘરું છે. આ કરો:

  1. ઉપયોગના કિસ્સામાં પરિણામો વ્યાખ્યાયિત કરો

  2. મજબૂત ફ્રેમવર્ક (દા.ત., તમારા સ્ટેકમાં મૂલ્યાંકન ટૂલિંગ) વડે બેઝલાઇન મૂલ્યાંકનને સ્વચાલિત કરો

  3. સિમેન્ટીક મેટ્રિક્સ (એમ્બેડિંગ-આધારિત) વત્તા ઓવરલેપ મેટ્રિક્સ (BLEU/ROUGE) ઉમેરો. [4]

  4. ઇન્સ્ટ્રુમેન્ટ ગ્રાઉન્ડિંગ : પુનઃપ્રાપ્તિ હિટ રેટ, સંદર્ભ ચોકસાઇ/રિકોલ, જવાબ-સપોર્ટ ઓવરલેપ.

  5. માનવ સમીક્ષા સંમતિ સાથે - રેટર સુસંગતતા (દા.ત., કોહેનનું κ અથવા ફ્લીસનું κ) માપો જેથી તમારા લેબલ્સ વાઇબ્સ ન હોય.

બોનસ: લેટન્સી પર્સન્ટાઇલ્સ અને ટોકન લોગ કરો અથવા કાર્ય દીઠ ખર્ચની ગણતરી કરો. આવતા મંગળવારે આવેલો કાવ્યાત્મક જવાબ કોઈને ગમતો નથી.


સરખામણી કોષ્ટક - એવા સાધનો જે તમને AI પ્રદર્શન માપવામાં મદદ કરે છે 🛠️📊

(હા, તે જાણી જોઈને થોડું અવ્યવસ્થિત છે - વાસ્તવિક નોંધો અવ્યવસ્થિત છે.)

સાધન શ્રેષ્ઠ પ્રેક્ષકો કિંમત તે કેમ કામ કરે છે - ઝડપી લો
સાયકિટ-લર્ન મેટ્રિક્સ એમએલ પ્રેક્ટિશનરો મફત વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ માટે પ્રમાણભૂત અમલીકરણો; પરીક્ષણોમાં પકવવા માટે સરળ. [2]
MLflow મૂલ્યાંકન / GenAI ડેટા વૈજ્ઞાનિકો, MLOps મફત + ચૂકવેલ કેન્દ્રીયકૃત રન, ઓટોમેટેડ મેટ્રિક્સ, LLM જજ, કસ્ટમ સ્કોરર્સ; કલાકૃતિઓને સ્વચ્છ રીતે લોગ કરે છે.
દેખીતી રીતે ટીમો ડેશબોર્ડ ઝડપી ઇચ્છે છે OSS + ક્લાઉડ ૧૦૦+ મેટ્રિક્સ, ડ્રિફ્ટ અને ગુણવત્તા રિપોર્ટ્સ, મોનિટરિંગ હુક્સ - એક ચપટીમાં સરસ દ્રશ્યો.
વજન અને પૂર્વગ્રહો પ્રયોગો માટે ભારે સંસ્થાઓ મફત સ્તર બાજુ-બાજુ સરખામણીઓ, મૂલ્યાંકન ડેટાસેટ્સ, ન્યાયાધીશો; કોષ્ટકો અને ટ્રેસ વ્યવસ્થિત છે.
લેંગસ્મિથ LLM એપ બિલ્ડર્સ ચૂકવેલ દરેક પગલાને ટ્રેક કરો, માનવ સમીક્ષાને નિયમ અથવા LLM મૂલ્યાંકનકારો સાથે ભેળવો; RAG માટે ઉત્તમ.
ટ્રુલેન્સ ઓપન-સોર્સ LLM ઇવલ પ્રેમીઓ ઓએસએસ પ્રતિભાવ કાર્ય ઝેરીતા, ગ્રાઉન્ડનેસ, સુસંગતતાનો સ્કોર કરવા માટે; ગમે ત્યાં એકીકૃત કરવા માટે.
મહાન અપેક્ષાઓ ડેટા ગુણવત્તા-પ્રથમ સંસ્થાઓ ઓએસએસ ડેટા પર અપેક્ષાઓને ઔપચારિક બનાવો - કારણ કે ખરાબ ડેટા કોઈપણ રીતે દરેક મેટ્રિકને બગાડે છે.
ડીપચેક્સ ML માટે પરીક્ષણ અને CI/CD OSS + ક્લાઉડ ડેટા ડ્રિફ્ટ, મોડેલ સમસ્યાઓ અને દેખરેખ માટે બેટરી-સમાવેશિત પરીક્ષણ; સારી રેલિંગ.

કિંમતો બદલાય છે - દસ્તાવેજો તપાસો. અને હા, તમે ટૂલ પોલીસ આવ્યા વિના પણ આને મિક્સ કરી શકો છો.


થ્રેશોલ્ડ, ખર્ચ અને નિર્ણય વળાંક - ગુપ્ત ચટણી 🧪

થ્રેશોલ્ડ અને ખર્ચ ગુણોત્તરના આધારે ખૂબ જ અલગ વ્યવસાયિક મૂલ્ય ધરાવી શકે છે .

બનાવવા માટે ઝડપી શીટ:

  • ખોટા હકારાત્મક વિરુદ્ધ ખોટા નકારાત્મકની કિંમત પૈસા અથવા સમયમાં સેટ કરો.

  • થ્રેશોલ્ડ સ્વીપ કરો અને પ્રતિ 1k નિર્ણય માટે અપેક્ષિત ખર્ચની ગણતરી કરો.

  • ન્યૂનતમ અપેક્ષિત ખર્ચ પસંદ કરો , પછી તેને મોનિટરિંગ સાથે લોક કરો.

જ્યારે ધન દુર્લભ હોય ત્યારે PR વણાંકોનો ઉપયોગ કરો, સામાન્ય આકાર માટે ROC વણાંકોનો ઉપયોગ કરો, અને જ્યારે નિર્ણયો સંભાવનાઓ પર આધાર રાખે છે ત્યારે કેલિબ્રેશન વણાંકોનો ઉપયોગ કરો. [2][3]

મીની-કેસ: સપોર્ટ-ટિકિટ ટ્રાયજ મોડેલ જેમાં સામાન્ય F1 પણ ઉત્તમ કેલિબ્રેશન હોય છે, જે હાર્ડ થ્રેશોલ્ડથી ટાયર્ડ રૂટીંગ (દા.ત., "ઓટો-રિઝોલ્વ," "હ્યુમન-રીવ્યુ," "એસ્કેલેટ") પર સ્વિચ કર્યા પછી મેન્યુઅલ રી-રૂટ્સને કેલિબ્રેટેડ સ્કોર બેન્ડ સાથે જોડે છે.


ઓનલાઈન મોનિટરિંગ, ડ્રિફ્ટ અને એલર્ટિંગ 🚨

ઑફલાઇન મૂલ્યાંકન એ શરૂઆત છે, અંત નથી. ઉત્પાદનમાં:

  • સેગમેન્ટ દ્વારા ઇનપુટ ડ્રિફ્ટ , આઉટપુટ ડ્રિફ્ટ અને પ્રદર્શન સડોને ટ્રૅક કરો

  • રેલિંગ ચેક સેટ કરો - મહત્તમ ભ્રમ દર, ઝેરી થ્રેશોલ્ડ, ફેયરન્સ ડેલ્ટા.

  • p95 લેટન્સી, સમયસમાપ્તિ અને પ્રતિ વિનંતી કિંમત માટે કેનેરી ડેશબોર્ડ ઉમેરો

  • આને ઝડપી બનાવવા માટે હેતુ-નિર્મિત પુસ્તકાલયોનો ઉપયોગ કરો; તેઓ ડ્રિફ્ટ, ગુણવત્તા અને મોનિટરિંગ પ્રિમિટિવ્સ ઓફર કરે છે.

એક નાનો ખામીયુક્ત રૂપક: તમારા મોડેલને ખાટા સ્ટાર્ટર તરીકે વિચારો - તમે ફક્ત એક વાર શેક્યા પછી ચાલ્યા જતા નથી; તમે ખવડાવો છો, જુઓ છો, સુંઘો છો અને ક્યારેક ફરી શરૂ કરો છો.


માનવીય મૂલ્યાંકન જે ક્ષીણ થતું નથી 🍪

જ્યારે લોકો આઉટપુટને ગ્રેડ આપે છે, ત્યારે પ્રક્રિયા તમારા વિચારો કરતાં વધુ મહત્વપૂર્ણ બને છે.

  • પાસ વિ. બોર્ડરલાઇન વિ. ફેલના ઉદાહરણો સાથે ચુસ્ત રૂબ્રિક્સ લખો

  • શક્ય હોય ત્યારે નમૂનાઓને રેન્ડમાઇઝ કરો અને બ્લાઇન્ડ કરો.

  • ઇન્ટર-રેટર કરાર માપો (દા.ત., બે રેટર માટે કોહેનનો κ, ઘણા માટે ફ્લીસનો κ) અને જો કરાર નિષ્ફળ જાય તો રૂબ્રિક્સ તાજું કરો.

આ તમારા માનવ લેબલ્સને મૂડ અથવા કોફી સપ્લાય સાથે બદલાતા અટકાવે છે.


ઊંડાણપૂર્વક તપાસ: RAG માં LLM માટે AI પ્રદર્શન કેવી રીતે માપવું

  • પુનઃપ્રાપ્તિ ગુણવત્તા - recall@k, precision@k, nDCG; સોનાના તથ્યોનું કવરેજ. [2]

  • જવાબની વફાદારી - સાઈટ-એન્ડ-વેરિફાઈ ચેક, ગ્રાઉન્ડનેસ સ્કોર્સ, એડવર્સેરિયલ પ્રોબ્સ.

  • વપરાશકર્તા સંતોષ - અંગૂઠા, કાર્ય પૂર્ણતા, સૂચવેલા ડ્રાફ્ટ્સથી સંપાદનનું અંતર.

  • સલામતી - ઝેરીતા, PII લિકેજ, નીતિ પાલન.

  • કિંમત અને વિલંબ - ટોકન્સ, કેશ હિટ્સ, p95 અને p99 વિલંબ.

આને વ્યવસાયિક ક્રિયાઓ સાથે જોડો: જો ગ્રાઉન્ડનેસ એક રેખાથી નીચે જાય, તો કડક મોડ અથવા માનવ સમીક્ષા પર સ્વતઃ-રૂટ કરો.


આજે જ શરૂઆત કરવા માટે એક સરળ પ્લેબુક 🪄

  1. નોકરી વ્યાખ્યાયિત કરો - એક વાક્ય લખો: AI એ શું કરવું જોઈએ અને કોના માટે.

  2. 2-3 કાર્ય મેટ્રિક્સ પસંદ કરો - વત્તા કેલિબ્રેશન અને ઓછામાં ઓછી એક વાજબીતા સ્લાઇસ. [2][3][5]

  3. ખર્ચનો ઉપયોગ કરીને મર્યાદા નક્કી કરો - અનુમાન ન કરો.

  4. એક નાનો મૂલ્યાંકન સમૂહ બનાવો - ૧૦૦-૫૦૦ લેબલવાળા ઉદાહરણો જે ઉત્પાદન મિશ્રણને પ્રતિબિંબિત કરે છે.

  5. તમારા મૂલ્યાંકન - વાયર મૂલ્યાંકન/મોનિટરિંગને CI માં સ્વચાલિત કરો જેથી દરેક ફેરફાર સમાન તપાસ કરે.

  6. ઉત્પાદનમાં મોનિટર કરો - ડ્રિફ્ટ, લેટન્સી, ખર્ચ, ઘટના ફ્લેગ્સ.

  7. માસિક ધોરણે કાપણી મેટ્રિક્સની સમીક્ષા કરો જેનો કોઈ ઉપયોગ કરતું નથી; એવા મેટ્રિક્સ ઉમેરો જે વાસ્તવિક પ્રશ્નોના જવાબ આપે છે.

  8. દસ્તાવેજના નિર્ણયો - એક જીવંત સ્કોરકાર્ડ જે તમારી ટીમ ખરેખર વાંચે છે.

હા, બસ એટલું જ. અને તે કામ કરે છે.


સામાન્ય ગોટા અને તેમને કેવી રીતે ટાળવા 🕳️🐇

  • એક જ મેટ્રિક પર ઓવરફિટિંગ - નિર્ણય સંદર્ભ સાથે મેળ ખાતી મેટ્રિક બાસ્કેટનો

  • કેલિબ્રેશનને અવગણવું - કેલિબ્રેશન વિના આત્મવિશ્વાસ ફક્ત ગર્વ છે. [3]

  • કોઈ વિભાજન નહીં - હંમેશા વપરાશકર્તા જૂથો, ભૂગોળ, ઉપકરણ, ભાષા દ્વારા કાપો. [5]

  • અનિશ્ચિત ખર્ચ - જો તમે ભૂલોની કિંમત નહીં નક્કી કરો, તો તમે ખોટી થ્રેશોલ્ડ પસંદ કરશો.

  • માનવ મૂલ્યાંકન પ્રવાહ - કરાર માપો, રૂબ્રિક્સ તાજું કરો, સમીક્ષકોને ફરીથી તાલીમ આપો.

  • કોઈ સલામતી સાધન નહીં - ન્યાયીપણું, ઝેરીતા અને નીતિ તપાસ હમણાં ઉમેરો, પછી નહીં. [1][5]


તમે જે વાક્ય માટે આવ્યા છો: AI પ્રદર્શન કેવી રીતે માપવું - ખૂબ લાંબુ, મેં તે વાંચ્યું નથી 🧾

  • સ્પષ્ટ પરિણામોથી શરૂઆત કરો , પછી કાર્ય , સિસ્ટમ અને વ્યવસાય મેટ્રિક્સનો સ્ટેક બનાવો. [1]

  • કાર્ય માટે યોગ્ય મેટ્રિક્સનો ઉપયોગ કરો - વર્ગીકરણ માટે F1 અને ROC-AUC; રેન્કિંગ માટે nDCG/MRR; પેઢી માટે ઓવરલેપ + સિમેન્ટીક મેટ્રિક્સ (માનવો સાથે જોડી). [2][4]

  • માપાંકન કરો અને થ્રેશોલ્ડ પસંદ કરવા માટે તમારી ભૂલોનું મૂલ્યાંકન કરો

  • વાજબીતા ઉમેરો અને સ્પષ્ટ રીતે ટ્રેડ-ઓફનું સંચાલન કરો. [5]

  • મૂલ્યાંકન અને દેખરેખને સ્વચાલિત કરો જેથી તમે ભય વિના પુનરાવર્તન કરી શકો.

તમે જાણો છો કે તે કેવું છે - શું મહત્વનું છે તે માપો, નહીં તો તમે જે મહત્વનું નથી તેમાં સુધારો કરશો.


સંદર્ભ

[1] NIST. AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF). વધુ વાંચો
[2] scikit-learn. મોડેલ મૂલ્યાંકન: આગાહીઓની ગુણવત્તાનું પ્રમાણ નક્કી કરવું (વપરાશકર્તા માર્ગદર્શિકા). વધુ વાંચો
[3] scikit-learn. સંભાવના માપાંકન (કેલિબ્રેશન કર્વ્સ, બ્રાયર સ્કોર). વધુ વાંચો
[4] Papineni et al. (2002). BLEU: મશીન અનુવાદના સ્વચાલિત મૂલ્યાંકન માટેની પદ્ધતિ. ACL. વધુ વાંચો
[5] Hardt, Price, Srebro (2016). દેખરેખ હેઠળ શિક્ષણમાં તકોની સમાનતા. NeurIPS. વધુ વાંચો

અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા