જો તમે ક્યારેય એવું મોડેલ મોકલ્યું હોય જે નોટબુકમાં ચમકતું હોય પણ ઉત્પાદનમાં ઠોકર ખાય, તો તમે પહેલાથી જ રહસ્ય જાણો છો: AI પ્રદર્શનને કેવી રીતે માપવું તે કોઈ જાદુઈ માપદંડ નથી. તે વાસ્તવિક દુનિયાના લક્ષ્યો સાથે જોડાયેલી તપાસની સિસ્ટમ છે. ચોકસાઈ સુંદર છે. વિશ્વસનીયતા, સલામતી અને વ્યવસાયિક અસર વધુ સારી છે.
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI સાથે કેવી રીતે વાત કરવી
સતત સારા પરિણામો માટે AI સાથે અસરકારક રીતે વાતચીત કરવા માટેની માર્ગદર્શિકા.
🔗 AI શું પ્રોમ્પ્ટ કરી રહ્યું છે?
સમજાવે છે કે પ્રોમ્પ્ટ્સ AI પ્રતિભાવો અને આઉટપુટ ગુણવત્તાને કેવી રીતે આકાર આપે છે.
🔗 AI ડેટા લેબલિંગ શું છે?
તાલીમ મોડેલો માટે ડેટાને સચોટ લેબલ સોંપવાની ઝાંખી.
🔗 AI નીતિશાસ્ત્ર શું છે?
જવાબદાર AI વિકાસ અને જમાવટને માર્ગદર્શન આપતા નૈતિક સિદ્ધાંતોનો પરિચય.
સારું AI પ્રદર્શન શું બનાવે છે? ✅
ટૂંકું સંસ્કરણ: સારા AI પ્રદર્શનનો અર્થ એ છે કે તમારી સિસ્ટમ ઉપયોગી, વિશ્વસનીય અને અવ્યવસ્થિત, બદલાતી પરિસ્થિતિઓમાં પુનરાવર્તિત થઈ શકે છે. ચોક્કસ રીતે:
-
કાર્ય ગુણવત્તા - તે યોગ્ય કારણોસર યોગ્ય જવાબો મેળવે છે.
-
માપાંકન - આત્મવિશ્વાસના સ્કોર વાસ્તવિકતા સાથે મેળ ખાય છે, જેથી તમે સ્માર્ટ પગલાં લઈ શકો.
-
મજબૂતાઈ - તે ડ્રિફ્ટ, એજ કેસ અને વિરોધી ફઝ હેઠળ ટકી રહે છે.
-
સલામતી અને ન્યાયીપણું - તે હાનિકારક, પક્ષપાતી અથવા બિન-પાલનકારી વર્તનને ટાળે છે.
-
કાર્યક્ષમતા - તે પૂરતું ઝડપી, પૂરતું સસ્તું અને મોટા પાયે ચલાવવા માટે પૂરતું સ્થિર છે.
-
વ્યવસાયિક અસર - તે ખરેખર તમારા માટે મહત્વપૂર્ણ KPI ને ખસેડે છે.
જો તમને મેટ્રિક્સ અને જોખમોને સંરેખિત કરવા માટે ઔપચારિક સંદર્ભ બિંદુ જોઈતું હોય, તો NIST AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક વિશ્વસનીય સિસ્ટમ મૂલ્યાંકન માટે એક મજબૂત ઉત્તર તારો છે. [1]

AI પ્રદર્શન માપવા માટેની ઉચ્ચ-સ્તરીય રેસીપી 🍳
ત્રણ સ્તરોમાં વિચારો :
-
કાર્ય મેટ્રિક્સ - કાર્ય પ્રકાર માટે શુદ્ધતા: વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ, પેઢી, નિયંત્રણ, વગેરે.
-
સિસ્ટમ મેટ્રિક્સ - લેટન્સી, થ્રુપુટ, કોલ દીઠ ખર્ચ, નિષ્ફળતા દર, ડ્રિફ્ટ એલાર્મ, અપટાઇમ SLA.
-
પરિણામ મેટ્રિક્સ - તમે ખરેખર ઇચ્છો છો તે વ્યવસાય અને વપરાશકર્તા પરિણામો: રૂપાંતર, રીટેન્શન, સલામતી ઘટનાઓ, મેન્યુઅલ-સમીક્ષા લોડ, ટિકિટ વોલ્યુમ.
એક મહાન માપન યોજના ઇરાદાપૂર્વક ત્રણેયને મિશ્રિત કરે છે. નહીં તો તમને એક રોકેટ મળે છે જે ક્યારેય લોન્ચપેડ છોડતો નથી.
સમસ્યાના પ્રકાર દ્વારા મુખ્ય મેટ્રિક્સ - અને ક્યારે ઉપયોગ કરવો 🎯
૧) વર્ગીકરણ
-
ચોકસાઇ, રિકોલ, F1 - દિવસ-પહેલા ત્રિપુટી. F1 એ ચોકસાઇ અને રિકોલનો સુમેળ સરેરાશ છે; જ્યારે વર્ગો અસંતુલિત હોય અથવા ખર્ચ અસમપ્રમાણ હોય ત્યારે ઉપયોગી છે. [2]
-
ROC-AUC - વર્ગીકરણકર્તાઓનું થ્રેશોલ્ડ-અજ્ઞેયવાદી રેન્કિંગ; જ્યારે હકારાત્મકતા દુર્લભ હોય, ત્યારે PR-AUC નું . [2]
-
સંતુલિત ચોકસાઈ - વર્ગોમાં રિકોલની સરેરાશ; ત્રાંસી લેબલ્સ માટે ઉપયોગી. [2]
પિટફોલ વોચ: માત્ર ચોકસાઈ જ અસંતુલન સાથે ખૂબ જ ગેરમાર્ગે દોરનારી હોઈ શકે છે. જો 99% વપરાશકર્તાઓ કાયદેસર હોય, તો એક મૂર્ખ હંમેશા કાયદેસર મોડેલ 99% સ્કોર કરે છે અને લંચ પહેલાં તમારી છેતરપિંડી ટીમને નિષ્ફળ બનાવે છે.
૨) રીગ્રેશન
-
માનવ-સુવાચ્ય ભૂલ માટે MAE મોટી ભૂલોને સજા કરવા માટે RMSE ભિન્નતા માટે
R² (ડોમેન-ફ્રેન્ડલી એકમોનો ઉપયોગ કરો જેથી હિસ્સેદારો ખરેખર ભૂલ અનુભવી શકે.)
૩) રેન્કિંગ, પુનઃપ્રાપ્તિ, ભલામણો
-
nDCG - સ્થાન અને ક્રમાંકિત સુસંગતતાની કાળજી રાખે છે; શોધ ગુણવત્તા માટે માનક.
-
MRR - પ્રથમ સંબંધિત વસ્તુ કેટલી ઝડપથી દેખાય છે તેના પર ધ્યાન કેન્દ્રિત કરે છે ("એક સારો જવાબ શોધો" કાર્યો માટે ઉત્તમ).
(અમલીકરણ સંદર્ભો અને કાર્ય કરેલા ઉદાહરણો મુખ્ય પ્રવાહના મેટ્રિક લાઇબ્રેરીઓમાં છે.) [2]
૪) ટેક્સ્ટ જનરેશન અને સારાંશ
-
BLEU અને ROUGE - ક્લાસિક ઓવરલેપ મેટ્રિક્સ; બેઝલાઇન તરીકે ઉપયોગી.
-
એમ્બેડિંગ-આધારિત મેટ્રિક્સ (દા.ત., BERTScore ) ઘણીવાર માનવ નિર્ણય સાથે વધુ સારી રીતે સંકળાયેલા હોય છે; શૈલી, વફાદારી અને સલામતી માટે હંમેશા માનવ રેટિંગ્સ સાથે જોડો. [4]
૫) પ્રશ્નનો જવાબ
-
ચોક્કસ મેચ અને ટોકન-લેવલ F1 સામાન્ય છે; જો જવાબોમાં સ્ત્રોતોનો ઉલ્લેખ કરવો જરૂરી હોય, તો ગ્રાઉન્ડિંગ (જવાબ-સપોર્ટ તપાસ) પણ માપો.
માપાંકન, આત્મવિશ્વાસ અને બ્રાયર લેન્સ 🎚️
આત્મવિશ્વાસ સ્કોર્સ એવી જગ્યા છે જ્યાં ઘણી બધી સિસ્ટમો શાંતિથી રહે છે. તમારે એવી સંભાવનાઓ જોઈએ છે જે વાસ્તવિકતાને પ્રતિબિંબિત કરે છે જેથી ઓપ્સ થ્રેશોલ્ડ, માનવો સુધીનો માર્ગ અથવા ભાવ જોખમ સેટ કરી શકે.
-
માપાંકન વણાંકો - અનુમાનિત સંભાવના વિરુદ્ધ પ્રયોગમૂલક આવર્તનની કલ્પના કરો.
-
બ્રાયર સ્કોર - સંભાવના ચોકસાઈ માટે યોગ્ય સ્કોરિંગ નિયમ; ઓછું વધુ સારું છે. તે ખાસ કરીને ઉપયોગી છે જ્યારે તમે સંભાવનાની ગુણવત્તાની
ફીલ્ડ નોંધ: થોડું "ખરાબ" પરંતુ ઘણું સારું કેલિબ્રેશન મોટા પ્રમાણમાં સુધારો કરી શકે છે - કારણ કે લોકો આખરે સ્કોર્સ પર વિશ્વાસ કરી શકે છે.
સલામતી, પક્ષપાત અને ન્યાયીપણું - શું મહત્વનું છે તે માપો 🛡️⚖️
એક સિસ્ટમ એકંદરે સચોટ હોઈ શકે છે અને હજુ પણ ચોક્કસ જૂથોને નુકસાન પહોંચાડી શકે છે. જૂથબદ્ધ મેટ્રિક્સ અને ન્યાયીતાના માપદંડોને ટ્રૅક કરો:
-
વસ્તી વિષયક સમાનતા - જૂથોમાં સમાન હકારાત્મક દર.
-
સમાન મતભેદ / સમાન તક - જૂથોમાં સમાન ભૂલ દર અથવા સાચા-સકારાત્મક દર; આનો ઉપયોગ ટ્રેડ-ઓફ શોધવા અને મેનેજ કરવા માટે કરો, એક-શોટ પાસ-ફેલ સ્ટેમ્પ તરીકે નહીં. [5]
વ્યવહારુ ટિપ: ડેશબોર્ડથી શરૂઆત કરો જે મુખ્ય લાક્ષણિકતાઓ દ્વારા મુખ્ય મેટ્રિક્સને કાપી નાખે છે, પછી તમારી નીતિઓની જરૂરિયાત મુજબ ચોક્કસ ન્યાયીતા મેટ્રિક્સ ઉમેરો. તે અસ્પષ્ટ લાગે છે, પરંતુ તે ઘટના કરતાં સસ્તું છે.
LLM અને RAG - એક માપન પ્લેબુક જે ખરેખર કામ કરે છે 📚🔍
જનરેટિવ સિસ્ટમ્સનું માપન કરવું... અઘરું છે. આ કરો:
-
ઉપયોગના કિસ્સામાં પરિણામો વ્યાખ્યાયિત કરો
-
મજબૂત ફ્રેમવર્ક (દા.ત., તમારા સ્ટેકમાં મૂલ્યાંકન ટૂલિંગ) વડે બેઝલાઇન મૂલ્યાંકનને સ્વચાલિત કરો
-
સિમેન્ટીક મેટ્રિક્સ (એમ્બેડિંગ-આધારિત) વત્તા ઓવરલેપ મેટ્રિક્સ (BLEU/ROUGE) ઉમેરો. [4]
-
ઇન્સ્ટ્રુમેન્ટ ગ્રાઉન્ડિંગ : પુનઃપ્રાપ્તિ હિટ રેટ, સંદર્ભ ચોકસાઇ/રિકોલ, જવાબ-સપોર્ટ ઓવરલેપ.
-
માનવ સમીક્ષા સંમતિ સાથે - રેટર સુસંગતતા (દા.ત., કોહેનનું κ અથવા ફ્લીસનું κ) માપો જેથી તમારા લેબલ્સ વાઇબ્સ ન હોય.
બોનસ: લેટન્સી પર્સન્ટાઇલ્સ અને ટોકન લોગ કરો અથવા કાર્ય દીઠ ખર્ચની ગણતરી કરો. આવતા મંગળવારે આવેલો કાવ્યાત્મક જવાબ કોઈને ગમતો નથી.
સરખામણી કોષ્ટક - એવા સાધનો જે તમને AI પ્રદર્શન માપવામાં મદદ કરે છે 🛠️📊
(હા, તે જાણી જોઈને થોડું અવ્યવસ્થિત છે - વાસ્તવિક નોંધો અવ્યવસ્થિત છે.)
| સાધન | શ્રેષ્ઠ પ્રેક્ષકો | કિંમત | તે કેમ કામ કરે છે - ઝડપી લો |
|---|---|---|---|
| સાયકિટ-લર્ન મેટ્રિક્સ | એમએલ પ્રેક્ટિશનરો | મફત | વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ માટે પ્રમાણભૂત અમલીકરણો; પરીક્ષણોમાં પકવવા માટે સરળ. [2] |
| MLflow મૂલ્યાંકન / GenAI | ડેટા વૈજ્ઞાનિકો, MLOps | મફત + ચૂકવેલ | કેન્દ્રીયકૃત રન, ઓટોમેટેડ મેટ્રિક્સ, LLM જજ, કસ્ટમ સ્કોરર્સ; કલાકૃતિઓને સ્વચ્છ રીતે લોગ કરે છે. |
| દેખીતી રીતે | ટીમો ડેશબોર્ડ ઝડપી ઇચ્છે છે | OSS + ક્લાઉડ | ૧૦૦+ મેટ્રિક્સ, ડ્રિફ્ટ અને ગુણવત્તા રિપોર્ટ્સ, મોનિટરિંગ હુક્સ - એક ચપટીમાં સરસ દ્રશ્યો. |
| વજન અને પૂર્વગ્રહો | પ્રયોગો માટે ભારે સંસ્થાઓ | મફત સ્તર | બાજુ-બાજુ સરખામણીઓ, મૂલ્યાંકન ડેટાસેટ્સ, ન્યાયાધીશો; કોષ્ટકો અને ટ્રેસ વ્યવસ્થિત છે. |
| લેંગસ્મિથ | LLM એપ બિલ્ડર્સ | ચૂકવેલ | દરેક પગલાને ટ્રેક કરો, માનવ સમીક્ષાને નિયમ અથવા LLM મૂલ્યાંકનકારો સાથે ભેળવો; RAG માટે ઉત્તમ. |
| ટ્રુલેન્સ | ઓપન-સોર્સ LLM ઇવલ પ્રેમીઓ | ઓએસએસ | પ્રતિભાવ કાર્ય ઝેરીતા, ગ્રાઉન્ડનેસ, સુસંગતતાનો સ્કોર કરવા માટે; ગમે ત્યાં એકીકૃત કરવા માટે. |
| મહાન અપેક્ષાઓ | ડેટા ગુણવત્તા-પ્રથમ સંસ્થાઓ | ઓએસએસ | ડેટા પર અપેક્ષાઓને ઔપચારિક બનાવો - કારણ કે ખરાબ ડેટા કોઈપણ રીતે દરેક મેટ્રિકને બગાડે છે. |
| ડીપચેક્સ | ML માટે પરીક્ષણ અને CI/CD | OSS + ક્લાઉડ | ડેટા ડ્રિફ્ટ, મોડેલ સમસ્યાઓ અને દેખરેખ માટે બેટરી-સમાવેશિત પરીક્ષણ; સારી રેલિંગ. |
કિંમતો બદલાય છે - દસ્તાવેજો તપાસો. અને હા, તમે ટૂલ પોલીસ આવ્યા વિના પણ આને મિક્સ કરી શકો છો.
થ્રેશોલ્ડ, ખર્ચ અને નિર્ણય વળાંક - ગુપ્ત ચટણી 🧪
થ્રેશોલ્ડ અને ખર્ચ ગુણોત્તરના આધારે ખૂબ જ અલગ વ્યવસાયિક મૂલ્ય ધરાવી શકે છે .
બનાવવા માટે ઝડપી શીટ:
-
ખોટા હકારાત્મક વિરુદ્ધ ખોટા નકારાત્મકની કિંમત પૈસા અથવા સમયમાં સેટ કરો.
-
થ્રેશોલ્ડ સ્વીપ કરો અને પ્રતિ 1k નિર્ણય માટે અપેક્ષિત ખર્ચની ગણતરી કરો.
-
ન્યૂનતમ અપેક્ષિત ખર્ચ પસંદ કરો , પછી તેને મોનિટરિંગ સાથે લોક કરો.
જ્યારે ધન દુર્લભ હોય ત્યારે PR વણાંકોનો ઉપયોગ કરો, સામાન્ય આકાર માટે ROC વણાંકોનો ઉપયોગ કરો, અને જ્યારે નિર્ણયો સંભાવનાઓ પર આધાર રાખે છે ત્યારે કેલિબ્રેશન વણાંકોનો ઉપયોગ કરો. [2][3]
મીની-કેસ: સપોર્ટ-ટિકિટ ટ્રાયજ મોડેલ જેમાં સામાન્ય F1 પણ ઉત્તમ કેલિબ્રેશન હોય છે, જે હાર્ડ થ્રેશોલ્ડથી ટાયર્ડ રૂટીંગ (દા.ત., "ઓટો-રિઝોલ્વ," "હ્યુમન-રીવ્યુ," "એસ્કેલેટ") પર સ્વિચ કર્યા પછી મેન્યુઅલ રી-રૂટ્સને કેલિબ્રેટેડ સ્કોર બેન્ડ સાથે જોડે છે.
ઓનલાઈન મોનિટરિંગ, ડ્રિફ્ટ અને એલર્ટિંગ 🚨
ઑફલાઇન મૂલ્યાંકન એ શરૂઆત છે, અંત નથી. ઉત્પાદનમાં:
-
સેગમેન્ટ દ્વારા ઇનપુટ ડ્રિફ્ટ , આઉટપુટ ડ્રિફ્ટ અને પ્રદર્શન સડોને ટ્રૅક કરો
-
રેલિંગ ચેક સેટ કરો - મહત્તમ ભ્રમ દર, ઝેરી થ્રેશોલ્ડ, ફેયરન્સ ડેલ્ટા.
-
p95 લેટન્સી, સમયસમાપ્તિ અને પ્રતિ વિનંતી કિંમત માટે કેનેરી ડેશબોર્ડ ઉમેરો
-
આને ઝડપી બનાવવા માટે હેતુ-નિર્મિત પુસ્તકાલયોનો ઉપયોગ કરો; તેઓ ડ્રિફ્ટ, ગુણવત્તા અને મોનિટરિંગ પ્રિમિટિવ્સ ઓફર કરે છે.
એક નાનો ખામીયુક્ત રૂપક: તમારા મોડેલને ખાટા સ્ટાર્ટર તરીકે વિચારો - તમે ફક્ત એક વાર શેક્યા પછી ચાલ્યા જતા નથી; તમે ખવડાવો છો, જુઓ છો, સુંઘો છો અને ક્યારેક ફરી શરૂ કરો છો.
માનવીય મૂલ્યાંકન જે ક્ષીણ થતું નથી 🍪
જ્યારે લોકો આઉટપુટને ગ્રેડ આપે છે, ત્યારે પ્રક્રિયા તમારા વિચારો કરતાં વધુ મહત્વપૂર્ણ બને છે.
-
પાસ વિ. બોર્ડરલાઇન વિ. ફેલના ઉદાહરણો સાથે ચુસ્ત રૂબ્રિક્સ લખો
-
શક્ય હોય ત્યારે નમૂનાઓને રેન્ડમાઇઝ કરો અને બ્લાઇન્ડ કરો.
-
ઇન્ટર-રેટર કરાર માપો (દા.ત., બે રેટર માટે કોહેનનો κ, ઘણા માટે ફ્લીસનો κ) અને જો કરાર નિષ્ફળ જાય તો રૂબ્રિક્સ તાજું કરો.
આ તમારા માનવ લેબલ્સને મૂડ અથવા કોફી સપ્લાય સાથે બદલાતા અટકાવે છે.
ઊંડાણપૂર્વક તપાસ: RAG માં LLM માટે AI પ્રદર્શન કેવી રીતે માપવું
-
પુનઃપ્રાપ્તિ ગુણવત્તા - recall@k, precision@k, nDCG; સોનાના તથ્યોનું કવરેજ. [2]
-
જવાબની વફાદારી - સાઈટ-એન્ડ-વેરિફાઈ ચેક, ગ્રાઉન્ડનેસ સ્કોર્સ, એડવર્સેરિયલ પ્રોબ્સ.
-
વપરાશકર્તા સંતોષ - અંગૂઠા, કાર્ય પૂર્ણતા, સૂચવેલા ડ્રાફ્ટ્સથી સંપાદનનું અંતર.
-
સલામતી - ઝેરીતા, PII લિકેજ, નીતિ પાલન.
-
કિંમત અને વિલંબ - ટોકન્સ, કેશ હિટ્સ, p95 અને p99 વિલંબ.
આને વ્યવસાયિક ક્રિયાઓ સાથે જોડો: જો ગ્રાઉન્ડનેસ એક રેખાથી નીચે જાય, તો કડક મોડ અથવા માનવ સમીક્ષા પર સ્વતઃ-રૂટ કરો.
આજે જ શરૂઆત કરવા માટે એક સરળ પ્લેબુક 🪄
-
નોકરી વ્યાખ્યાયિત કરો - એક વાક્ય લખો: AI એ શું કરવું જોઈએ અને કોના માટે.
-
2-3 કાર્ય મેટ્રિક્સ પસંદ કરો - વત્તા કેલિબ્રેશન અને ઓછામાં ઓછી એક વાજબીતા સ્લાઇસ. [2][3][5]
-
ખર્ચનો ઉપયોગ કરીને મર્યાદા નક્કી કરો - અનુમાન ન કરો.
-
એક નાનો મૂલ્યાંકન સમૂહ બનાવો - ૧૦૦-૫૦૦ લેબલવાળા ઉદાહરણો જે ઉત્પાદન મિશ્રણને પ્રતિબિંબિત કરે છે.
-
તમારા મૂલ્યાંકન - વાયર મૂલ્યાંકન/મોનિટરિંગને CI માં સ્વચાલિત કરો જેથી દરેક ફેરફાર સમાન તપાસ કરે.
-
ઉત્પાદનમાં મોનિટર કરો - ડ્રિફ્ટ, લેટન્સી, ખર્ચ, ઘટના ફ્લેગ્સ.
-
માસિક ધોરણે કાપણી મેટ્રિક્સની સમીક્ષા કરો જેનો કોઈ ઉપયોગ કરતું નથી; એવા મેટ્રિક્સ ઉમેરો જે વાસ્તવિક પ્રશ્નોના જવાબ આપે છે.
-
દસ્તાવેજના નિર્ણયો - એક જીવંત સ્કોરકાર્ડ જે તમારી ટીમ ખરેખર વાંચે છે.
હા, બસ એટલું જ. અને તે કામ કરે છે.
સામાન્ય ગોટા અને તેમને કેવી રીતે ટાળવા 🕳️🐇
-
એક જ મેટ્રિક પર ઓવરફિટિંગ - નિર્ણય સંદર્ભ સાથે મેળ ખાતી મેટ્રિક બાસ્કેટનો
-
કેલિબ્રેશનને અવગણવું - કેલિબ્રેશન વિના આત્મવિશ્વાસ ફક્ત ગર્વ છે. [3]
-
કોઈ વિભાજન નહીં - હંમેશા વપરાશકર્તા જૂથો, ભૂગોળ, ઉપકરણ, ભાષા દ્વારા કાપો. [5]
-
અનિશ્ચિત ખર્ચ - જો તમે ભૂલોની કિંમત નહીં નક્કી કરો, તો તમે ખોટી થ્રેશોલ્ડ પસંદ કરશો.
-
માનવ મૂલ્યાંકન પ્રવાહ - કરાર માપો, રૂબ્રિક્સ તાજું કરો, સમીક્ષકોને ફરીથી તાલીમ આપો.
-
કોઈ સલામતી સાધન નહીં - ન્યાયીપણું, ઝેરીતા અને નીતિ તપાસ હમણાં ઉમેરો, પછી નહીં. [1][5]
તમે જે વાક્ય માટે આવ્યા છો: AI પ્રદર્શન કેવી રીતે માપવું - ખૂબ લાંબુ, મેં તે વાંચ્યું નથી 🧾
-
સ્પષ્ટ પરિણામોથી શરૂઆત કરો , પછી કાર્ય , સિસ્ટમ અને વ્યવસાય મેટ્રિક્સનો સ્ટેક બનાવો. [1]
-
કાર્ય માટે યોગ્ય મેટ્રિક્સનો ઉપયોગ કરો - વર્ગીકરણ માટે F1 અને ROC-AUC; રેન્કિંગ માટે nDCG/MRR; પેઢી માટે ઓવરલેપ + સિમેન્ટીક મેટ્રિક્સ (માનવો સાથે જોડી). [2][4]
-
માપાંકન કરો અને થ્રેશોલ્ડ પસંદ કરવા માટે તમારી ભૂલોનું મૂલ્યાંકન કરો
-
વાજબીતા ઉમેરો અને સ્પષ્ટ રીતે ટ્રેડ-ઓફનું સંચાલન કરો. [5]
-
મૂલ્યાંકન અને દેખરેખને સ્વચાલિત કરો જેથી તમે ભય વિના પુનરાવર્તન કરી શકો.
તમે જાણો છો કે તે કેવું છે - શું મહત્વનું છે તે માપો, નહીં તો તમે જે મહત્વનું નથી તેમાં સુધારો કરશો.
સંદર્ભ
[1] NIST. AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF). વધુ વાંચો
[2] scikit-learn. મોડેલ મૂલ્યાંકન: આગાહીઓની ગુણવત્તાનું પ્રમાણ નક્કી કરવું (વપરાશકર્તા માર્ગદર્શિકા). વધુ વાંચો
[3] scikit-learn. સંભાવના માપાંકન (કેલિબ્રેશન કર્વ્સ, બ્રાયર સ્કોર). વધુ વાંચો
[4] Papineni et al. (2002). BLEU: મશીન અનુવાદના સ્વચાલિત મૂલ્યાંકન માટેની પદ્ધતિ. ACL. વધુ વાંચો
[5] Hardt, Price, Srebro (2016). દેખરેખ હેઠળ શિક્ષણમાં તકોની સમાનતા. NeurIPS. વધુ વાંચો