AI પ્રદર્શન કેવી રીતે માપવું?

જો તમે ક્યારેય એવું મોડેલ મોકલ્યું હોય જે નોટબુકમાં ચમકતું હોય પણ ઉત્પાદનમાં ઠોકર ખાય, તો તમે પહેલાથી જ રહસ્ય જાણો છો: AI પ્રદર્શનને કેવી રીતે માપવું તે કોઈ જાદુઈ માપદંડ નથી. તે વાસ્તવિક દુનિયાના લક્ષ્યો સાથે જોડાયેલી તપાસની સિસ્ટમ છે. ચોકસાઈ સુંદર છે. વિશ્વસનીયતા, સલામતી અને વ્યવસાયિક અસર વધુ સારી છે.

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 AI સાથે કેવી રીતે વાત કરવી
સતત સારા પરિણામો માટે AI સાથે અસરકારક રીતે વાતચીત કરવા માટેની માર્ગદર્શિકા.

🔗 AI શું પ્રોમ્પ્ટ કરી રહ્યું છે?
સમજાવે છે કે પ્રોમ્પ્ટ્સ AI પ્રતિભાવો અને આઉટપુટ ગુણવત્તાને કેવી રીતે આકાર આપે છે.

🔗 AI ડેટા લેબલિંગ શું છે?
તાલીમ મોડેલો માટે ડેટાને સચોટ લેબલ સોંપવાની ઝાંખી.

🔗 AI નીતિશાસ્ત્ર શું છે?
જવાબદાર AI વિકાસ અને જમાવટને માર્ગદર્શન આપતા નૈતિક સિદ્ધાંતોનો પરિચય.

સારું AI પ્રદર્શન શું બનાવે છે? ✅

ટૂંકું સંસ્કરણ: સારા AI પ્રદર્શનનો અર્થ એ છે કે તમારી સિસ્ટમ ઉપયોગી, વિશ્વસનીય અને અવ્યવસ્થિત, બદલાતી પરિસ્થિતિઓમાં પુનરાવર્તિત થઈ શકે છે. ચોક્કસ રીતે:

કાર્ય ગુણવત્તા - તે યોગ્ય કારણોસર યોગ્ય જવાબો મેળવે છે.
માપાંકન - આત્મવિશ્વાસના સ્કોર વાસ્તવિકતા સાથે મેળ ખાય છે, જેથી તમે સ્માર્ટ પગલાં લઈ શકો.
મજબૂતાઈ - તે ડ્રિફ્ટ, એજ કેસ અને વિરોધી ફઝ હેઠળ ટકી રહે છે.
સલામતી અને ન્યાયીપણું - તે હાનિકારક, પક્ષપાતી અથવા બિન-પાલનકારી વર્તનને ટાળે છે.
કાર્યક્ષમતા - તે પૂરતું ઝડપી, પૂરતું સસ્તું અને મોટા પાયે ચલાવવા માટે પૂરતું સ્થિર છે.
વ્યવસાયિક અસર - તે ખરેખર તમારા માટે મહત્વપૂર્ણ KPI ને ખસેડે છે.

જો તમને મેટ્રિક્સ અને જોખમોને સંરેખિત કરવા માટે ઔપચારિક સંદર્ભ બિંદુ જોઈતું હોય, તો NIST AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક વિશ્વસનીય સિસ્ટમ મૂલ્યાંકન માટે એક મજબૂત ઉત્તર તારો છે. [1]

AI પ્રદર્શન માપવા માટેની ઉચ્ચ-સ્તરીય રેસીપી 🍳

ત્રણ સ્તરોમાં વિચારો :

કાર્ય મેટ્રિક્સ - કાર્ય પ્રકાર માટે શુદ્ધતા: વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ, પેઢી, નિયંત્રણ, વગેરે.
સિસ્ટમ મેટ્રિક્સ - લેટન્સી, થ્રુપુટ, કોલ દીઠ ખર્ચ, નિષ્ફળતા દર, ડ્રિફ્ટ એલાર્મ, અપટાઇમ SLA.
પરિણામ મેટ્રિક્સ - તમે ખરેખર ઇચ્છો છો તે વ્યવસાય અને વપરાશકર્તા પરિણામો: રૂપાંતર, રીટેન્શન, સલામતી ઘટનાઓ, મેન્યુઅલ-સમીક્ષા લોડ, ટિકિટ વોલ્યુમ.

એક મહાન માપન યોજના ઇરાદાપૂર્વક ત્રણેયને મિશ્રિત કરે છે. નહીં તો તમને એક રોકેટ મળે છે જે ક્યારેય લોન્ચપેડ છોડતો નથી.

સમસ્યાના પ્રકાર દ્વારા મુખ્ય મેટ્રિક્સ - અને ક્યારે ઉપયોગ કરવો 🎯

૧) વર્ગીકરણ

ચોકસાઇ, રિકોલ, F1 - દિવસ-પહેલા ત્રિપુટી. F1 એ ચોકસાઇ અને રિકોલનો સુમેળ સરેરાશ છે; જ્યારે વર્ગો અસંતુલિત હોય અથવા ખર્ચ અસમપ્રમાણ હોય ત્યારે ઉપયોગી છે. [2]
ROC-AUC - વર્ગીકરણકર્તાઓનું થ્રેશોલ્ડ-અજ્ઞેયવાદી રેન્કિંગ; જ્યારે હકારાત્મકતા દુર્લભ હોય, ત્યારે PR-AUC નું . [2]
સંતુલિત ચોકસાઈ - વર્ગોમાં રિકોલની સરેરાશ; ત્રાંસી લેબલ્સ માટે ઉપયોગી. [2]

પિટફોલ વોચ: માત્ર ચોકસાઈ જ અસંતુલન સાથે ખૂબ જ ગેરમાર્ગે દોરનારી હોઈ શકે છે. જો 99% વપરાશકર્તાઓ કાયદેસર હોય, તો એક મૂર્ખ હંમેશા કાયદેસર મોડેલ 99% સ્કોર કરે છે અને લંચ પહેલાં તમારી છેતરપિંડી ટીમને નિષ્ફળ બનાવે છે.

૨) રીગ્રેશન

માનવ-સુવાચ્ય ભૂલ માટે MAE મોટી ભૂલોને સજા કરવા માટે RMSE ભિન્નતા માટે
R² (ડોમેન-ફ્રેન્ડલી એકમોનો ઉપયોગ કરો જેથી હિસ્સેદારો ખરેખર ભૂલ અનુભવી શકે.)

૩) રેન્કિંગ, પુનઃપ્રાપ્તિ, ભલામણો

nDCG - સ્થાન અને ક્રમાંકિત સુસંગતતાની કાળજી રાખે છે; શોધ ગુણવત્તા માટે માનક.
MRR - પ્રથમ સંબંધિત વસ્તુ કેટલી ઝડપથી દેખાય છે તેના પર ધ્યાન કેન્દ્રિત કરે છે ("એક સારો જવાબ શોધો" કાર્યો માટે ઉત્તમ).
(અમલીકરણ સંદર્ભો અને કાર્ય કરેલા ઉદાહરણો મુખ્ય પ્રવાહના મેટ્રિક લાઇબ્રેરીઓમાં છે.) [2]

૪) ટેક્સ્ટ જનરેશન અને સારાંશ

BLEU અને ROUGE - ક્લાસિક ઓવરલેપ મેટ્રિક્સ; બેઝલાઇન તરીકે ઉપયોગી.
એમ્બેડિંગ-આધારિત મેટ્રિક્સ (દા.ત., BERTScore ) ઘણીવાર માનવ નિર્ણય સાથે વધુ સારી રીતે સંકળાયેલા હોય છે; શૈલી, વફાદારી અને સલામતી માટે હંમેશા માનવ રેટિંગ્સ સાથે જોડો. [4]

૫) પ્રશ્નનો જવાબ

ચોક્કસ મેચ અને ટોકન-લેવલ F1 સામાન્ય છે; જો જવાબોમાં સ્ત્રોતોનો ઉલ્લેખ કરવો જરૂરી હોય, તો ગ્રાઉન્ડિંગ (જવાબ-સપોર્ટ તપાસ) પણ માપો.

માપાંકન, આત્મવિશ્વાસ અને બ્રાયર લેન્સ 🎚️

આત્મવિશ્વાસ સ્કોર્સ એવી જગ્યા છે જ્યાં ઘણી બધી સિસ્ટમો શાંતિથી રહે છે. તમારે એવી સંભાવનાઓ જોઈએ છે જે વાસ્તવિકતાને પ્રતિબિંબિત કરે છે જેથી ઓપ્સ થ્રેશોલ્ડ, માનવો સુધીનો માર્ગ અથવા ભાવ જોખમ સેટ કરી શકે.

માપાંકન વણાંકો - અનુમાનિત સંભાવના વિરુદ્ધ પ્રયોગમૂલક આવર્તનની કલ્પના કરો.
બ્રાયર સ્કોર - સંભાવના ચોકસાઈ માટે યોગ્ય સ્કોરિંગ નિયમ; ઓછું વધુ સારું છે. તે ખાસ કરીને ઉપયોગી છે જ્યારે તમે સંભાવનાની ગુણવત્તાની

ફીલ્ડ નોંધ: થોડું "ખરાબ" પરંતુ ઘણું સારું કેલિબ્રેશન મોટા પ્રમાણમાં સુધારો કરી શકે છે - કારણ કે લોકો આખરે સ્કોર્સ પર વિશ્વાસ કરી શકે છે.

સલામતી, પક્ષપાત અને ન્યાયીપણું - શું મહત્વનું છે તે માપો 🛡️⚖️

એક સિસ્ટમ એકંદરે સચોટ હોઈ શકે છે અને હજુ પણ ચોક્કસ જૂથોને નુકસાન પહોંચાડી શકે છે. જૂથબદ્ધ મેટ્રિક્સ અને ન્યાયીતાના માપદંડોને ટ્રૅક કરો:

વસ્તી વિષયક સમાનતા - જૂથોમાં સમાન હકારાત્મક દર.
સમાન મતભેદ / સમાન તક - જૂથોમાં સમાન ભૂલ દર અથવા સાચા-સકારાત્મક દર; આનો ઉપયોગ ટ્રેડ-ઓફ શોધવા અને મેનેજ કરવા માટે કરો, એક-શોટ પાસ-ફેલ સ્ટેમ્પ તરીકે નહીં. [5]

વ્યવહારુ ટિપ: ડેશબોર્ડથી શરૂઆત કરો જે મુખ્ય લાક્ષણિકતાઓ દ્વારા મુખ્ય મેટ્રિક્સને કાપી નાખે છે, પછી તમારી નીતિઓની જરૂરિયાત મુજબ ચોક્કસ ન્યાયીતા મેટ્રિક્સ ઉમેરો. તે અસ્પષ્ટ લાગે છે, પરંતુ તે ઘટના કરતાં સસ્તું છે.

LLM અને RAG - એક માપન પ્લેબુક જે ખરેખર કામ કરે છે 📚🔍

જનરેટિવ સિસ્ટમ્સનું માપન કરવું... અઘરું છે. આ કરો:

ઉપયોગના કિસ્સામાં પરિણામો વ્યાખ્યાયિત કરો
મજબૂત ફ્રેમવર્ક (દા.ત., તમારા સ્ટેકમાં મૂલ્યાંકન ટૂલિંગ) વડે બેઝલાઇન મૂલ્યાંકનને સ્વચાલિત કરો
સિમેન્ટીક મેટ્રિક્સ (એમ્બેડિંગ-આધારિત) વત્તા ઓવરલેપ મેટ્રિક્સ (BLEU/ROUGE) ઉમેરો. [4]
ઇન્સ્ટ્રુમેન્ટ ગ્રાઉન્ડિંગ : પુનઃપ્રાપ્તિ હિટ રેટ, સંદર્ભ ચોકસાઇ/રિકોલ, જવાબ-સપોર્ટ ઓવરલેપ.
માનવ સમીક્ષા સંમતિ સાથે - રેટર સુસંગતતા (દા.ત., કોહેનનું κ અથવા ફ્લીસનું κ) માપો જેથી તમારા લેબલ્સ વાઇબ્સ ન હોય.

બોનસ: લેટન્સી પર્સન્ટાઇલ્સ અને ટોકન લોગ કરો અથવા કાર્ય દીઠ ખર્ચની ગણતરી કરો. આવતા મંગળવારે આવેલો કાવ્યાત્મક જવાબ કોઈને ગમતો નથી.

સરખામણી કોષ્ટક - એવા સાધનો જે તમને AI પ્રદર્શન માપવામાં મદદ કરે છે 🛠️📊

(હા, તે જાણી જોઈને થોડું અવ્યવસ્થિત છે - વાસ્તવિક નોંધો અવ્યવસ્થિત છે.)

સાધન	શ્રેષ્ઠ પ્રેક્ષકો	કિંમત	તે કેમ કામ કરે છે - ઝડપી લો
સાયકિટ-લર્ન મેટ્રિક્સ	એમએલ પ્રેક્ટિશનરો	મફત	વર્ગીકરણ, રીગ્રેશન, રેન્કિંગ માટે પ્રમાણભૂત અમલીકરણો; પરીક્ષણોમાં પકવવા માટે સરળ. [2]
MLflow મૂલ્યાંકન / GenAI	ડેટા વૈજ્ઞાનિકો, MLOps	મફત + ચૂકવેલ	કેન્દ્રીયકૃત રન, ઓટોમેટેડ મેટ્રિક્સ, LLM જજ, કસ્ટમ સ્કોરર્સ; કલાકૃતિઓને સ્વચ્છ રીતે લોગ કરે છે.
દેખીતી રીતે	ટીમો ડેશબોર્ડ ઝડપી ઇચ્છે છે	OSS + ક્લાઉડ	૧૦૦+ મેટ્રિક્સ, ડ્રિફ્ટ અને ગુણવત્તા રિપોર્ટ્સ, મોનિટરિંગ હુક્સ - એક ચપટીમાં સરસ દ્રશ્યો.
વજન અને પૂર્વગ્રહો	પ્રયોગો માટે ભારે સંસ્થાઓ	મફત સ્તર	બાજુ-બાજુ સરખામણીઓ, મૂલ્યાંકન ડેટાસેટ્સ, ન્યાયાધીશો; કોષ્ટકો અને ટ્રેસ વ્યવસ્થિત છે.
લેંગસ્મિથ	LLM એપ બિલ્ડર્સ	ચૂકવેલ	દરેક પગલાને ટ્રેક કરો, માનવ સમીક્ષાને નિયમ અથવા LLM મૂલ્યાંકનકારો સાથે ભેળવો; RAG માટે ઉત્તમ.
ટ્રુલેન્સ	ઓપન-સોર્સ LLM ઇવલ પ્રેમીઓ	ઓએસએસ	પ્રતિભાવ કાર્ય ઝેરીતા, ગ્રાઉન્ડનેસ, સુસંગતતાનો સ્કોર કરવા માટે; ગમે ત્યાં એકીકૃત કરવા માટે.
મહાન અપેક્ષાઓ	ડેટા ગુણવત્તા-પ્રથમ સંસ્થાઓ	ઓએસએસ	ડેટા પર અપેક્ષાઓને ઔપચારિક બનાવો - કારણ કે ખરાબ ડેટા કોઈપણ રીતે દરેક મેટ્રિકને બગાડે છે.
ડીપચેક્સ	ML માટે પરીક્ષણ અને CI/CD	OSS + ક્લાઉડ	ડેટા ડ્રિફ્ટ, મોડેલ સમસ્યાઓ અને દેખરેખ માટે બેટરી-સમાવેશિત પરીક્ષણ; સારી રેલિંગ.

કિંમતો બદલાય છે - દસ્તાવેજો તપાસો. અને હા, તમે ટૂલ પોલીસ આવ્યા વિના પણ આને મિક્સ કરી શકો છો.

થ્રેશોલ્ડ, ખર્ચ અને નિર્ણય વળાંક - ગુપ્ત ચટણી 🧪

થ્રેશોલ્ડ અને ખર્ચ ગુણોત્તરના આધારે ખૂબ જ અલગ વ્યવસાયિક મૂલ્ય ધરાવી શકે છે .

બનાવવા માટે ઝડપી શીટ:

ખોટા હકારાત્મક વિરુદ્ધ ખોટા નકારાત્મકની કિંમત પૈસા અથવા સમયમાં સેટ કરો.
થ્રેશોલ્ડ સ્વીપ કરો અને પ્રતિ 1k નિર્ણય માટે અપેક્ષિત ખર્ચની ગણતરી કરો.
ન્યૂનતમ અપેક્ષિત ખર્ચ પસંદ કરો , પછી તેને મોનિટરિંગ સાથે લોક કરો.

જ્યારે ધન દુર્લભ હોય ત્યારે PR વણાંકોનો ઉપયોગ કરો, સામાન્ય આકાર માટે ROC વણાંકોનો ઉપયોગ કરો, અને જ્યારે નિર્ણયો સંભાવનાઓ પર આધાર રાખે છે ત્યારે કેલિબ્રેશન વણાંકોનો ઉપયોગ કરો. [2][3]

મીની-કેસ: સપોર્ટ-ટિકિટ ટ્રાયજ મોડેલ જેમાં સામાન્ય F1 પણ ઉત્તમ કેલિબ્રેશન હોય છે, જે હાર્ડ થ્રેશોલ્ડથી ટાયર્ડ રૂટીંગ (દા.ત., "ઓટો-રિઝોલ્વ," "હ્યુમન-રીવ્યુ," "એસ્કેલેટ") પર સ્વિચ કર્યા પછી મેન્યુઅલ રી-રૂટ્સને કેલિબ્રેટેડ સ્કોર બેન્ડ સાથે જોડે છે.

ઓનલાઈન મોનિટરિંગ, ડ્રિફ્ટ અને એલર્ટિંગ 🚨

ઑફલાઇન મૂલ્યાંકન એ શરૂઆત છે, અંત નથી. ઉત્પાદનમાં:

સેગમેન્ટ દ્વારા ઇનપુટ ડ્રિફ્ટ , આઉટપુટ ડ્રિફ્ટ અને પ્રદર્શન સડોને ટ્રૅક કરો
રેલિંગ ચેક સેટ કરો - મહત્તમ ભ્રમ દર, ઝેરી થ્રેશોલ્ડ, ફેયરન્સ ડેલ્ટા.
p95 લેટન્સી, સમયસમાપ્તિ અને પ્રતિ વિનંતી કિંમત માટે કેનેરી ડેશબોર્ડ ઉમેરો
આને ઝડપી બનાવવા માટે હેતુ-નિર્મિત પુસ્તકાલયોનો ઉપયોગ કરો; તેઓ ડ્રિફ્ટ, ગુણવત્તા અને મોનિટરિંગ પ્રિમિટિવ્સ ઓફર કરે છે.

એક નાનો ખામીયુક્ત રૂપક: તમારા મોડેલને ખાટા સ્ટાર્ટર તરીકે વિચારો - તમે ફક્ત એક વાર શેક્યા પછી ચાલ્યા જતા નથી; તમે ખવડાવો છો, જુઓ છો, સુંઘો છો અને ક્યારેક ફરી શરૂ કરો છો.

માનવીય મૂલ્યાંકન જે ક્ષીણ થતું નથી 🍪

જ્યારે લોકો આઉટપુટને ગ્રેડ આપે છે, ત્યારે પ્રક્રિયા તમારા વિચારો કરતાં વધુ મહત્વપૂર્ણ બને છે.

પાસ વિ. બોર્ડરલાઇન વિ. ફેલના ઉદાહરણો સાથે ચુસ્ત રૂબ્રિક્સ લખો
શક્ય હોય ત્યારે નમૂનાઓને રેન્ડમાઇઝ કરો અને બ્લાઇન્ડ કરો.
ઇન્ટર-રેટર કરાર માપો (દા.ત., બે રેટર માટે કોહેનનો κ, ઘણા માટે ફ્લીસનો κ) અને જો કરાર નિષ્ફળ જાય તો રૂબ્રિક્સ તાજું કરો.

આ તમારા માનવ લેબલ્સને મૂડ અથવા કોફી સપ્લાય સાથે બદલાતા અટકાવે છે.

ઊંડાણપૂર્વક તપાસ: RAG માં LLM માટે AI પ્રદર્શન કેવી રીતે માપવું

પુનઃપ્રાપ્તિ ગુણવત્તા - recall@k, precision@k, nDCG; સોનાના તથ્યોનું કવરેજ. [2]
જવાબની વફાદારી - સાઈટ-એન્ડ-વેરિફાઈ ચેક, ગ્રાઉન્ડનેસ સ્કોર્સ, એડવર્સેરિયલ પ્રોબ્સ.
વપરાશકર્તા સંતોષ - અંગૂઠા, કાર્ય પૂર્ણતા, સૂચવેલા ડ્રાફ્ટ્સથી સંપાદનનું અંતર.
સલામતી - ઝેરીતા, PII લિકેજ, નીતિ પાલન.
કિંમત અને વિલંબ - ટોકન્સ, કેશ હિટ્સ, p95 અને p99 વિલંબ.

આને વ્યવસાયિક ક્રિયાઓ સાથે જોડો: જો ગ્રાઉન્ડનેસ એક રેખાથી નીચે જાય, તો કડક મોડ અથવા માનવ સમીક્ષા પર સ્વતઃ-રૂટ કરો.

આજે જ શરૂઆત કરવા માટે એક સરળ પ્લેબુક 🪄

નોકરી વ્યાખ્યાયિત કરો - એક વાક્ય લખો: AI એ શું કરવું જોઈએ અને કોના માટે.
2-3 કાર્ય મેટ્રિક્સ પસંદ કરો - વત્તા કેલિબ્રેશન અને ઓછામાં ઓછી એક વાજબીતા સ્લાઇસ. [2][3][5]
ખર્ચનો ઉપયોગ કરીને મર્યાદા નક્કી કરો - અનુમાન ન કરો.
એક નાનો મૂલ્યાંકન સમૂહ બનાવો - ૧૦૦-૫૦૦ લેબલવાળા ઉદાહરણો જે ઉત્પાદન મિશ્રણને પ્રતિબિંબિત કરે છે.
તમારા મૂલ્યાંકન - વાયર મૂલ્યાંકન/મોનિટરિંગને CI માં સ્વચાલિત કરો જેથી દરેક ફેરફાર સમાન તપાસ કરે.
ઉત્પાદનમાં મોનિટર કરો - ડ્રિફ્ટ, લેટન્સી, ખર્ચ, ઘટના ફ્લેગ્સ.
માસિક ધોરણે કાપણી મેટ્રિક્સની સમીક્ષા કરો જેનો કોઈ ઉપયોગ કરતું નથી; એવા મેટ્રિક્સ ઉમેરો જે વાસ્તવિક પ્રશ્નોના જવાબ આપે છે.
દસ્તાવેજના નિર્ણયો - એક જીવંત સ્કોરકાર્ડ જે તમારી ટીમ ખરેખર વાંચે છે.

હા, બસ એટલું જ. અને તે કામ કરે છે.

સામાન્ય ગોટા અને તેમને કેવી રીતે ટાળવા 🕳️🐇

એક જ મેટ્રિક પર ઓવરફિટિંગ - નિર્ણય સંદર્ભ સાથે મેળ ખાતી મેટ્રિક બાસ્કેટનો
કેલિબ્રેશનને અવગણવું - કેલિબ્રેશન વિના આત્મવિશ્વાસ ફક્ત ગર્વ છે. [3]
કોઈ વિભાજન નહીં - હંમેશા વપરાશકર્તા જૂથો, ભૂગોળ, ઉપકરણ, ભાષા દ્વારા કાપો. [5]
અનિશ્ચિત ખર્ચ - જો તમે ભૂલોની કિંમત નહીં નક્કી કરો, તો તમે ખોટી થ્રેશોલ્ડ પસંદ કરશો.
માનવ મૂલ્યાંકન પ્રવાહ - કરાર માપો, રૂબ્રિક્સ તાજું કરો, સમીક્ષકોને ફરીથી તાલીમ આપો.
કોઈ સલામતી સાધન નહીં - ન્યાયીપણું, ઝેરીતા અને નીતિ તપાસ હમણાં ઉમેરો, પછી નહીં. [1][5]

તમે જે વાક્ય માટે આવ્યા છો: AI પ્રદર્શન કેવી રીતે માપવું - ખૂબ લાંબુ, મેં તે વાંચ્યું નથી 🧾

સ્પષ્ટ પરિણામોથી શરૂઆત કરો , પછી કાર્ય , સિસ્ટમ અને વ્યવસાય મેટ્રિક્સનો સ્ટેક બનાવો. [1]
કાર્ય માટે યોગ્ય મેટ્રિક્સનો ઉપયોગ કરો - વર્ગીકરણ માટે F1 અને ROC-AUC; રેન્કિંગ માટે nDCG/MRR; પેઢી માટે ઓવરલેપ + સિમેન્ટીક મેટ્રિક્સ (માનવો સાથે જોડી). [2][4]
માપાંકન કરો અને થ્રેશોલ્ડ પસંદ કરવા માટે તમારી ભૂલોનું મૂલ્યાંકન કરો
વાજબીતા ઉમેરો અને સ્પષ્ટ રીતે ટ્રેડ-ઓફનું સંચાલન કરો. [5]
મૂલ્યાંકન અને દેખરેખને સ્વચાલિત કરો જેથી તમે ભય વિના પુનરાવર્તન કરી શકો.

તમે જાણો છો કે તે કેવું છે - શું મહત્વનું છે તે માપો, નહીં તો તમે જે મહત્વનું નથી તેમાં સુધારો કરશો.

સંદર્ભ

[1] NIST. AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF). વધુ વાંચો
[2] scikit-learn. મોડેલ મૂલ્યાંકન: આગાહીઓની ગુણવત્તાનું પ્રમાણ નક્કી કરવું (વપરાશકર્તા માર્ગદર્શિકા). વધુ વાંચો
[3] scikit-learn. સંભાવના માપાંકન (કેલિબ્રેશન કર્વ્સ, બ્રાયર સ્કોર). વધુ વાંચો
[4] Papineni et al. (2002). BLEU: મશીન અનુવાદના સ્વચાલિત મૂલ્યાંકન માટેની પદ્ધતિ. ACL. વધુ વાંચો
[5] Hardt, Price, Srebro (2016). દેખરેખ હેઠળ શિક્ષણમાં તકોની સમાનતા. NeurIPS. વધુ વાંચો

અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા

દેશ/પ્રદેશ