જો તમે AI સિસ્ટમ્સ બનાવી રહ્યા છો, ખરીદી રહ્યા છો, અથવા ફક્ત તેનું મૂલ્યાંકન કરી રહ્યા છો, તો તમને એક ભ્રામક સરળ પ્રશ્નનો સામનો કરવો પડશે અને તે છે કે AI ડેટાસેટ શું છે અને તે શા માટે આટલું મહત્વનું છે? ટૂંકું સંસ્કરણ: તે તમારા મોડેલ માટે બળતણ, કુકબુક અને ક્યારેક હોકાયંત્ર છે.
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI વલણોની આગાહી કેવી રીતે કરે છે
ભવિષ્યની ઘટનાઓ અને વર્તણૂકોની આગાહી કરવા માટે AI પેટર્નનું વિશ્લેષણ કેવી રીતે કરે છે તેનું અન્વેષણ કરે છે.
🔗 AI પ્રદર્શન કેવી રીતે માપવું
ચોકસાઈ, કાર્યક્ષમતા અને મોડેલ વિશ્વસનીયતાનું મૂલ્યાંકન કરવા માટેના માપદંડો અને પદ્ધતિઓ.
🔗 AI સાથે કેવી રીતે વાત કરવી
AI-જનરેટેડ પ્રતિભાવોને સુધારવા માટે વધુ સારી ક્રિયાપ્રતિક્રિયાઓ બનાવવા માટે માર્ગદર્શન.
🔗 AI શું પ્રોમ્પ્ટ કરી રહ્યું છે?
પ્રોમ્પ્ટ્સ AI આઉટપુટ અને એકંદર સંચાર ગુણવત્તાને કેવી રીતે આકાર આપે છે તેનો ઝાંખી.
AI ડેટાસેટ શું છે? એક ઝડપી વ્યાખ્યા 🧩
AI ડેટાસેટ શું છે? તે એવા ઉદાહરણોનો સંગ્રહ જેમાંથી તમારું મોડેલ શીખે છે અથવા તેનું મૂલ્યાંકન કરવામાં આવે છે. દરેક ઉદાહરણમાં છે:
-
ઇનપુટ્સ - મોડેલ જે સુવિધાઓ જુએ છે, જેમ કે ટેક્સ્ટ સ્નિપેટ્સ, છબીઓ, ઑડિઓ, ટેબ્યુલર પંક્તિઓ, સેન્સર રીડિંગ્સ, ગ્રાફ.
-
લક્ષ્યો - મોડેલ દ્વારા આગાહી કરાયેલા લેબલ્સ અથવા પરિણામો, જેમ કે શ્રેણીઓ, સંખ્યાઓ, ટેક્સ્ટનો વિસ્તાર, ક્રિયાઓ, અથવા ક્યારેક કંઈ જ નહીં.
-
મેટાડેટા - સંદર્ભ જેમ કે સ્રોત, સંગ્રહ પદ્ધતિ, ટાઇમસ્ટેમ્પ, લાઇસન્સ, સંમતિ માહિતી અને ગુણવત્તા પર નોંધો.
તમારા મોડેલ માટે કાળજીપૂર્વક પેક કરેલા લંચબોક્સ જેવું વિચારો: ઘટકો, લેબલ્સ, પોષણ તથ્યો, અને હા, "આ ભાગ ન ખાઓ" કહેતી સ્ટીકી નોટ. 🍱
દેખરેખ હેઠળના કાર્યો માટે, તમને સ્પષ્ટ લેબલ્સ સાથે જોડી બનાવેલા ઇનપુટ્સ દેખાશે. દેખરેખ હેઠળ ન હોય તેવા કાર્યો માટે, તમને લેબલ્સ વિના ઇનપુટ્સ દેખાશે. મજબૂતીકરણ શિક્ષણ માટે, ડેટા ઘણીવાર સ્થિતિઓ, ક્રિયાઓ, પુરસ્કારો સાથે એપિસોડ અથવા માર્ગ જેવો દેખાય છે. મલ્ટિમોડલ કાર્ય માટે, ઉદાહરણો એક જ રેકોર્ડમાં ટેક્સ્ટ + છબી + ઑડિઓને જોડી શકે છે. ફેન્સી લાગે છે; મોટે ભાગે પ્લમ્બિંગ છે.
ઉપયોગી પ્રાઇમર્સ અને પ્રથાઓ: ડેટાસેટ્સ માટે ડેટાશીટ્સનો વિચાર ટીમોને અંદર શું છે અને તેનો ઉપયોગ કેવી રીતે કરવો જોઈએ તે સમજાવવામાં મદદ કરે છે [1], અને મોડેલ કાર્ડ્સ મોડેલ બાજુ પર ડેટા દસ્તાવેજીકરણને પૂરક બનાવે છે [2].

સારો AI ડેટાસેટ શું બનાવે છે ✅
ચાલો પ્રમાણિક રહીએ, ઘણા મોડેલો સફળ થાય છે કારણ કે ડેટાસેટ ખરાબ ન હતો. "સારો" ડેટાસેટ છે:
-
ફક્ત પ્રયોગશાળાની પરિસ્થિતિઓ જ નહીં, પરંતુ વાસ્તવિક ઉપયોગના કિસ્સાઓનું પ્રતિનિધિત્વ કરે છે
-
સચોટ રીતે લેબલ થયેલ . કરાર મેટ્રિક્સ (દા.ત., કપ્પા-શૈલીના માપદંડ) સુસંગતતા તપાસવામાં મદદ કરે છે.
-
સંપૂર્ણ અને સંતુલિત . અસંતુલન સામાન્ય છે; બેદરકારી નથી.
-
મૂળ સ્થાને સ્પષ્ટ , સંમતિ, લાઇસન્સ અને પરવાનગીઓ દસ્તાવેજીકૃત. કંટાળાજનક કાગળકામ ઉત્તેજક મુકદ્દમાઓને અટકાવે છે.
-
સારી રીતે દસ્તાવેજીકૃત કરેલ છે જે હેતુપૂર્વક ઉપયોગ, મર્યાદાઓ અને જાણીતા નિષ્ફળતા મોડ્સ [1] ને સ્પષ્ટ કરે છે.
-
સંચાલિત . જો તમે ડેટાસેટનું પુનઃઉત્પાદન કરી શકતા નથી, તો તમે મોડેલનું પુનઃઉત્પાદન કરી શકતા નથી. NIST ના AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્કનું ડેટા ગુણવત્તા અને દસ્તાવેજીકરણને પ્રથમ-વર્ગની ચિંતાઓ તરીકે ગણે છે [3].
તમે શું કરી રહ્યા છો તેના આધારે AI ડેટાસેટ્સનાં પ્રકારો 🧰
કાર્ય દ્વારા
-
વર્ગીકરણ - દા.ત., સ્પામ વિરુદ્ધ સ્પામ નહીં, છબી શ્રેણીઓ.
-
રીગ્રેશન - કિંમત અથવા તાપમાન જેવા સતત મૂલ્યની આગાહી કરો.
-
ક્રમ લેબલિંગ - નામવાળી એન્ટિટી, વાણીના ભાગો.
-
પેઢી - સારાંશ, અનુવાદ, છબી કૅપ્શનિંગ.
-
ભલામણ - વપરાશકર્તા, વસ્તુ, ક્રિયાપ્રતિક્રિયાઓ, સંદર્ભ.
-
અસંગતતા શોધ - સમય શ્રેણી અથવા લોગમાં દુર્લભ ઘટનાઓ.
-
મજબૂતીકરણ શિક્ષણ - સ્થિતિ, ક્રિયા, પુરસ્કાર, આગામી-અવસ્થા ક્રમ.
-
પુનઃપ્રાપ્તિ - દસ્તાવેજો, પ્રશ્નો, સુસંગતતા ચુકાદાઓ.
પદ્ધતિ દ્વારા
-
કોષ્ટક - ઉંમર, આવક, મંથન જેવા સ્તંભો. ઓછું આંકવામાં આવ્યું, ક્રૂર રીતે અસરકારક.
-
ટેક્સ્ટ - દસ્તાવેજો, ચેટ્સ, કોડ, ફોરમ પોસ્ટ્સ, ઉત્પાદન વર્ણનો.
-
છબીઓ - ફોટા, તબીબી સ્કેન, સેટેલાઇટ ટાઇલ્સ; માસ્ક, બોક્સ, કીપોઇન્ટ સાથે અથવા વગર.
-
ઑડિઓ - વેવફોર્મ્સ, ટ્રાન્સક્રિપ્ટ્સ, સ્પીકર ટૅગ્સ.
-
વિડિઓ - ફ્રેમ્સ, ટેમ્પોરલ એનોટેશન્સ, એક્શન લેબલ્સ.
-
આલેખ - ગાંઠો, ધાર, વિશેષતાઓ.
-
સમય શ્રેણી - સેન્સર, ફાઇનાન્સ, ટેલિમેટ્રી.
દેખરેખ દ્વારા
-
લેબલ થયેલ (સોનું, ચાંદી, ઓટો-લેબલ થયેલ), નબળા લેબલ થયેલ , લેબલ વગરનું , સિન્થેટિક . સ્ટોરમાંથી ખરીદેલ કેક મિક્સ યોગ્ય હોઈ શકે છે - જો તમે બોક્સ વાંચો.
બોક્સની અંદર: માળખું, વિભાજન અને મેટાડેટા 📦
એક મજબૂત ડેટાસેટમાં સામાન્ય રીતે શામેલ હોય છે:
-
સ્કીમા - ટાઇપ કરેલા ફીલ્ડ્સ, એકમો, માન્ય મૂલ્યો, નલ હેન્ડલિંગ.
-
વિભાજન - તાલીમ, માન્યતા, પરીક્ષણ. પરીક્ષણ ડેટા સીલબંધ રાખો - તેને ચોકલેટના છેલ્લા ટુકડાની જેમ માનો.
-
નમૂના યોજના - તમે વસ્તીમાંથી ઉદાહરણો કેવી રીતે દોર્યા; એક પ્રદેશ અથવા ઉપકરણમાંથી સુવિધાજનક નમૂનાઓ ટાળો.
-
વધારો - ઉલટાવો, પાક, અવાજ, શબ્દસમૂહો, માસ્ક. પ્રામાણિક હોય ત્યારે સારું; જ્યારે તેઓ એવા પેટર્ન શોધે છે જે જંગલમાં ક્યારેય બનતા નથી ત્યારે નુકસાનકારક.
-
વર્ઝનિંગ - ડેટાસેટ v0.1, v0.2… ડેલ્ટાનું વર્ણન કરતા ચેન્જલોગ સાથે.
-
લાઇસન્સ અને સંમતિ - ઉપયોગ અધિકારો, પુનઃવિતરણ અને કાઢી નાખવાના પ્રવાહ. રાષ્ટ્રીય ડેટા-સુરક્ષા નિયમનકારો (દા.ત., યુકે ICO) વ્યવહારુ, કાયદેસર-પ્રક્રિયા ચેકલિસ્ટ્સ પ્રદાન કરે છે [4].
ડેટાસેટ જીવનચક્ર, પગલું દ્વારા પગલું 🔁
-
નિર્ણયને વ્યાખ્યાયિત કરો - મોડેલ શું નિર્ણય લેશે, અને જો તે ખોટો હશે તો શું થશે.
-
કાર્યક્ષેત્રની વિશેષતાઓ અને લેબલ્સ - માપી શકાય તેવા, અવલોકનક્ષમ, એકત્રિત કરવા માટે નૈતિક.
-
સ્રોત ડેટા - સાધનો, લોગ, સર્વેક્ષણો, જાહેર કોર્પોરેશન, ભાગીદારો.
-
સંમતિ અને કાનૂની - ગોપનીયતા સૂચનાઓ, નાપસંદગી, ડેટા ન્યૂનતમકરણ. "શા માટે" અને "કેવી રીતે" [4] માટે નિયમનકાર માર્ગદર્શિકા જુઓ.
-
એકત્રિત કરો અને સંગ્રહ કરો - સુરક્ષિત સંગ્રહ, ભૂમિકા-આધારિત ઍક્સેસ, PII હેન્ડલિંગ.
-
લેબલ - આંતરિક ટીકાકારો, ક્રાઉડસોર્સિંગ, નિષ્ણાતો; ગોલ્ડ ટાસ્ક, ઓડિટ અને કરાર મેટ્રિક્સ સાથે ગુણવત્તાનું સંચાલન કરો.
-
સાફ કરો અને સામાન્ય બનાવો - ખોટા કામો દૂર કરો, ખોવાઈ જવાથી બચાવો, એકમોને પ્રમાણિત કરો, એન્કોડિંગ ઠીક કરો. કંટાળાજનક, પરાક્રમી કાર્ય.
-
વિભાજીત કરો અને માન્ય કરો - લીકેજ અટકાવો; જ્યાં સંબંધિત હોય ત્યાં સ્તરીકરણ કરો; ટેમ્પોરલ ડેટા માટે સમય-જાગૃત વિભાજનને પ્રાધાન્ય આપો; અને મજબૂત અંદાજો માટે વિચારપૂર્વક ક્રોસ-માન્યતાનો ઉપયોગ કરો [5].
-
દસ્તાવેજ - ડેટાશીટ અથવા ડેટા કાર્ડ; હેતુપૂર્વક ઉપયોગ, ચેતવણીઓ, મર્યાદાઓ [1].
-
મોનિટર અને અપડેટ - ડ્રિફ્ટ ડિટેક્શન, રિફ્રેશ કેડન્સ, સનસેટ પ્લાન. NIST નું AI RMF આ ચાલુ ગવર્નન્સ લૂપને ફ્રેમ કરે છે [3].
ઝડપી, વાસ્તવિક દુનિયાના આકારની ટિપ: ટીમો ઘણીવાર "ડેમો જીતે છે" પરંતુ ઉત્પાદનમાં ઠોકર ખાય છે કારણ કે તેમનો ડેટાસેટ શાંતિથી ડ્રિફ્ટ થાય છે - નવી પ્રોડક્ટ લાઇન, નામ બદલાયેલ ક્ષેત્ર, અથવા બદલાયેલી નીતિ. એક સરળ ચેન્જલોગ + સામયિક રી-એનોટેશન પાસ તે મોટાભાગની પીડાને ટાળે છે.
ડેટા ગુણવત્તા અને મૂલ્યાંકન - લાગે તેટલું કંટાળાજનક નથી 🧪
ગુણવત્તા બહુ-પરિમાણીય છે:
-
ચોકસાઈ - શું લેબલ્સ યોગ્ય છે? કરાર મેટ્રિક્સ અને સમયાંતરે નિર્ણયનો ઉપયોગ કરો.
-
સંપૂર્ણતા - તમને ખરેખર જરૂરી ક્ષેત્રો અને વર્ગોને આવરી લો.
-
સુસંગતતા - સમાન ઇનપુટ્સ માટે વિરોધાભાસી લેબલ્સ ટાળો.
-
સમયસરતા - જૂનો ડેટા ધારણાઓને અશ્મિભૂત બનાવે છે.
-
ન્યાયીપણું અને પૂર્વગ્રહ - વસ્તી વિષયક, ભાષાઓ, ઉપકરણો, વાતાવરણમાં કવરેજ; વર્ણનાત્મક ઓડિટથી શરૂઆત કરો, પછી તણાવ પરીક્ષણો. દસ્તાવેજીકરણ-પ્રથમ પ્રથાઓ (ડેટાશીટ્સ, મોડેલ કાર્ડ્સ) આ તપાસોને દૃશ્યમાન બનાવે છે [1], અને શાસન માળખા તેમને જોખમ નિયંત્રણો તરીકે ભાર મૂકે છે [3].
મોડેલ મૂલ્યાંકન માટે, યોગ્ય વિભાજનનો અને સરેરાશ મેટ્રિક્સ અને સૌથી ખરાબ-જૂથ મેટ્રિક્સ બંનેને ટ્રૅક કરો. એક ચળકતી સરેરાશ ખાડાને છુપાવી શકે છે. ક્રોસ-વેલિડેશન બેઝિક્સ પ્રમાણભૂત ML ટૂલિંગ દસ્તાવેજો [5] માં સારી રીતે આવરી લેવામાં આવ્યા છે.
નીતિશાસ્ત્ર, ગોપનીયતા અને લાઇસન્સિંગ - રેલિંગ 🛡️
નૈતિક ડેટા કોઈ વાઈબ નથી, તે એક પ્રક્રિયા છે:
-
સંમતિ અને હેતુ મર્યાદા - ઉપયોગો અને કાનૂની આધારો વિશે સ્પષ્ટ રહો [4].
-
PII હેન્ડલિંગ - યોગ્ય હોય ત્યાં સુધી નાનું કરો, છુપાયેલા નામ આપો અથવા અનામી બનાવો; જ્યારે જોખમો વધારે હોય ત્યારે ગોપનીયતા વધારતી તકનીકનો વિચાર કરો.
-
એટ્રિબ્યુશન અને લાઇસન્સ - શેર-એલાઈક અને વાણિજ્યિક-ઉપયોગ પ્રતિબંધોનું પાલન કરો.
-
પૂર્વગ્રહ અને નુકસાન - બનાવટી સહસંબંધો માટે ઓડિટ ("દિવસનો પ્રકાશ = સલામત" રાત્રે ખૂબ જ મૂંઝવણભર્યું રહેશે).
-
રિડ્રેસ - વિનંતી પર ડેટા કેવી રીતે દૂર કરવો અને તેના પર તાલીમ પામેલા મોડેલોને કેવી રીતે રોલ બેક કરવા તે જાણો (આ તમારી ડેટાશીટમાં દસ્તાવેજીકૃત કરો) [1].
કેટલું મોટું એટલે પૂરતું મોટું? કદ બદલવાનું અને સિગ્નલ-ટુ-નોઈઝ 📏
નિયમ પ્રમાણે: જો સંબંધિત હોય અને લગભગ ડુપ્લિકેટ ન હોય તો વધુ ઉદાહરણો સામાન્ય રીતે મદદ કરે છે. પરંતુ ક્યારેક તમે ગંદા નમૂનાઓ કરતાં ઓછા, સ્વચ્છ, વધુ સારી રીતે લેબલવાળા
ધ્યાન રાખો:
-
શીખવાના વળાંકો - પ્લોટ પ્રદર્શન વિરુદ્ધ નમૂનાનું કદ, તમે ડેટા-બાઉન્ડ છો કે મોડેલ-બાઉન્ડ, તે જોવા માટે.
-
લાંબી પૂંછડીનું કવરેજ - દુર્લભ પરંતુ મહત્વપૂર્ણ વર્ગોને ઘણીવાર લક્ષિત સંગ્રહની જરૂર હોય છે, ફક્ત વધુ જથ્થાબંધ નહીં.
-
લેબલ અવાજ - માપો, પછી ઘટાડો; થોડું સહન કરી શકાય છે, ભરતી-ઓટના મોજા સહન કરી શકાતા નથી.
-
વિતરણ શિફ્ટ - એક પ્રદેશ અથવા ચેનલમાંથી તાલીમ ડેટા બીજા પ્રદેશમાં સામાન્ય ન પણ થઈ શકે; લક્ષ્ય જેવા પરીક્ષણ ડેટા પર માન્ય કરો [5].
જ્યારે શંકા હોય, ત્યારે નાના પાયલોટ ચલાવો અને વિસ્તૃત કરો. તે મસાલા જેવું છે - ઉમેરો, સ્વાદ લો, ગોઠવો, પુનરાવર્તન કરો.
ડેટાસેટ્સ ક્યાં શોધવા અને મેનેજ કરવા 🗂️
લોકપ્રિય સંસાધનો અને ટૂલિંગ (હમણાં URL યાદ રાખવાની જરૂર નથી):
-
હગિંગ ફેસ ડેટાસેટ્સ - પ્રોગ્રામેટિક લોડિંગ, પ્રોસેસિંગ, શેરિંગ.
-
ગુગલ ડેટાસેટ શોધ - સમગ્ર વેબ પર મેટા-સર્ચ.
-
UCI ML રિપોઝીટરી - બેઝલાઇન અને શિક્ષણ માટે ક્યુરેટેડ ક્લાસિક્સ.
-
ઓપનએમએલ - કાર્યો + ડેટાસેટ્સ + મૂળ સાથે ચાલે છે.
-
AWS ઓપન ડેટા / ગૂગલ ક્લાઉડ પબ્લિક ડેટાસેટ્સ - હોસ્ટેડ, મોટા પાયે કોર્પોરા.
પ્રો ટિપ: ફક્ત ડાઉનલોડ ન કરો. લાઇસન્સ અને ડેટાશીટ વાંચો , પછી વર્ઝન નંબર અને ઉદ્ભવસ્થાન [1] સાથે તમારી પોતાની નકલ દસ્તાવેજ કરો.
લેબલિંગ અને ટીકા - જ્યાં સત્યની વાટાઘાટો થાય છે ✍️
ટીકા એ છે જ્યાં તમારી સૈદ્ધાંતિક લેબલ માર્ગદર્શિકા વાસ્તવિકતા સાથે કુસ્તી કરે છે:
-
કાર્ય ડિઝાઇન - ઉદાહરણો અને પ્રતિ-ઉદાહરણો સાથે સ્પષ્ટ સૂચનાઓ લખો.
-
એનોટેટર તાલીમ - સુવર્ણ જવાબો સાથે બીજ, કેલિબ્રેશન રાઉન્ડ ચલાવો.
-
ગુણવત્તા નિયંત્રણ - કરાર મેટ્રિક્સ, સર્વસંમતિ પદ્ધતિઓ અને સમયાંતરે ઓડિટનો ઉપયોગ કરો.
-
ટૂલિંગ - એવા ટૂલ્સ પસંદ કરો જે સ્કીમા માન્યતા અને સમીક્ષા કતારોને લાગુ કરે; સ્પ્રેડશીટ્સ પણ નિયમો અને તપાસ સાથે કામ કરી શકે છે.
-
પ્રતિસાદ લૂપ્સ - માર્ગદર્શિકાને સુધારવા માટે ટીકાકાર નોંધો અને મોડેલ ભૂલો કેપ્ચર કરો.
જો અલ્પવિરામ વિશે અસંમત હોય તેવા ત્રણ મિત્રો સાથે શબ્દકોશ સંપાદિત કરવા જેવું લાગે તો... તે સામાન્ય છે. 🙃
ડેટા દસ્તાવેજીકરણ - ગર્ભિત જ્ઞાનને સ્પષ્ટ બનાવવું 📒
હળવા વજનના ડેટાશીટ અથવા ડેટા કાર્ડમાં આ બાબતો આવરી લેવી જોઈએ:
-
કોણે, કેવી રીતે અને શા માટે એકત્રિત કર્યું.
-
હેતુપૂર્વકના ઉપયોગો અને અવકાશ બહારના ઉપયોગો.
-
જાણીતા ગાબડા, પૂર્વગ્રહો અને નિષ્ફળતા સ્થિતિઓ.
-
લેબલિંગ પ્રોટોકોલ, QA પગલાં અને કરારના આંકડા.
-
લાઇસન્સ, સંમતિ, સમસ્યાઓ માટે સંપર્ક, દૂર કરવાની પ્રક્રિયા.
નમૂનાઓ અને ઉદાહરણો: ડેટાસેટ્સ અને મોડેલ કાર્ડ્સ વ્યાપકપણે ઉપયોગ પ્રારંભિક બિંદુઓ [1] તરીકે થાય છે.
બનાવતી વખતે લખો, પછી નહીં. મેમરી એક અસ્થિર સંગ્રહ માધ્યમ છે.
સરખામણી કોષ્ટક - AI ડેટાસેટ્સ શોધવા અથવા હોસ્ટ કરવા માટેના સ્થળો 📊
હા, આ થોડું અભિપ્રાયાત્મક છે. અને શબ્દો જાણી જોઈને થોડા અસમાન છે. તે ઠીક છે.
| ટૂલ / રેપો | પ્રેક્ષક | કિંમત | તે વ્યવહારમાં કેમ કામ કરે છે |
|---|---|---|---|
| આલિંગન ચહેરા ડેટાસેટ્સ | સંશોધકો, ઇજનેરો | ફ્રી-ટાયર | ઝડપી લોડિંગ, સ્ટ્રીમિંગ, સમુદાય સ્ક્રિપ્ટો; ઉત્તમ દસ્તાવેજો; સંસ્કરણિત ડેટાસેટ્સ |
| ગૂગલ ડેટાસેટ શોધ | દરેક વ્યક્તિ | મફત | પહોળો સપાટી વિસ્તાર; શોધ માટે ઉત્તમ; ક્યારેક અસંગત મેટાડેટા પણ |
| UCI ML રિપોઝીટરી | વિદ્યાર્થીઓ, શિક્ષકો | મફત | ક્યુરેટેડ ક્લાસિક્સ; નાના પણ વ્યવસ્થિત; બેઝલાઇન અને શિક્ષણ માટે સારા |
| ઓપનએમએલ | રેપ્રો સંશોધકો | મફત | કાર્યો + ડેટાસેટ્સ + એકસાથે ચાલે છે; ઉત્પત્તિના સારા રસ્તાઓ |
| AWS ઓપન ડેટા રજિસ્ટ્રી | ડેટા એન્જિનિયર્સ | મોટે ભાગે મફત | પેટાબાઇટ-સ્કેલ હોસ્ટિંગ; ક્લાઉડ-નેટિવ એક્સેસ; ઘડિયાળના બહાર નીકળવાના ખર્ચ |
| કાગલ ડેટાસેટ્સ | પ્રેક્ટિશનર્સ | મફત | સરળ શેરિંગ, સ્ક્રિપ્ટો, સ્પર્ધાઓ; સમુદાય સંકેતો અવાજને ફિલ્ટર કરવામાં મદદ કરે છે |
| ગૂગલ ક્લાઉડ પબ્લિક ડેટાસેટ્સ | વિશ્લેષકો, ટીમો | ફ્રી + ક્લાઉડ | કમ્પ્યુટની નજીક હોસ્ટ કરેલ; BigQuery એકીકરણ; બિલિંગમાં સાવચેત રહો |
| શૈક્ષણિક પોર્ટલ, પ્રયોગશાળાઓ | વિશિષ્ટ નિષ્ણાતો | બદલાય છે | ખૂબ જ વિશેષજ્ઞ; ક્યારેક ઓછા દસ્તાવેજીકૃત - હજુ પણ શોધ કરવા યોગ્ય |
(જો કોઈ સેલ બોલકા લાગે છે, તો તે જાણી જોઈને કરવામાં આવ્યું છે.)
તમારું પહેલું બનાવી રહ્યા છીએ - એક વ્યવહારુ સ્ટાર્ટર કીટ 🛠️
તમે "AI ડેટાસેટ શું છે" થી "મેં એક બનાવ્યું, તે કામ કરે છે" માં જવા માંગો છો. આ ન્યૂનતમ રસ્તો અજમાવો:
-
નિર્ણય અને મેટ્રિક લખો - દા.ત., યોગ્ય ટીમની આગાહી કરીને ઇનકમિંગ સપોર્ટ મિસરૂટ્સ ઘટાડો. મેટ્રિક: મેક્રો-F1.
-
5 સકારાત્મક અને 5 નકારાત્મક ઉદાહરણોની યાદી બનાવો - વાસ્તવિક ટિકિટોનો નમૂનો લો; બનાવટી ન બનાવો.
-
લેબલ માર્ગદર્શિકાનો મુસદ્દો તૈયાર કરો - એક પાનું; સ્પષ્ટ સમાવેશ/બાકાત નિયમો.
-
એક નાનો, વાસ્તવિક નમૂનો એકત્રિત કરો - શ્રેણીઓમાં થોડીક સો ટિકિટો; તમને જરૂર ન હોય તેવી PII દૂર કરો.
-
લીકેજ ચેક સાથે વિભાજીત કરો - એક જ ગ્રાહકના બધા સંદેશાઓ એક જ વિભાજનમાં રાખો; વેરિઅન્સનો અંદાજ કાઢવા માટે ક્રોસ-વેલિડેશનનો ઉપયોગ કરો [5].
-
QA સાથે ટીકા કરો - સબસેટ પર બે ટીકાકારો; મતભેદો ઉકેલો; માર્ગદર્શિકા અપડેટ કરો.
-
એક સરળ બેઝલાઇન તાલીમ આપો - પહેલા લોજિસ્ટિક્સ (દા.ત., રેખીય મોડેલ અથવા કોમ્પેક્ટ ટ્રાન્સફોર્મર્સ). મુદ્દો ડેટાનું પરીક્ષણ કરવાનો છે, મેડલ જીતવાનો નહીં.
-
ભૂલોની સમીક્ષા કરો - તે ક્યાં નિષ્ફળ જાય છે અને શા માટે; ફક્ત મોડેલ જ નહીં, ડેટાસેટ અપડેટ કરો.
-
દસ્તાવેજ - નાનું ડેટાશીટ: સ્રોત, લેબલ માર્ગદર્શિકા લિંક, વિભાજન, જાણીતી મર્યાદાઓ, લાઇસન્સ [1].
-
પ્લાન રિફ્રેશ - નવી શ્રેણીઓ, નવી ભાષા, નવા ડોમેન્સ આવે છે; નાના, વારંવાર અપડેટ્સનું સમયપત્રક બનાવો [3].
તમે આ લૂપમાંથી હજારો હોટ ટેક કરતાં વધુ શીખી શકશો. ઉપરાંત, બેકઅપ રાખો. કૃપા કરીને.
ટીમોમાં છુપાઈને આવતી સામાન્ય મુશ્કેલીઓ 🪤
-
ડેટા લીકેજ - જવાબ સુવિધાઓમાં સરકી જાય છે (દા.ત., પરિણામોની આગાહી કરવા માટે પોસ્ટ-રિઝોલ્યુશન ફીલ્ડનો ઉપયોગ કરવો). છેતરપિંડી જેવું લાગે છે કારણ કે તે છેતરપિંડી છે.
-
છીછરી વિવિધતા - એક ભૂગોળ અથવા ઉપકરણ વૈશ્વિક હોવાનો ઢોંગ કરે છે. પરીક્ષણો પ્લોટના વળાંકને જાહેર કરશે.
-
લેબલ ડ્રિફ્ટ - સમય જતાં માપદંડ બદલાય છે પણ લેબલ માર્ગદર્શિકા બદલાતી નથી. તમારા ઓન્ટોલોજીનું દસ્તાવેજીકરણ અને સંસ્કરણ કરો.
-
ઓછા સ્પષ્ટ ઉદ્દેશ્યો - જો તમે ખરાબ આગાહી વ્યાખ્યાયિત કરી શકતા નથી, તો તમારો ડેટા પણ નહીં.
-
અવ્યવસ્થિત લાઇસન્સ - હમણાં સ્ક્રેપ કરવું, પછી માફી માંગવી, એ કોઈ વ્યૂહરચના નથી.
-
ઓવર-ઓગમેન્ટેશન - કૃત્રિમ ડેટા જે અવાસ્તવિક કલાકૃતિઓ શીખવે છે, જેમ કે પ્લાસ્ટિકના ફળ પર રસોઈયાને તાલીમ આપવી.
શબ્દસમૂહ વિશે ઝડપી વારંવાર પૂછાતા પ્રશ્નો ❓
-
શું "AI ડેટાસેટ શું છે?" ફક્ત એક વ્યાખ્યાની વાત છે? મોટે ભાગે, પરંતુ તે એક સંકેત પણ છે કે તમે મોડેલોને વિશ્વસનીય બનાવતા કંટાળાજનક ભાગોની કાળજી લો છો.
-
શું મને હંમેશા લેબલ્સની જરૂર પડે છે? ના. દેખરેખ વગરના, સ્વ-નિરીક્ષણ હેઠળના અને RL સેટઅપ્સ ઘણીવાર સ્પષ્ટ લેબલ્સને છોડી દે છે, પરંતુ ક્યુરેશન હજુ પણ મહત્વપૂર્ણ છે.
-
શું હું જાહેર ડેટાનો ઉપયોગ કંઈપણ માટે કરી શકું? ના. લાઇસન્સ, પ્લેટફોર્મની શરતો અને ગોપનીયતા જવાબદારીઓનો આદર કરો [4].
-
મોટું કે સારું? આદર્શ રીતે બંને. જો તમારે પસંદ કરવું જ પડે, તો પહેલા વધુ સારું પસંદ કરો.
અંતિમ ટિપ્પણી - તમે શું સ્ક્રીનશોટ કરી શકો છો 📌
જો કોઈ તમને પૂછે કે AI ડેટાસેટ શું છે , તો કહો: તે ઉદાહરણોનો એક ક્યુરેટેડ, દસ્તાવેજીકૃત સંગ્રહ છે જે મોડેલ શીખવે છે અને તેનું પરીક્ષણ કરે છે, જે શાસનમાં લપેટાયેલ છે જેથી લોકો પરિણામો પર વિશ્વાસ કરી શકે. શ્રેષ્ઠ ડેટાસેટ્સ પ્રતિનિધિત્વ કરે છે, સારી રીતે લેબલ થયેલ છે, કાયદેસર રીતે સ્વચ્છ છે અને સતત જાળવવામાં આવે છે. બાકીની વિગતો - મહત્વપૂર્ણ વિગતો - માળખું, વિભાજન અને તે બધા નાના રેલિંગ વિશે છે જે મોડેલોને ટ્રાફિકમાં ભટકતા અટકાવે છે. ક્યારેક પ્રક્રિયા સ્પ્રેડશીટ્સ સાથે બાગકામ જેવી લાગે છે; ક્યારેક પિક્સેલ્સને ભરવા જેવી. કોઈપણ રીતે, ડેટામાં રોકાણ કરો, અને તમારા મોડેલો ઓછા વિચિત્ર કાર્ય કરશે. 🌱🤖
સંદર્ભ
[1] ડેટાસેટ્સ માટે ડેટાશીટ્સ - ગેબ્રુ એટ અલ., arXiv. લિંક
[2] મોડેલ રિપોર્ટિંગ માટે મોડેલ કાર્ડ્સ - મિશેલ એટ અલ., arXiv. લિંક
[3] NIST આર્ટિફિશિયલ ઇન્ટેલિજન્સ રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF 1.0) . લિંક
[4] યુકે GDPR માર્ગદર્શન અને સંસાધનો - માહિતી કમિશનર ઓફિસ (ICO). લિંક
[5] ક્રોસ-વેલિડેશન: એસ્ટીમેટર કામગીરીનું મૂલ્યાંકન - સાયકિટ-લર્ન વપરાશકર્તા માર્ગદર્શિકા. લિંક