AI ડેટાસેટ શું છે?

જો તમે AI સિસ્ટમ્સ બનાવી રહ્યા છો, ખરીદી રહ્યા છો, અથવા ફક્ત તેનું મૂલ્યાંકન કરી રહ્યા છો, તો તમને એક ભ્રામક સરળ પ્રશ્નનો સામનો કરવો પડશે અને તે છે કે AI ડેટાસેટ શું છે અને તે શા માટે આટલું મહત્વનું છે? ટૂંકું સંસ્કરણ: તે તમારા મોડેલ માટે બળતણ, કુકબુક અને ક્યારેક હોકાયંત્ર છે.

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 AI વલણોની આગાહી કેવી રીતે કરે છે
ભવિષ્યની ઘટનાઓ અને વર્તણૂકોની આગાહી કરવા માટે AI પેટર્નનું વિશ્લેષણ કેવી રીતે કરે છે તેનું અન્વેષણ કરે છે.

🔗 AI પ્રદર્શન કેવી રીતે માપવું
ચોકસાઈ, કાર્યક્ષમતા અને મોડેલ વિશ્વસનીયતાનું મૂલ્યાંકન કરવા માટેના માપદંડો અને પદ્ધતિઓ.

🔗 AI સાથે કેવી રીતે વાત કરવી
AI-જનરેટેડ પ્રતિભાવોને સુધારવા માટે વધુ સારી ક્રિયાપ્રતિક્રિયાઓ બનાવવા માટે માર્ગદર્શન.

🔗 AI શું પ્રોમ્પ્ટ કરી રહ્યું છે?
પ્રોમ્પ્ટ્સ AI આઉટપુટ અને એકંદર સંચાર ગુણવત્તાને કેવી રીતે આકાર આપે છે તેનો ઝાંખી.

AI ડેટાસેટ શું છે? એક ઝડપી વ્યાખ્યા 🧩

AI ડેટાસેટ શું છે? તે એવા ઉદાહરણોનો સંગ્રહ જેમાંથી તમારું મોડેલ શીખે છે અથવા તેનું મૂલ્યાંકન કરવામાં આવે છે. દરેક ઉદાહરણમાં છે:

ઇનપુટ્સ - મોડેલ જે સુવિધાઓ જુએ છે, જેમ કે ટેક્સ્ટ સ્નિપેટ્સ, છબીઓ, ઑડિઓ, ટેબ્યુલર પંક્તિઓ, સેન્સર રીડિંગ્સ, ગ્રાફ.
લક્ષ્યો - મોડેલ દ્વારા આગાહી કરાયેલા લેબલ્સ અથવા પરિણામો, જેમ કે શ્રેણીઓ, સંખ્યાઓ, ટેક્સ્ટનો વિસ્તાર, ક્રિયાઓ, અથવા ક્યારેક કંઈ જ નહીં.
મેટાડેટા - સંદર્ભ જેમ કે સ્રોત, સંગ્રહ પદ્ધતિ, ટાઇમસ્ટેમ્પ, લાઇસન્સ, સંમતિ માહિતી અને ગુણવત્તા પર નોંધો.

તમારા મોડેલ માટે કાળજીપૂર્વક પેક કરેલા લંચબોક્સ જેવું વિચારો: ઘટકો, લેબલ્સ, પોષણ તથ્યો, અને હા, "આ ભાગ ન ખાઓ" કહેતી સ્ટીકી નોટ. 🍱

દેખરેખ હેઠળના કાર્યો માટે, તમને સ્પષ્ટ લેબલ્સ સાથે જોડી બનાવેલા ઇનપુટ્સ દેખાશે. દેખરેખ હેઠળ ન હોય તેવા કાર્યો માટે, તમને લેબલ્સ વિના ઇનપુટ્સ દેખાશે. મજબૂતીકરણ શિક્ષણ માટે, ડેટા ઘણીવાર સ્થિતિઓ, ક્રિયાઓ, પુરસ્કારો સાથે એપિસોડ અથવા માર્ગ જેવો દેખાય છે. મલ્ટિમોડલ કાર્ય માટે, ઉદાહરણો એક જ રેકોર્ડમાં ટેક્સ્ટ + છબી + ઑડિઓને જોડી શકે છે. ફેન્સી લાગે છે; મોટે ભાગે પ્લમ્બિંગ છે.

ઉપયોગી પ્રાઇમર્સ અને પ્રથાઓ: ડેટાસેટ્સ માટે ડેટાશીટ્સનો વિચાર ટીમોને અંદર શું છે અને તેનો ઉપયોગ કેવી રીતે કરવો જોઈએ તે સમજાવવામાં મદદ કરે છે [1], અને મોડેલ કાર્ડ્સ મોડેલ બાજુ પર ડેટા દસ્તાવેજીકરણને પૂરક બનાવે છે [2].

સારો AI ડેટાસેટ શું બનાવે છે ✅

ચાલો પ્રમાણિક રહીએ, ઘણા મોડેલો સફળ થાય છે કારણ કે ડેટાસેટ ખરાબ ન હતો. "સારો" ડેટાસેટ છે:

ફક્ત પ્રયોગશાળાની પરિસ્થિતિઓ જ નહીં, પરંતુ વાસ્તવિક ઉપયોગના કિસ્સાઓનું પ્રતિનિધિત્વ કરે છે
સચોટ રીતે લેબલ થયેલ . કરાર મેટ્રિક્સ (દા.ત., કપ્પા-શૈલીના માપદંડ) સુસંગતતા તપાસવામાં મદદ કરે છે.
સંપૂર્ણ અને સંતુલિત . અસંતુલન સામાન્ય છે; બેદરકારી નથી.
મૂળ સ્થાને સ્પષ્ટ , સંમતિ, લાઇસન્સ અને પરવાનગીઓ દસ્તાવેજીકૃત. કંટાળાજનક કાગળકામ ઉત્તેજક મુકદ્દમાઓને અટકાવે છે.
સારી રીતે દસ્તાવેજીકૃત કરેલ છે જે હેતુપૂર્વક ઉપયોગ, મર્યાદાઓ અને જાણીતા નિષ્ફળતા મોડ્સ [1] ને સ્પષ્ટ કરે છે.
સંચાલિત . જો તમે ડેટાસેટનું પુનઃઉત્પાદન કરી શકતા નથી, તો તમે મોડેલનું પુનઃઉત્પાદન કરી શકતા નથી. NIST ના AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્કનું ડેટા ગુણવત્તા અને દસ્તાવેજીકરણને પ્રથમ-વર્ગની ચિંતાઓ તરીકે ગણે છે [3].

તમે શું કરી રહ્યા છો તેના આધારે AI ડેટાસેટ્સનાં પ્રકારો 🧰

કાર્ય દ્વારા

વર્ગીકરણ - દા.ત., સ્પામ વિરુદ્ધ સ્પામ નહીં, છબી શ્રેણીઓ.
રીગ્રેશન - કિંમત અથવા તાપમાન જેવા સતત મૂલ્યની આગાહી કરો.
ક્રમ લેબલિંગ - નામવાળી એન્ટિટી, વાણીના ભાગો.
પેઢી - સારાંશ, અનુવાદ, છબી કૅપ્શનિંગ.
ભલામણ - વપરાશકર્તા, વસ્તુ, ક્રિયાપ્રતિક્રિયાઓ, સંદર્ભ.
અસંગતતા શોધ - સમય શ્રેણી અથવા લોગમાં દુર્લભ ઘટનાઓ.
મજબૂતીકરણ શિક્ષણ - સ્થિતિ, ક્રિયા, પુરસ્કાર, આગામી-અવસ્થા ક્રમ.
પુનઃપ્રાપ્તિ - દસ્તાવેજો, પ્રશ્નો, સુસંગતતા ચુકાદાઓ.

પદ્ધતિ દ્વારા

કોષ્ટક - ઉંમર, આવક, મંથન જેવા સ્તંભો. ઓછું આંકવામાં આવ્યું, ક્રૂર રીતે અસરકારક.
ટેક્સ્ટ - દસ્તાવેજો, ચેટ્સ, કોડ, ફોરમ પોસ્ટ્સ, ઉત્પાદન વર્ણનો.
છબીઓ - ફોટા, તબીબી સ્કેન, સેટેલાઇટ ટાઇલ્સ; માસ્ક, બોક્સ, કીપોઇન્ટ સાથે અથવા વગર.
ઑડિઓ - વેવફોર્મ્સ, ટ્રાન્સક્રિપ્ટ્સ, સ્પીકર ટૅગ્સ.
વિડિઓ - ફ્રેમ્સ, ટેમ્પોરલ એનોટેશન્સ, એક્શન લેબલ્સ.
આલેખ - ગાંઠો, ધાર, વિશેષતાઓ.
સમય શ્રેણી - સેન્સર, ફાઇનાન્સ, ટેલિમેટ્રી.

દેખરેખ દ્વારા

લેબલ થયેલ (સોનું, ચાંદી, ઓટો-લેબલ થયેલ), નબળા લેબલ થયેલ , લેબલ વગરનું , સિન્થેટિક . સ્ટોરમાંથી ખરીદેલ કેક મિક્સ યોગ્ય હોઈ શકે છે - જો તમે બોક્સ વાંચો.

બોક્સની અંદર: માળખું, વિભાજન અને મેટાડેટા 📦

એક મજબૂત ડેટાસેટમાં સામાન્ય રીતે શામેલ હોય છે:

સ્કીમા - ટાઇપ કરેલા ફીલ્ડ્સ, એકમો, માન્ય મૂલ્યો, નલ હેન્ડલિંગ.
વિભાજન - તાલીમ, માન્યતા, પરીક્ષણ. પરીક્ષણ ડેટા સીલબંધ રાખો - તેને ચોકલેટના છેલ્લા ટુકડાની જેમ માનો.
નમૂના યોજના - તમે વસ્તીમાંથી ઉદાહરણો કેવી રીતે દોર્યા; એક પ્રદેશ અથવા ઉપકરણમાંથી સુવિધાજનક નમૂનાઓ ટાળો.
વધારો - ઉલટાવો, પાક, અવાજ, શબ્દસમૂહો, માસ્ક. પ્રામાણિક હોય ત્યારે સારું; જ્યારે તેઓ એવા પેટર્ન શોધે છે જે જંગલમાં ક્યારેય બનતા નથી ત્યારે નુકસાનકારક.
વર્ઝનિંગ - ડેટાસેટ v0.1, v0.2… ડેલ્ટાનું વર્ણન કરતા ચેન્જલોગ સાથે.
લાઇસન્સ અને સંમતિ - ઉપયોગ અધિકારો, પુનઃવિતરણ અને કાઢી નાખવાના પ્રવાહ. રાષ્ટ્રીય ડેટા-સુરક્ષા નિયમનકારો (દા.ત., યુકે ICO) વ્યવહારુ, કાયદેસર-પ્રક્રિયા ચેકલિસ્ટ્સ પ્રદાન કરે છે [4].

ડેટાસેટ જીવનચક્ર, પગલું દ્વારા પગલું 🔁

નિર્ણયને વ્યાખ્યાયિત કરો - મોડેલ શું નિર્ણય લેશે, અને જો તે ખોટો હશે તો શું થશે.
કાર્યક્ષેત્રની વિશેષતાઓ અને લેબલ્સ - માપી શકાય તેવા, અવલોકનક્ષમ, એકત્રિત કરવા માટે નૈતિક.
સ્રોત ડેટા - સાધનો, લોગ, સર્વેક્ષણો, જાહેર કોર્પોરેશન, ભાગીદારો.
સંમતિ અને કાનૂની - ગોપનીયતા સૂચનાઓ, નાપસંદગી, ડેટા ન્યૂનતમકરણ. "શા માટે" અને "કેવી રીતે" [4] માટે નિયમનકાર માર્ગદર્શિકા જુઓ.
એકત્રિત કરો અને સંગ્રહ કરો - સુરક્ષિત સંગ્રહ, ભૂમિકા-આધારિત ઍક્સેસ, PII હેન્ડલિંગ.
લેબલ - આંતરિક ટીકાકારો, ક્રાઉડસોર્સિંગ, નિષ્ણાતો; ગોલ્ડ ટાસ્ક, ઓડિટ અને કરાર મેટ્રિક્સ સાથે ગુણવત્તાનું સંચાલન કરો.
સાફ કરો અને સામાન્ય બનાવો - ખોટા કામો દૂર કરો, ખોવાઈ જવાથી બચાવો, એકમોને પ્રમાણિત કરો, એન્કોડિંગ ઠીક કરો. કંટાળાજનક, પરાક્રમી કાર્ય.
વિભાજીત કરો અને માન્ય કરો - લીકેજ અટકાવો; જ્યાં સંબંધિત હોય ત્યાં સ્તરીકરણ કરો; ટેમ્પોરલ ડેટા માટે સમય-જાગૃત વિભાજનને પ્રાધાન્ય આપો; અને મજબૂત અંદાજો માટે વિચારપૂર્વક ક્રોસ-માન્યતાનો ઉપયોગ કરો [5].
દસ્તાવેજ - ડેટાશીટ અથવા ડેટા કાર્ડ; હેતુપૂર્વક ઉપયોગ, ચેતવણીઓ, મર્યાદાઓ [1].
મોનિટર અને અપડેટ - ડ્રિફ્ટ ડિટેક્શન, રિફ્રેશ કેડન્સ, સનસેટ પ્લાન. NIST નું AI RMF આ ચાલુ ગવર્નન્સ લૂપને ફ્રેમ કરે છે [3].

ઝડપી, વાસ્તવિક દુનિયાના આકારની ટિપ: ટીમો ઘણીવાર "ડેમો જીતે છે" પરંતુ ઉત્પાદનમાં ઠોકર ખાય છે કારણ કે તેમનો ડેટાસેટ શાંતિથી ડ્રિફ્ટ થાય છે - નવી પ્રોડક્ટ લાઇન, નામ બદલાયેલ ક્ષેત્ર, અથવા બદલાયેલી નીતિ. એક સરળ ચેન્જલોગ + સામયિક રી-એનોટેશન પાસ તે મોટાભાગની પીડાને ટાળે છે.

ડેટા ગુણવત્તા અને મૂલ્યાંકન - લાગે તેટલું કંટાળાજનક નથી 🧪

ગુણવત્તા બહુ-પરિમાણીય છે:

ચોકસાઈ - શું લેબલ્સ યોગ્ય છે? કરાર મેટ્રિક્સ અને સમયાંતરે નિર્ણયનો ઉપયોગ કરો.
સંપૂર્ણતા - તમને ખરેખર જરૂરી ક્ષેત્રો અને વર્ગોને આવરી લો.
સુસંગતતા - સમાન ઇનપુટ્સ માટે વિરોધાભાસી લેબલ્સ ટાળો.
સમયસરતા - જૂનો ડેટા ધારણાઓને અશ્મિભૂત બનાવે છે.
ન્યાયીપણું અને પૂર્વગ્રહ - વસ્તી વિષયક, ભાષાઓ, ઉપકરણો, વાતાવરણમાં કવરેજ; વર્ણનાત્મક ઓડિટથી શરૂઆત કરો, પછી તણાવ પરીક્ષણો. દસ્તાવેજીકરણ-પ્રથમ પ્રથાઓ (ડેટાશીટ્સ, મોડેલ કાર્ડ્સ) આ તપાસોને દૃશ્યમાન બનાવે છે [1], અને શાસન માળખા તેમને જોખમ નિયંત્રણો તરીકે ભાર મૂકે છે [3].

મોડેલ મૂલ્યાંકન માટે, યોગ્ય વિભાજનનો અને સરેરાશ મેટ્રિક્સ અને સૌથી ખરાબ-જૂથ મેટ્રિક્સ બંનેને ટ્રૅક કરો. એક ચળકતી સરેરાશ ખાડાને છુપાવી શકે છે. ક્રોસ-વેલિડેશન બેઝિક્સ પ્રમાણભૂત ML ટૂલિંગ દસ્તાવેજો [5] માં સારી રીતે આવરી લેવામાં આવ્યા છે.

નીતિશાસ્ત્ર, ગોપનીયતા અને લાઇસન્સિંગ - રેલિંગ 🛡️

નૈતિક ડેટા કોઈ વાઈબ નથી, તે એક પ્રક્રિયા છે:

સંમતિ અને હેતુ મર્યાદા - ઉપયોગો અને કાનૂની આધારો વિશે સ્પષ્ટ રહો [4].
PII હેન્ડલિંગ - યોગ્ય હોય ત્યાં સુધી નાનું કરો, છુપાયેલા નામ આપો અથવા અનામી બનાવો; જ્યારે જોખમો વધારે હોય ત્યારે ગોપનીયતા વધારતી તકનીકનો વિચાર કરો.
એટ્રિબ્યુશન અને લાઇસન્સ - શેર-એલાઈક અને વાણિજ્યિક-ઉપયોગ પ્રતિબંધોનું પાલન કરો.
પૂર્વગ્રહ અને નુકસાન - બનાવટી સહસંબંધો માટે ઓડિટ ("દિવસનો પ્રકાશ = સલામત" રાત્રે ખૂબ જ મૂંઝવણભર્યું રહેશે).
રિડ્રેસ - વિનંતી પર ડેટા કેવી રીતે દૂર કરવો અને તેના પર તાલીમ પામેલા મોડેલોને કેવી રીતે રોલ બેક કરવા તે જાણો (આ તમારી ડેટાશીટમાં દસ્તાવેજીકૃત કરો) [1].

કેટલું મોટું એટલે પૂરતું મોટું? કદ બદલવાનું અને સિગ્નલ-ટુ-નોઈઝ 📏

નિયમ પ્રમાણે: જો સંબંધિત હોય અને લગભગ ડુપ્લિકેટ ન હોય તો વધુ ઉદાહરણો સામાન્ય રીતે મદદ કરે છે. પરંતુ ક્યારેક તમે ગંદા નમૂનાઓ કરતાં ઓછા, સ્વચ્છ, વધુ સારી રીતે લેબલવાળા

ધ્યાન રાખો:

શીખવાના વળાંકો - પ્લોટ પ્રદર્શન વિરુદ્ધ નમૂનાનું કદ, તમે ડેટા-બાઉન્ડ છો કે મોડેલ-બાઉન્ડ, તે જોવા માટે.
લાંબી પૂંછડીનું કવરેજ - દુર્લભ પરંતુ મહત્વપૂર્ણ વર્ગોને ઘણીવાર લક્ષિત સંગ્રહની જરૂર હોય છે, ફક્ત વધુ જથ્થાબંધ નહીં.
લેબલ અવાજ - માપો, પછી ઘટાડો; થોડું સહન કરી શકાય છે, ભરતી-ઓટના મોજા સહન કરી શકાતા નથી.
વિતરણ શિફ્ટ - એક પ્રદેશ અથવા ચેનલમાંથી તાલીમ ડેટા બીજા પ્રદેશમાં સામાન્ય ન પણ થઈ શકે; લક્ષ્ય જેવા પરીક્ષણ ડેટા પર માન્ય કરો [5].

જ્યારે શંકા હોય, ત્યારે નાના પાયલોટ ચલાવો અને વિસ્તૃત કરો. તે મસાલા જેવું છે - ઉમેરો, સ્વાદ લો, ગોઠવો, પુનરાવર્તન કરો.

ડેટાસેટ્સ ક્યાં શોધવા અને મેનેજ કરવા 🗂️

લોકપ્રિય સંસાધનો અને ટૂલિંગ (હમણાં URL યાદ રાખવાની જરૂર નથી):

હગિંગ ફેસ ડેટાસેટ્સ - પ્રોગ્રામેટિક લોડિંગ, પ્રોસેસિંગ, શેરિંગ.
ગુગલ ડેટાસેટ શોધ - સમગ્ર વેબ પર મેટા-સર્ચ.
UCI ML રિપોઝીટરી - બેઝલાઇન અને શિક્ષણ માટે ક્યુરેટેડ ક્લાસિક્સ.
ઓપનએમએલ - કાર્યો + ડેટાસેટ્સ + મૂળ સાથે ચાલે છે.
AWS ઓપન ડેટા / ગૂગલ ક્લાઉડ પબ્લિક ડેટાસેટ્સ - હોસ્ટેડ, મોટા પાયે કોર્પોરા.

પ્રો ટિપ: ફક્ત ડાઉનલોડ ન કરો. લાઇસન્સ અને ડેટાશીટ વાંચો , પછી વર્ઝન નંબર અને ઉદ્ભવસ્થાન [1] સાથે તમારી પોતાની નકલ દસ્તાવેજ કરો.

લેબલિંગ અને ટીકા - જ્યાં સત્યની વાટાઘાટો થાય છે ✍️

ટીકા એ છે જ્યાં તમારી સૈદ્ધાંતિક લેબલ માર્ગદર્શિકા વાસ્તવિકતા સાથે કુસ્તી કરે છે:

કાર્ય ડિઝાઇન - ઉદાહરણો અને પ્રતિ-ઉદાહરણો સાથે સ્પષ્ટ સૂચનાઓ લખો.
એનોટેટર તાલીમ - સુવર્ણ જવાબો સાથે બીજ, કેલિબ્રેશન રાઉન્ડ ચલાવો.
ગુણવત્તા નિયંત્રણ - કરાર મેટ્રિક્સ, સર્વસંમતિ પદ્ધતિઓ અને સમયાંતરે ઓડિટનો ઉપયોગ કરો.
ટૂલિંગ - એવા ટૂલ્સ પસંદ કરો જે સ્કીમા માન્યતા અને સમીક્ષા કતારોને લાગુ કરે; સ્પ્રેડશીટ્સ પણ નિયમો અને તપાસ સાથે કામ કરી શકે છે.
પ્રતિસાદ લૂપ્સ - માર્ગદર્શિકાને સુધારવા માટે ટીકાકાર નોંધો અને મોડેલ ભૂલો કેપ્ચર કરો.

જો અલ્પવિરામ વિશે અસંમત હોય તેવા ત્રણ મિત્રો સાથે શબ્દકોશ સંપાદિત કરવા જેવું લાગે તો... તે સામાન્ય છે. 🙃

ડેટા દસ્તાવેજીકરણ - ગર્ભિત જ્ઞાનને સ્પષ્ટ બનાવવું 📒

હળવા વજનના ડેટાશીટ અથવા ડેટા કાર્ડમાં આ બાબતો આવરી લેવી જોઈએ:

કોણે, કેવી રીતે અને શા માટે એકત્રિત કર્યું.
હેતુપૂર્વકના ઉપયોગો અને અવકાશ બહારના ઉપયોગો.
જાણીતા ગાબડા, પૂર્વગ્રહો અને નિષ્ફળતા સ્થિતિઓ.
લેબલિંગ પ્રોટોકોલ, QA પગલાં અને કરારના આંકડા.
લાઇસન્સ, સંમતિ, સમસ્યાઓ માટે સંપર્ક, દૂર કરવાની પ્રક્રિયા.

નમૂનાઓ અને ઉદાહરણો: ડેટાસેટ્સ અને મોડેલ કાર્ડ્સ વ્યાપકપણે ઉપયોગ પ્રારંભિક બિંદુઓ [1] તરીકે થાય છે.

બનાવતી વખતે લખો, પછી નહીં. મેમરી એક અસ્થિર સંગ્રહ માધ્યમ છે.

સરખામણી કોષ્ટક - AI ડેટાસેટ્સ શોધવા અથવા હોસ્ટ કરવા માટેના સ્થળો 📊

હા, આ થોડું અભિપ્રાયાત્મક છે. અને શબ્દો જાણી જોઈને થોડા અસમાન છે. તે ઠીક છે.

ટૂલ / રેપો	પ્રેક્ષક	કિંમત	તે વ્યવહારમાં કેમ કામ કરે છે
આલિંગન ચહેરા ડેટાસેટ્સ	સંશોધકો, ઇજનેરો	ફ્રી-ટાયર	ઝડપી લોડિંગ, સ્ટ્રીમિંગ, સમુદાય સ્ક્રિપ્ટો; ઉત્તમ દસ્તાવેજો; સંસ્કરણિત ડેટાસેટ્સ
ગૂગલ ડેટાસેટ શોધ	દરેક વ્યક્તિ	મફત	પહોળો સપાટી વિસ્તાર; શોધ માટે ઉત્તમ; ક્યારેક અસંગત મેટાડેટા પણ
UCI ML રિપોઝીટરી	વિદ્યાર્થીઓ, શિક્ષકો	મફત	ક્યુરેટેડ ક્લાસિક્સ; નાના પણ વ્યવસ્થિત; બેઝલાઇન અને શિક્ષણ માટે સારા
ઓપનએમએલ	રેપ્રો સંશોધકો	મફત	કાર્યો + ડેટાસેટ્સ + એકસાથે ચાલે છે; ઉત્પત્તિના સારા રસ્તાઓ
AWS ઓપન ડેટા રજિસ્ટ્રી	ડેટા એન્જિનિયર્સ	મોટે ભાગે મફત	પેટાબાઇટ-સ્કેલ હોસ્ટિંગ; ક્લાઉડ-નેટિવ એક્સેસ; ઘડિયાળના બહાર નીકળવાના ખર્ચ
કાગલ ડેટાસેટ્સ	પ્રેક્ટિશનર્સ	મફત	સરળ શેરિંગ, સ્ક્રિપ્ટો, સ્પર્ધાઓ; સમુદાય સંકેતો અવાજને ફિલ્ટર કરવામાં મદદ કરે છે
ગૂગલ ક્લાઉડ પબ્લિક ડેટાસેટ્સ	વિશ્લેષકો, ટીમો	ફ્રી + ક્લાઉડ	કમ્પ્યુટની નજીક હોસ્ટ કરેલ; BigQuery એકીકરણ; બિલિંગમાં સાવચેત રહો
શૈક્ષણિક પોર્ટલ, પ્રયોગશાળાઓ	વિશિષ્ટ નિષ્ણાતો	બદલાય છે	ખૂબ જ વિશેષજ્ઞ; ક્યારેક ઓછા દસ્તાવેજીકૃત - હજુ પણ શોધ કરવા યોગ્ય

(જો કોઈ સેલ બોલકા લાગે છે, તો તે જાણી જોઈને કરવામાં આવ્યું છે.)

તમારું પહેલું બનાવી રહ્યા છીએ - એક વ્યવહારુ સ્ટાર્ટર કીટ 🛠️

તમે "AI ડેટાસેટ શું છે" થી "મેં એક બનાવ્યું, તે કામ કરે છે" માં જવા માંગો છો. આ ન્યૂનતમ રસ્તો અજમાવો:

નિર્ણય અને મેટ્રિક લખો - દા.ત., યોગ્ય ટીમની આગાહી કરીને ઇનકમિંગ સપોર્ટ મિસરૂટ્સ ઘટાડો. મેટ્રિક: મેક્રો-F1.
5 સકારાત્મક અને 5 નકારાત્મક ઉદાહરણોની યાદી બનાવો - વાસ્તવિક ટિકિટોનો નમૂનો લો; બનાવટી ન બનાવો.
લેબલ માર્ગદર્શિકાનો મુસદ્દો તૈયાર કરો - એક પાનું; સ્પષ્ટ સમાવેશ/બાકાત નિયમો.
એક નાનો, વાસ્તવિક નમૂનો એકત્રિત કરો - શ્રેણીઓમાં થોડીક સો ટિકિટો; તમને જરૂર ન હોય તેવી PII દૂર કરો.
લીકેજ ચેક સાથે વિભાજીત કરો - એક જ ગ્રાહકના બધા સંદેશાઓ એક જ વિભાજનમાં રાખો; વેરિઅન્સનો અંદાજ કાઢવા માટે ક્રોસ-વેલિડેશનનો ઉપયોગ કરો [5].
QA સાથે ટીકા કરો - સબસેટ પર બે ટીકાકારો; મતભેદો ઉકેલો; માર્ગદર્શિકા અપડેટ કરો.
એક સરળ બેઝલાઇન તાલીમ આપો - પહેલા લોજિસ્ટિક્સ (દા.ત., રેખીય મોડેલ અથવા કોમ્પેક્ટ ટ્રાન્સફોર્મર્સ). મુદ્દો ડેટાનું પરીક્ષણ કરવાનો છે, મેડલ જીતવાનો નહીં.
ભૂલોની સમીક્ષા કરો - તે ક્યાં નિષ્ફળ જાય છે અને શા માટે; ફક્ત મોડેલ જ નહીં, ડેટાસેટ અપડેટ કરો.
દસ્તાવેજ - નાનું ડેટાશીટ: સ્રોત, લેબલ માર્ગદર્શિકા લિંક, વિભાજન, જાણીતી મર્યાદાઓ, લાઇસન્સ [1].
પ્લાન રિફ્રેશ - નવી શ્રેણીઓ, નવી ભાષા, નવા ડોમેન્સ આવે છે; નાના, વારંવાર અપડેટ્સનું સમયપત્રક બનાવો [3].

તમે આ લૂપમાંથી હજારો હોટ ટેક કરતાં વધુ શીખી શકશો. ઉપરાંત, બેકઅપ રાખો. કૃપા કરીને.

ટીમોમાં છુપાઈને આવતી સામાન્ય મુશ્કેલીઓ 🪤

ડેટા લીકેજ - જવાબ સુવિધાઓમાં સરકી જાય છે (દા.ત., પરિણામોની આગાહી કરવા માટે પોસ્ટ-રિઝોલ્યુશન ફીલ્ડનો ઉપયોગ કરવો). છેતરપિંડી જેવું લાગે છે કારણ કે તે છેતરપિંડી છે.
છીછરી વિવિધતા - એક ભૂગોળ અથવા ઉપકરણ વૈશ્વિક હોવાનો ઢોંગ કરે છે. પરીક્ષણો પ્લોટના વળાંકને જાહેર કરશે.
લેબલ ડ્રિફ્ટ - સમય જતાં માપદંડ બદલાય છે પણ લેબલ માર્ગદર્શિકા બદલાતી નથી. તમારા ઓન્ટોલોજીનું દસ્તાવેજીકરણ અને સંસ્કરણ કરો.
ઓછા સ્પષ્ટ ઉદ્દેશ્યો - જો તમે ખરાબ આગાહી વ્યાખ્યાયિત કરી શકતા નથી, તો તમારો ડેટા પણ નહીં.
અવ્યવસ્થિત લાઇસન્સ - હમણાં સ્ક્રેપ કરવું, પછી માફી માંગવી, એ કોઈ વ્યૂહરચના નથી.
ઓવર-ઓગમેન્ટેશન - કૃત્રિમ ડેટા જે અવાસ્તવિક કલાકૃતિઓ શીખવે છે, જેમ કે પ્લાસ્ટિકના ફળ પર રસોઈયાને તાલીમ આપવી.

શબ્દસમૂહ વિશે ઝડપી વારંવાર પૂછાતા પ્રશ્નો ❓

શું "AI ડેટાસેટ શું છે?" ફક્ત એક વ્યાખ્યાની વાત છે? મોટે ભાગે, પરંતુ તે એક સંકેત પણ છે કે તમે મોડેલોને વિશ્વસનીય બનાવતા કંટાળાજનક ભાગોની કાળજી લો છો.
શું મને હંમેશા લેબલ્સની જરૂર પડે છે? ના. દેખરેખ વગરના, સ્વ-નિરીક્ષણ હેઠળના અને RL સેટઅપ્સ ઘણીવાર સ્પષ્ટ લેબલ્સને છોડી દે છે, પરંતુ ક્યુરેશન હજુ પણ મહત્વપૂર્ણ છે.
શું હું જાહેર ડેટાનો ઉપયોગ કંઈપણ માટે કરી શકું? ના. લાઇસન્સ, પ્લેટફોર્મની શરતો અને ગોપનીયતા જવાબદારીઓનો આદર કરો [4].
મોટું કે સારું? આદર્શ રીતે બંને. જો તમારે પસંદ કરવું જ પડે, તો પહેલા વધુ સારું પસંદ કરો.

અંતિમ ટિપ્પણી - તમે શું સ્ક્રીનશોટ કરી શકો છો 📌

જો કોઈ તમને પૂછે કે AI ડેટાસેટ શું છે , તો કહો: તે ઉદાહરણોનો એક ક્યુરેટેડ, દસ્તાવેજીકૃત સંગ્રહ છે જે મોડેલ શીખવે છે અને તેનું પરીક્ષણ કરે છે, જે શાસનમાં લપેટાયેલ છે જેથી લોકો પરિણામો પર વિશ્વાસ કરી શકે. શ્રેષ્ઠ ડેટાસેટ્સ પ્રતિનિધિત્વ કરે છે, સારી રીતે લેબલ થયેલ છે, કાયદેસર રીતે સ્વચ્છ છે અને સતત જાળવવામાં આવે છે. બાકીની વિગતો - મહત્વપૂર્ણ વિગતો - માળખું, વિભાજન અને તે બધા નાના રેલિંગ વિશે છે જે મોડેલોને ટ્રાફિકમાં ભટકતા અટકાવે છે. ક્યારેક પ્રક્રિયા સ્પ્રેડશીટ્સ સાથે બાગકામ જેવી લાગે છે; ક્યારેક પિક્સેલ્સને ભરવા જેવી. કોઈપણ રીતે, ડેટામાં રોકાણ કરો, અને તમારા મોડેલો ઓછા વિચિત્ર કાર્ય કરશે. 🌱🤖

સંદર્ભ

[1] ડેટાસેટ્સ માટે ડેટાશીટ્સ - ગેબ્રુ એટ અલ., arXiv. લિંક
[2] મોડેલ રિપોર્ટિંગ માટે મોડેલ કાર્ડ્સ - મિશેલ એટ અલ., arXiv. લિંક
[3] NIST આર્ટિફિશિયલ ઇન્ટેલિજન્સ રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF 1.0) . લિંક
[4] યુકે GDPR માર્ગદર્શન અને સંસાધનો - માહિતી કમિશનર ઓફિસ (ICO). લિંક
[5] ક્રોસ-વેલિડેશન: એસ્ટીમેટર કામગીરીનું મૂલ્યાંકન - સાયકિટ-લર્ન વપરાશકર્તા માર્ગદર્શિકા. લિંક

અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા

દેશ/પ્રદેશ