જ્યારે મોટાભાગના લોકો "કૃત્રિમ બુદ્ધિ" સાંભળે છે, ત્યારે તેઓ ન્યુરલ નેટ, ફેન્સી અલ્ગોરિધમ્સ, અથવા કદાચ તે થોડા વિચિત્ર હ્યુમનોઇડ રોબોટ્સની કલ્પના કરે છે. જેનો ઉલ્લેખ ભાગ્યે જ શરૂઆતમાં થાય છે તે એ છે કે: AI સ્ટોરેજને લગભગ એટલી જ ખાઉધરી રીતે ખાય છે જેટલી તે ગણતરી કરે છે. અને ફક્ત કોઈપણ સ્ટોરેજ-ઓબ્જેક્ટ સ્ટોરેજ પૃષ્ઠભૂમિમાં શાંતિથી બેઠું નથી, મોડેલોને જરૂરી ડેટા ફીડ કરવાનું અસ્પષ્ટ પરંતુ એકદમ આવશ્યક કાર્ય કરે છે.
ચાલો જોઈએ કે AI માટે ઑબ્જેક્ટ સ્ટોરેજ શું મહત્વનું બનાવે છે, તે સ્ટોરેજ સિસ્ટમ્સના "જૂના રક્ષક" થી કેવી રીતે અલગ છે, અને તે સ્કેલેબિલિટી અને પ્રદર્શન માટે મુખ્ય લિવરમાંનું એક કેમ બને છે.
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 વ્યવસાય માટે મોટા પાયે જનરેટિવ AI નો ઉપયોગ કરવા માટે કઈ તકનીકોનો ઉપયોગ કરવો જોઈએ?
જનરેટિવ AI ને અસરકારક રીતે સ્કેલ કરવા માટે વ્યવસાયોને જરૂરી મુખ્ય ટેકનોલોજીઓ.
🔗 AI ટૂલ્સ માટે ડેટા મેનેજમેન્ટ જે તમારે જોવું જોઈએ
AI પ્રદર્શનને શ્રેષ્ઠ બનાવવા માટે ડેટા હેન્ડલિંગ માટેની શ્રેષ્ઠ પદ્ધતિઓ.
🔗 વ્યાપાર વ્યૂહરચના માટે કૃત્રિમ બુદ્ધિમત્તાની અસરો
AI વ્યવસાયિક વ્યૂહરચના અને લાંબા ગાળાના નિર્ણય લેવાની પ્રક્રિયાને કેવી રીતે અસર કરે છે.
AI માટે ઑબ્જેક્ટ સ્ટોરેજ ટિક શું બનાવે છે? 🌟
મોટો વિચાર: ઑબ્જેક્ટ સ્ટોરેજ ફોલ્ડર્સ અથવા કઠોર બ્લોક લેઆઉટથી પરેશાન નથી. તે ડેટાને "ઑબ્જેક્ટ્સ" માં વિભાજીત કરે છે, દરેક મેટાડેટા સાથે ટૅગ થયેલ છે. તે મેટાડેટા સિસ્ટમ-સ્તરની સામગ્રી (કદ, ટાઇમસ્ટેમ્પ્સ, સ્ટોરેજ ક્લાસ) અને વપરાશકર્તા-વ્યાખ્યાયિત કી: મૂલ્ય ટૅગ્સ [1] હોઈ શકે છે. તેને દરેક ફાઇલની જેમ વિચારો જેમાં સ્ટીકી નોટ્સનો સ્ટેક હોય છે જે તમને બરાબર કહે છે કે તે શું છે, તે કેવી રીતે બનાવવામાં આવ્યું હતું અને તે તમારી પાઇપલાઇનમાં ક્યાં ફિટ થાય છે.
AI ટીમો માટે, તે સુગમતા ગેમ-ચેન્જર છે:
-
માઇગ્રેન વગરના સ્કેલ - ડેટા લેક્સ પેટાબાઇટ્સ સુધી ફેલાયેલા છે, અને ઑબ્જેક્ટ સ્ટોર્સ તેને સરળતાથી હેન્ડલ કરે છે. તેઓ લગભગ અમર્યાદિત વૃદ્ધિ અને બહુ-AZ ટકાઉપણું માટે ડિઝાઇન કરવામાં આવ્યા છે (એમેઝોન S3 ડિફોલ્ટ રૂપે "11 નાઇન" અને ક્રોસ-ઝોન પ્રતિકૃતિ વિશે બડાઈ મારે છે) [2].
-
મેટાડેટા સમૃદ્ધિ - ઝડપી શોધ, સ્વચ્છ ફિલ્ટર્સ અને સ્માર્ટ પાઇપલાઇન્સ કારણ કે સંદર્ભ દરેક ઑબ્જેક્ટ સાથે ફરે છે [1].
-
ક્લાઉડ-નેટિવ - ડેટા HTTP(S) પર આવે છે, જેનો અર્થ છે કે તમે પુલ્સને સમાંતર બનાવી શકો છો અને વિતરિત તાલીમને હમિંગ રાખી શકો છો.
-
સ્થિતિસ્થાપકતામાં સુધારો - જ્યારે તમે દિવસો સુધી તાલીમ લઈ રહ્યા હોવ, ત્યારે તમે દૂષિત શાર્ડને કારણે યુગ ૧૨ ને મારી નાખવાનું જોખમ લઈ શકતા નથી. ઑબ્જેક્ટ સ્ટોરેજ ડિઝાઇન દ્વારા તેને ટાળે છે [2].
તે મૂળભૂત રીતે એક તળિયા વગરનો બેકપેક છે: કદાચ અંદરથી અવ્યવસ્થિત હશે, પરંતુ જ્યારે તમે તેના સુધી પહોંચો છો ત્યારે બધું જ મેળવી શકાય છે.
AI ઑબ્જેક્ટ સ્ટોરેજ માટે ઝડપી સરખામણી કોષ્ટક 🗂️
| સાધન / સેવા | (પ્રેક્ષકો) માટે શ્રેષ્ઠ | ભાવ શ્રેણી | તે શા માટે કામ કરે છે (માર્જિનમાં નોંધો) |
|---|---|---|---|
| એમેઝોન S3 | એન્ટરપ્રાઇઝ + ક્લાઉડ-ફર્સ્ટ ટીમ્સ | જેમ-જેમ-જેમ-તે-ચુકવણી કરો | અત્યંત ટકાઉ, પ્રાદેશિક રીતે સ્થિતિસ્થાપક [2] |
| ગૂગલ ક્લાઉડ સ્ટોરેજ | ડેટા વૈજ્ઞાનિકો અને ML વિકાસકર્તાઓ | લવચીક સ્તરો | મજબૂત ML એકીકરણ, સંપૂર્ણપણે ક્લાઉડ-નેટિવ |
| એઝ્યુર બ્લોબ સ્ટોરેજ | માઈક્રોસોફ્ટ-ભારે દુકાનો | ટાયર્ડ (ગરમ/ઠંડા) | Azure ના ડેટા + ML ટૂલિંગ સાથે સીમલેસ |
| મિનિઓ | ઓપન-સોર્સ / DIY સેટઅપ્સ | મફત/સ્વ-યજમાન | S3-સુસંગત, હલકું, ગમે ત્યાં ઉપયોગમાં લેવા યોગ્ય 🚀 |
| વસાબી હોટ ક્લાઉડ | ખર્ચ-સંવેદનશીલ સંસ્થાઓ | ફ્લેટ-રેટ નીચો $ | કોઈ બહાર નીકળવાની કે API-વિનંતી ફી નહીં (પોલિસી દીઠ) [3] |
| IBM ક્લાઉડ ઑબ્જેક્ટ સ્ટોરેજ | મોટા સાહસો | બદલાય છે | મજબૂત એન્ટરપ્રાઇઝ સુરક્ષા વિકલ્પો સાથે પરિપક્વ સ્ટેક |
તમારા વાસ્તવિક ઉપયોગની સરખામણીમાં કિંમત હંમેશા સમજદારીપૂર્વક તપાસો - ખાસ કરીને બહાર નીકળવાની જગ્યા, વિનંતીનું પ્રમાણ અને સ્ટોરેજ-ક્લાસ મિશ્રણ.
AI તાલીમને ઑબ્જેક્ટ સ્ટોરેજ કેમ ગમે છે 🧠
તાલીમ એ "મુઠ્ઠીભર ફાઇલો" નથી. તે લાખો પર લાખો રેકોર્ડ્સ સમાંતર રીતે તૂટી જાય છે. હાયરાર્કિકલ ફાઇલ સિસ્ટમ્સ ભારે સંમતિ હેઠળ બંધબેસે છે. ઑબ્જેક્ટ સ્ટોરેજ ફ્લેટ નેમસ્પેસ અને સ્વચ્છ API સાથે તેને ટાળે છે. દરેક ઑબ્જેક્ટમાં એક અનન્ય કી હોય છે; કામદારો સમાંતર રીતે ફેન આઉટ કરે છે અને મેળવે છે. શાર્ડેડ ડેટાસેટ્સ + સમાંતર I/O = GPU રાહ જોવાને બદલે વ્યસ્ત રહે છે.
ટિપ: હોટ શાર્ડ્સને કમ્પ્યુટ ક્લસ્ટર (સમાન પ્રદેશ અથવા ઝોન) ની નજીક રાખો, અને SSD પર આક્રમક રીતે કેશ કરો. જો તમને GPU માં સીધા ફીડ્સની જરૂર હોય, તો NVIDIA GPUDirect સ્ટોરેજ જોવા યોગ્ય છે - તે CPU બાઉન્સ બફર્સને ટ્રિમ કરે છે, લેટન્સી ઘટાડે છે અને બેન્ડવિડ્થને સીધા એક્સિલરેટર સુધી વધારે છે [4].
મેટાડેટા: ઓછી કિંમતવાળી સુપરપાવર 🪄
અહીં ઑબ્જેક્ટ સ્ટોરેજ ઓછા સ્પષ્ટ રીતે ચમકે છે. અપલોડ કરતી વખતે, તમે કસ્ટમ મેટાડેટા જોડી શકો છો (જેમ કે S3 માટે x-amz-meta-… ). ઉદાહરણ તરીકે, વિઝન ડેટાસેટ છબીઓને lighting=low અથવા blur=high સાથે ટેગ કરી શકે છે. તે પાઇપલાઇન્સને કાચી ફાઇલોને ફરીથી સ્કેન કર્યા વિના ફિલ્ટર, સંતુલિત અથવા સ્તરીકરણ કરવાની મંજૂરી આપે છે [1].
અને પછી વર્ઝનિંગ. ઘણા ઑબ્જેક્ટ સ્ટોર્સ ઑબ્જેક્ટના બહુવિધ સંસ્કરણોને સાથે-સાથે રાખે છે - પુનઃઉત્પાદનયોગ્ય પ્રયોગો અથવા શાસન નીતિઓ માટે યોગ્ય છે જેને રોલબેકની જરૂર હોય છે [5].
ઑબ્જેક્ટ વિરુદ્ધ બ્લોક વિરુદ્ધ ફાઇલ સ્ટોરેજ ⚔️
-
બ્લોક સ્ટોરેજ: ટ્રાન્ઝેક્શનલ ડેટાબેઝ માટે અદ્ભુત - ઝડપી અને સચોટ - પરંતુ પેટાબાઇટ-સ્કેલ અનસ્ટ્રક્ચર્ડ ડેટા માટે ખૂબ ખર્ચાળ.
-
ફાઇલ સ્ટોરેજ: પરિચિત, POSIX-ફ્રેન્ડલી, પરંતુ ડિરેક્ટરીઓ મોટા પાયે સમાંતર લોડ હેઠળ ગૂંગળાવી નાખે છે.
-
ઑબ્જેક્ટ સ્ટોરેજ: સ્કેલ, સમાંતરતા અને મેટાડેટા-સંચાલિત ઍક્સેસ માટે શરૂઆતથી ડિઝાઇન કરાયેલ [1].
જો તમને અણઘડ રૂપક જોઈતો હોય તો: બ્લોક સ્ટોરેજ એ ફાઇલિંગ કેબિનેટ છે, ફાઇલ સ્ટોરેજ એ ડેસ્કટોપ ફોલ્ડર છે, અને ઑબ્જેક્ટ સ્ટોરેજ એ... સ્ટીકી નોટ્સ સાથેનો એક તળિયા વગરનો ખાડો છે જે કોઈક રીતે તેને ઉપયોગી બનાવે છે.
હાઇબ્રિડ AI વર્કફ્લો 🔀
તે હંમેશા ફક્ત વાદળવાળું હોતું નથી. એક સામાન્ય મિશ્રણ આના જેવું દેખાય છે:
-
સંવેદનશીલ અથવા નિયમન કરેલ ડેટા માટે ઓન-પ્રેમ ઑબ્જેક્ટ સ્ટોરેજ (MinIO, Dell ECS)
-
બર્સ્ટ વર્કલોડ, પ્રયોગો અથવા સહયોગ માટે ક્લાઉડ ઑબ્જેક્ટ સ્ટોરેજ
આ સંતુલન ખર્ચ, પાલન અને ચપળતાને અસર કરે છે. મેં જોયું છે કે ટીમો ટેરાબાઇટ્સને રાતોરાત S3 બકેટમાં નાખે છે જેથી કામચલાઉ GPU ક્લસ્ટર ચાલુ થાય - અને પછી સ્પ્રિન્ટ પૂર્ણ થાય ત્યારે તે બધું પરમાણુ રીતે ચલાવે. કડક બજેટ માટે, વસાબીનું ફ્લેટ-રેટ/નો-એગ્રેસ મોડેલ [3] જીવનની આગાહી કરવાનું સરળ બનાવે છે.
જે ભાગ વિશે કોઈ બડાઈ મારતું નથી 😅
વાસ્તવિકતા તપાસ: તે દોષરહિત નથી.
-
લેટન્સી - કમ્પ્યુટ અને સ્ટોરેજને ખૂબ દૂર રાખવાથી તમારા GPU ક્રોલ થાય છે. GDS મદદ કરે છે, પરંતુ આર્કિટેક્ચર હજુ પણ મહત્વનું છે [4].
-
આશ્ચર્યજનક ખર્ચ - ઇગ્રેસ અને API-રિક્વેસ્ટ ચાર્જ લોકો પર ચોરીછૂપીથી પડે છે. કેટલાક પ્રદાતાઓ તેમને માફ કરે છે (વસાબી કરે છે; અન્ય નથી કરતા) [3].
-
મેટાડેટામાં મોટા પાયે અંધાધૂંધી - ટૅગ્સ અને વર્ઝનમાં "સત્ય" કોણ વ્યાખ્યાયિત કરે છે? તમારે કરારો, નીતિઓ અને કેટલાક શાસન કૌશલ્યની જરૂર પડશે [5].
વસ્તુઓનો સંગ્રહ એ ઇન્ફ્રાસ્ટ્રક્ચર પ્લમ્બિંગ છે: મહત્વપૂર્ણ, પરંતુ આકર્ષક નહીં.
વાત ક્યાં જઈ રહી છે 🚀
-
વધુ સ્માર્ટ, AI-જાગૃત સ્ટોરેજ જે SQL જેવા ક્વેરી લેયર્સ [1] દ્વારા ડેટાને ઓટો-ટેગ કરે છે અને એક્સપોઝ કરે છે.
-
હાર્ડવેર ઇન્ટિગ્રેશન (DMA પાથ, NIC ઓફલોડ્સ) વધુ નજીક હોવાથી GPUs I/O થી પીડાતા નથી [4].
-
પારદર્શક, અનુમાનિત કિંમત (સરળ મોડેલો, માફ કરાયેલ બહાર નીકળવાની ફી) [3].
લોકો AI ના ભવિષ્ય તરીકે કમ્પ્યુટ વિશે વાત કરે છે. પણ વાસ્તવિકતામાં? બજેટને બગાડ્યા વિના મોડેલોમાં ડેટા ઝડપથી ફીડ કરવામાં પણ અવરોધ છે . એટલા માટે ઑબ્જેક્ટ સ્ટોરેજની ભૂમિકા વધતી જાય છે.
નિષ્કર્ષ 📝
ઑબ્જેક્ટ સ્ટોરેજ આછકલું નથી, પણ તે પાયાનું છે. સ્કેલેબલ, મેટાડેટા-જાગૃત, સ્થિતિસ્થાપક સ્ટોરેજ વિના, મોટા મોડેલોને તાલીમ આપવી એ સેન્ડલ પહેરીને મેરેથોન દોડવા જેવું લાગે છે.
તો હા - GPU મહત્વપૂર્ણ છે, ફ્રેમવર્ક મહત્વપૂર્ણ છે. પરંતુ જો તમે AI વિશે ગંભીર છો, તો તમારા ડેટા ક્યાં રહે છે તે અવગણશો નહીં. શક્યતા એ છે કે, ઑબ્જેક્ટ સ્ટોરેજ પહેલાથી જ શાંતિથી સમગ્ર કામગીરીને રોકી રહ્યું છે.
સંદર્ભ
[1] AWS S3 - ઑબ્જેક્ટ મેટાડેટા - સિસ્ટમ અને કસ્ટમ મેટાડેટા
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – સ્ટોરેજ વર્ગો - ટકાઉપણું ("11 નાઈન") + સ્થિતિસ્થાપકતા
https://aws.amazon.com/s3/storage-classes/
[3] વસાબી હોટ ક્લાઉડ - કિંમત - ફ્લેટ-રેટ, કોઈ બહાર નીકળવાની/API ફી નહીં
https://wasabi.com/pricing
[4] NVIDIA GPUDirect સ્ટોરેજ - ડૉક્સ - GPU ના DMA પાથ
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – વર્ઝનિંગ - ગવર્નન્સ/પ્રજનનક્ષમતા માટે બહુવિધ સંસ્કરણો
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html