જો તમે ક્યારેય કોઈ ડેમો મોડેલને એક નાનો ટેસ્ટ લોડ ક્રશ કરતા અને પછી વાસ્તવિક વપરાશકર્તાઓ દેખાય તે ક્ષણે સ્થિર થતા જોયો હોય, તો તમે ખલનાયકને મળ્યા છો: સ્કેલિંગ. AI લોભી છે - ડેટા, કમ્પ્યુટ, મેમરી, બેન્ડવિડ્થ - અને વિચિત્ર રીતે, ધ્યાન માટે. તો AI સ્કેલેબિલિટી ખરેખર શું છે, અને તમે દર અઠવાડિયે બધું ફરીથી લખ્યા વિના તે કેવી રીતે મેળવશો?
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI પૂર્વગ્રહ શું છે તે સરળ રીતે સમજાવવામાં આવ્યું છે
છુપાયેલા પૂર્વગ્રહો AI નિર્ણયો અને મોડેલ પરિણામોને કેવી રીતે આકાર આપે છે તે જાણો.
🔗 શિખાઉ માણસ માટે માર્ગદર્શિકા: કૃત્રિમ બુદ્ધિ શું છે?
AI, મુખ્ય ખ્યાલો, પ્રકારો અને રોજિંદા ઉપયોગોની ઝાંખી.
🔗 સમજાવી શકાય તેવું AI શું છે અને તે શા માટે મહત્વનું છે
સમજાવી શકાય તેવું AI પારદર્શિતા, વિશ્વાસ અને નિયમનકારી પાલન કેવી રીતે વધારે છે તે શોધો.
🔗 આગાહીયુક્ત AI શું છે અને તે કેવી રીતે કાર્ય કરે છે
આગાહીત્મક AI, સામાન્ય ઉપયોગના કિસ્સાઓ, ફાયદા અને મર્યાદાઓને સમજો.
AI સ્કેલેબિલિટી શું છે? 📈
AI સ્કેલેબિલિટી એ AI સિસ્ટમની ક્ષમતા છે જે વધુ ડેટા, વિનંતીઓ, વપરાશકર્તાઓ અને ઉપયોગના કેસોને હેન્ડલ કરે છે, સાથે સાથે કામગીરી, વિશ્વસનીયતા અને ખર્ચને સ્વીકાર્ય મર્યાદામાં રાખે છે. ફક્ત મોટા સર્વર્સ જ નહીં - સ્માર્ટ આર્કિટેક્ચર જે લેટન્સી ઓછી, થ્રુપુટ ઉચ્ચ અને ગુણવત્તાને વળાંક ચઢતા સતત રાખે છે. સ્થિતિસ્થાપક ઇન્ફ્રાસ્ટ્રક્ચર, ઑપ્ટિમાઇઝ્ડ મોડેલ્સ અને અવલોકનક્ષમતા વિશે વિચારો જે ખરેખર તમને કહે છે કે શું આગમાં છે.

સારી AI સ્કેલેબિલિટી શું બનાવે છે ✅
જ્યારે AI સ્કેલેબિલિટી સારી રીતે કરવામાં આવે છે, ત્યારે તમને મળે છે:
-
કાંટાદાર અથવા સતત ભાર હેઠળ અનુમાનિત વિલંબતા
-
થ્રુપુટ જે ઉમેરાયેલા હાર્ડવેર અથવા પ્રતિકૃતિઓના પ્રમાણમાં લગભગ
-
ખર્ચ કાર્યક્ષમતા જે વિનંતી દીઠ વધતી નથી
-
ઇનપુટ્સમાં વૈવિધ્યતા અને વોલ્યુમમાં વધારો થતાં ગુણવત્તા સ્થિરતા
-
ઓટોસ્કેલિંગ, ટ્રેસિંગ અને સ્વસ્થ SLOs ને કારણે કામગીરી શાંત રહી.
હૂડ હેઠળ આ સામાન્ય રીતે આડી સ્કેલિંગ, બેચિંગ, કેશીંગ, ક્વોન્ટાઇઝેશન, મજબૂત સર્વિંગ અને ભૂલ બજેટ સાથે જોડાયેલી વિચારશીલ રિલીઝ નીતિઓનું મિશ્રણ કરે છે [5].
AI સ્કેલેબિલિટી વિરુદ્ધ પ્રદર્શન વિરુદ્ધ ક્ષમતા 🧠
-
કામગીરી એટલે એક વિનંતી અલગ રીતે કેટલી ઝડપથી પૂર્ણ થાય છે.
-
ક્ષમતા એટલે તમે એક સાથે કેટલી વિનંતીઓ સંભાળી શકો છો.
-
AI સ્કેલેબિલિટી એટલે સંસાધનો ઉમેરવાથી કે વધુ સ્માર્ટ તકનીકોનો ઉપયોગ કરવાથી ક્ષમતા વધે છે અને પ્રદર્શન સતત રહે છે - તમારા બિલ કે પેજરને બગાડ્યા વિના.
નાનો ભેદ, મોટા પરિણામો.
AI માં સ્કેલ કેમ કામ કરે છે: સ્કેલિંગ કાયદાનો વિચાર 📚
મોડેલનું કદ, ડેટા અને કારણસર ગણતરી કરો છો ત્યારે નુકસાન અનુમાનિત રીતે વધે છે ગણતરી-શ્રેષ્ઠ સંતુલન ; બંનેને એકસાથે સ્કેલિંગ કરવાથી ફક્ત એક જ સ્કેલિંગ કરતાં વધુ ફાયદો થાય છે. વ્યવહારમાં, આ વિચારો તાલીમ બજેટ, ડેટાસેટ આયોજન અને સેવા આપતી ટ્રેડ-ઓફને માહિતી આપે છે [4].
ઝડપી અનુવાદ: મોટું વધુ સારું હોઈ શકે છે, પરંતુ ફક્ત ત્યારે જ જ્યારે તમે ઇનપુટ્સને માપો અને પ્રમાણમાં ગણતરી કરો - નહીં તો તે સાયકલ પર ટ્રેક્ટરના ટાયર મૂકવા જેવું છે. તે તીવ્ર લાગે છે, ક્યાંય જતું નથી.
આડું વિરુદ્ધ ઊભું: બે સ્કેલિંગ લિવર 🔩
-
વર્ટિકલ સ્કેલિંગ : મોટા બોક્સ, વધુ મજબૂત GPU, વધુ મેમરી. સરળ, ક્યારેક મોંઘું. સિંગલ-નોડ તાલીમ, ઓછી લેટન્સી અનુમાન માટે અથવા જ્યારે તમારું મોડેલ સારી રીતે શાર્ડ કરવાનો ઇનકાર કરે છે ત્યારે સારું.
-
હોરીઝોન્ટલ સ્કેલિંગ : વધુ પ્રતિકૃતિઓ. ઓટોસ્કેલર્સ જે CPU/GPU અથવા કસ્ટમ એપ્લિકેશન મેટ્રિક્સના આધારે પોડ્સ ઉમેરે છે અથવા દૂર કરે છે. કુબર્નેટ્સમાં, હોરીઝોન્ટલપોડઓટોસ્કેલર ટ્રાફિક સ્પાઇક્સ માટે તમારા મૂળભૂત ભીડ નિયંત્રણની માંગના પ્રતિભાવમાં પોડ્સને સ્કેલ કરે છે [1].
ટુચકો (સંયુક્ત): હાઇ-પ્રોફાઇલ લોન્ચ દરમિયાન, ફક્ત સર્વર-સાઇડ બેચિંગને સક્ષમ કરીને અને ઓટોસ્કેલરને કોઈપણ ક્લાયંટ ફેરફારો વિના કતાર ડેપ્થ સ્ટેબિલાઇઝ્ડ p95 પર પ્રતિક્રિયા આપવા દે છે. અનફ્લેશી જીત હજુ પણ જીત છે.
AI સ્કેલેબિલિટીનો સંપૂર્ણ સ્ટેક 🥞
-
ડેટા લેયર : ફાસ્ટ ઑબ્જેક્ટ સ્ટોર્સ, વેક્ટર ઇન્ડેક્સ અને સ્ટ્રીમિંગ ઇન્જેશન જે તમારા ટ્રેનર્સને થ્રોટલ કરશે નહીં.
-
તાલીમ સ્તર : વિતરિત ફ્રેમવર્ક અને શેડ્યૂલર્સ જે ડેટા/મોડેલ સમાંતરતા, ચેકપોઇન્ટિંગ, પુનઃપ્રયાસોને હેન્ડલ કરે છે.
-
સર્વિંગ લેયર : ઑપ્ટિમાઇઝ્ડ રનટાઇમ્સ, ડાયનેમિક બેચિંગ , પેજ્ડ એટેન્શન , કેશિંગ, ટોકન સ્ટ્રીમિંગ. ટ્રાઇટોન અને vLLM અહીં વારંવાર હીરો છે [2][3].
-
ઓર્કેસ્ટ્રેશન : HPA અથવા કસ્ટમ ઓટોસ્કેલર્સ દ્વારા સ્થિતિસ્થાપકતા માટે કુબર્નેટ્સ [1].
-
અવલોકનક્ષમતા : ટ્રેસ, મેટ્રિક્સ અને લોગ જે ઉત્પાદનમાં વપરાશકર્તાની મુસાફરી અને મોડેલ વર્તણૂકને અનુસરે છે; તેમને તમારા SLOs [5] ની આસપાસ ડિઝાઇન કરો.
-
શાસન અને ખર્ચ : પ્રતિ-વિનંતી અર્થશાસ્ત્ર, બજેટ અને રનઅવે વર્કલોડ માટે કિલ-સ્વિચ.
સરખામણી કોષ્ટક: AI સ્કેલેબિલિટી માટે સાધનો અને પેટર્ન 🧰
હેતુસર થોડું અસમાન - કારણ કે વાસ્તવિક જીવન છે ...
| સાધન / પેટર્ન | પ્રેક્ષક | ભાવ-પ્રિય | તે કેમ કામ કરે છે | નોંધો |
|---|---|---|---|---|
| કુબર્નેટ્સ + એચપીએ | પ્લેટફોર્મ ટીમો | ઓપન સોર્સ + ઇન્ફ્રા | મેટ્રિક્સમાં વધારો થતાં પોડ્સને આડા સ્કેલ કરે છે | કસ્ટમ મેટ્રિક્સ સોના જેવા છે [1] |
| NVIDIA ટ્રાઇટોન | અનુમાન SRE | મફત સર્વર; GPU $ | ગતિશીલ બેચિંગ થ્રુપુટને વધારે છે | config.pbtxt [2] દ્વારા ગોઠવો |
| vLLM (પેજ્ડએટેન્શન) | એલએલએમ ટીમો | ઓપન સોર્સ | કાર્યક્ષમ KV-કેશ પેજિંગ દ્વારા ઉચ્ચ થ્રુપુટ | લાંબા સંકેતો માટે ઉત્તમ [3] |
| ONNX રનટાઇમ / ટેન્સરઆરટી | પર્ફ નર્ડ્સ | મફત / વિક્રેતા સાધનો | કર્નલ-સ્તર ઑપ્ટિમાઇઝેશન લેટન્સી ઘટાડે છે | નિકાસ પાથ અસ્પષ્ટ હોઈ શકે છે |
| આરએજી પેટર્ન | એપ્લિકેશન ટીમો | ઇન્ફ્રા + ઇન્ડેક્સ | જ્ઞાનને પુનઃપ્રાપ્તિ માટે મોકલે છે; સૂચકાંકને માપે છે | તાજગી માટે ઉત્તમ |
ઊંડાણમાં ડૂબકી લગાવવી ૧: સોયને ખસેડતી યુક્તિઓ પીરસવી 🚀
-
ડાયનેમિક બેચિંગ નાના અનુમાન કોલ્સને સર્વર પર મોટા બેચમાં જૂથબદ્ધ કરે છે, જે ક્લાયન્ટ ફેરફારો વિના GPU ઉપયોગને નાટકીય રીતે વધારે છે [2].
-
પેજ્ડ એટેન્શન KV કેશને પેજ કરીને મેમરીમાં વધુ વાતચીતો રાખે છે, જે કોનકરન્સી [3] હેઠળ થ્રુપુટને સુધારે છે.
-
કોલેસિંગ અને કેશીંગની વિનંતી કરો, ડુપ્લિકેટ કાર્ય ટાળો.
-
સટ્ટાકીય ડીકોડિંગ અને ટોકન સ્ટ્રીમિંગ, દિવાલ-ઘડિયાળ ભાગ્યે જ બદલાય તો પણ, દેખીતી વિલંબતા ઘટાડે છે.
ડીપ ડાઇવ 2: મોડેલ-સ્તરની કાર્યક્ષમતા - ક્વોન્ટાઇઝ, ડિસ્ટિલ, પ્રુન 🧪
-
ક્વોન્ટાઇઝેશન મેમરીને સંકોચવા અને અનુમાનને ઝડપી બનાવવા માટે પરિમાણ ચોકસાઇ (દા.ત., 8-બીટ/4-બીટ) ઘટાડે છે; ફેરફારો પછી હંમેશા કાર્ય ગુણવત્તાનું ફરીથી મૂલ્યાંકન કરો.
-
ડિસ્ટિલેશન એક મોટા શિક્ષક પાસેથી જ્ઞાન એક નાના વિદ્યાર્થીને ટ્રાન્સફર કરે છે જે તમારા હાર્ડવેરને ખરેખર ગમે છે.
-
સંરચિત કાપણી એવા વજન/માથાઓને કાપે છે જે ઓછામાં ઓછા ફાળો આપે છે.
સાચું કહું તો, એ તમારા સુટકેસનું કદ ઘટાડીને પછી તમારા બધા જૂતા ફિટ રહે તેવો આગ્રહ રાખવા જેવું છે. કોઈક રીતે, મોટે ભાગે તો એવું જ થાય છે.
ડીપ ડાઇવ ૩: આંસુ વગર ડેટા અને તાલીમ સ્કેલિંગ 🧵
-
વિતરિત તાલીમનો ઉપયોગ કરો જે સમાંતરતાના ગૂંચવણભર્યા ભાગોને છુપાવે છે જેથી તમે પ્રયોગો ઝડપથી મોકલી શકો.
-
તે સ્કેલિંગ કાયદાઓ : મોડેલ કદ અને ટોકન્સ અનુસાર બજેટ વિચારપૂર્વક ફાળવો; બંનેને એકસાથે સ્કેલિંગ કરવું ગણતરી-કાર્યક્ષમ છે [4].
-
અભ્યાસક્રમ અને ડેટા ગુણવત્તા ઘણીવાર લોકો સ્વીકારે છે તેના કરતાં પરિણામોને વધુ બદલી નાખે છે. સારો ડેટા ક્યારેક વધુ ડેટાને હરાવી દે છે - ભલે તમે પહેલાથી જ મોટા ક્લસ્ટરનો ઓર્ડર આપ્યો હોય.
ડીપ ડાઇવ ૪: જ્ઞાન માટે સ્કેલિંગ વ્યૂહરચના તરીકે RAG 🧭
બદલાતા તથ્યો સાથે તાલમેલ રાખવા માટે મોડેલને ફરીથી તાલીમ આપવાને બદલે, RAG અનુમાન પર પુનઃપ્રાપ્તિ પગલું ઉમેરે છે. તમે મોડેલને સ્થિર રાખી શકો છો અને ઇન્ડેક્સ અને પુનઃપ્રાપ્તિકર્તાઓને છો. ભવ્ય - અને ઘણીવાર જ્ઞાન-ભારે એપ્લિકેશનો માટે સંપૂર્ણ પુનઃપ્રશિક્ષણ કરતાં સસ્તું.
અવલોકનક્ષમતા જે પોતાના માટે ચૂકવણી કરે છે 🕵️♀️
તમે જે જોઈ શકતા નથી તેને માપી શકતા નથી. બે આવશ્યક બાબતો:
-
ક્ષમતા આયોજન અને ઓટોસ્કેલિંગ માટેના મેટ્રિક્સ
-
ગેટવે → પુનઃપ્રાપ્તિ → મોડેલ → પોસ્ટ-પ્રોસેસિંગમાં એક જ વિનંતીને અનુસરતા ટ્રેસ
જ્યારે ડેશબોર્ડ એક મિનિટથી ઓછા સમયમાં પ્રશ્નોના જવાબ આપી દે છે, ત્યારે લોકો તેનો ઉપયોગ કરે છે. જ્યારે તેઓ જવાબ આપતા નથી, ત્યારે તેઓ ડોળ કરે છે કે તેઓ જવાબ આપે છે.
વિશ્વસનીયતા રેલ: SLO, ભૂલ બજેટ, યોગ્ય રોલઆઉટ્સ 🧯
-
લેટન્સી, ઉપલબ્ધતા અને પરિણામ ગુણવત્તા માટે SLOs વ્યાખ્યાયિત કરો રીલીઝ વેગ [5] સાથે વિશ્વસનીયતાને સંતુલિત કરવા માટે ભૂલ બજેટનો
-
ટ્રાફિક સ્પ્લિટ પાછળ તૈનાત રહો, કેનેરી કરો અને ગ્લોબલ કટઓવર પહેલાં શેડો ટેસ્ટ ચલાવો. તમારો ભાવિ સ્વ નાસ્તો મોકલશે.
નાટક વિના ખર્ચ નિયંત્રણ 💸
સ્કેલિંગ ફક્ત ટેકનિકલ નથી; તે નાણાકીય છે. યુનિટ ઇકોનોમિક્સ (1k ટોકન દીઠ ખર્ચ, પ્રતિ એમ્બેડિંગ, પ્રતિ વેક્ટર ક્વેરી) સાથે GPU કલાકો અને ટોકન્સને પ્રથમ-વર્ગના સંસાધનો તરીકે ગણો. બજેટ અને ચેતવણી ઉમેરો; વસ્તુઓ કાઢી નાખવાની ઉજવણી કરો.
AI સ્કેલેબિલિટી માટે એક સરળ રોડમેપ 🗺️
-
p95 લેટન્સી, ઉપલબ્ધતા અને કાર્ય ચોકસાઈ માટે SLOs થી શરૂઆત કરો
-
સર્વિંગ સ્ટેક પસંદ કરો : ટ્રાઇટોન, વીએલએલએમ, અથવા સમકક્ષ [2][3].
-
મોડેલને ઑપ્ટિમાઇઝ કરો : જ્યાં તે મદદ કરે છે ત્યાં ક્વોન્ટાઇઝ કરો, ઝડપી કર્નલોને સક્ષમ કરો, અથવા ચોક્કસ કાર્યો માટે ડિસ્ટિલ કરો; વાસ્તવિક મૂલ્યાંકન સાથે ગુણવત્તાને માન્ય કરો.
-
સ્થિતિસ્થાપકતા માટે આર્કિટેક્ટ : યોગ્ય સંકેતો, અલગ વાંચન/લેખન પાથ અને સ્ટેટલેસ ઇન્ફરન્સ પ્રતિકૃતિઓ સાથે કુબર્નેટ્સ HPA [1].
-
પુનઃપ્રાપ્તિ અપનાવો જેથી તમે દર અઠવાડિયે ફરીથી તાલીમ આપવાને બદલે તમારા ઇન્ડેક્સને સ્કેલ કરી શકો.
-
ખર્ચ સાથે લૂપ બંધ કરો : એકમ અર્થશાસ્ત્ર અને સાપ્તાહિક સમીક્ષાઓ સ્થાપિત કરો.
સામાન્ય નિષ્ફળતા મોડ્સ અને ઝડપી સુધારાઓ 🧨
-
GPU 30% ઉપયોગિતા પર છે જ્યારે લેટન્સી ખરાબ છે
-
ડાયનેમિક બેચિંગ ચાલુ કરો , બેચ કેપ્સ કાળજીપૂર્વક વધારો, અને સર્વર કોનકરન્સી [2] ફરીથી તપાસો.
-
-
લાંબા સંકેતો સાથે થ્રુપુટ તૂટી જાય છે
-
પેજ્ડ એટેન્શનને સપોર્ટ કરતી સર્વિંગનો ઉપયોગ કરો અને મહત્તમ સમવર્તી સિક્વન્સને ટ્યુન કરો [3].
-
-
ઓટોસ્કેલર ફ્લૅપ્સ
-
વિન્ડોઝ સાથે સરળ મેટ્રિક્સ; શુદ્ધ CPU [1] ને બદલે કતારની ઊંડાઈ અથવા કસ્ટમ ટોકન્સ-પ્રતિ-સેકન્ડ પર સ્કેલ કરો.
-
-
લોન્ચ પછી ખર્ચમાં વધારો
-
વિનંતી-સ્તરના ખર્ચ મેટ્રિક્સ ઉમેરો, જ્યાં સલામત હોય ત્યાં ક્વોન્ટાઇઝેશન સક્ષમ કરો, ટોચની ક્વેરીઝને કેશ કરો અને સૌથી ખરાબ અપરાધીઓને દર-મર્યાદા આપો.
-
AI સ્કેલેબિલિટી પ્લેબુક: ઝડપી ચેકલિસ્ટ ✅
-
SLO અને ભૂલ બજેટ અસ્તિત્વમાં છે અને દૃશ્યમાન છે
-
મેટ્રિક્સ: લેટન્સી, tps, GPU મેમ, બેચ સાઈઝ, ટોકન/ઓ, કેશ હિટ
-
પ્રવેશથી મોડેલ અને પોસ્ટ-પ્રોક સુધીના ટ્રેસ
-
સર્વિંગ: બેચિંગ ચાલુ, કોનકરન્સી ટ્યુન, ગરમ કેશ
-
મોડેલ: જ્યાં તે મદદ કરે છે ત્યાં ક્વોન્ટાઇઝ્ડ અથવા ડિસ્ટિલ્ડ
-
ઇન્ફ્રા: યોગ્ય સિગ્નલો સાથે ગોઠવેલ HPA
-
જ્ઞાન તાજગી માટે પુનઃપ્રાપ્તિ માર્ગ
-
એકમ અર્થશાસ્ત્રની વારંવાર સમીક્ષા કરવામાં આવે છે
ખૂબ લાંબા સમય સુધી વાંચ્યું નથી અને અંતિમ ટિપ્પણીઓ 🧩
AI સ્કેલેબિલિટી એ કોઈ એક સુવિધા કે ગુપ્ત સ્વિચ નથી. તે એક પેટર્ન ભાષા છે: ઓટોસ્કેલર્સ સાથે આડી સ્કેલિંગ, ઉપયોગ માટે સર્વર-સાઇડ બેચિંગ, મોડેલ-સ્તરની કાર્યક્ષમતા, જ્ઞાનને ઑફલોડ કરવા માટે પુનઃપ્રાપ્તિ, અને અવલોકનક્ષમતા જે રોલઆઉટ્સને કંટાળાજનક બનાવે છે. SLOs નો છંટકાવ કરો અને દરેકને સંરેખિત રાખવા માટે સ્વચ્છતાનો ખર્ચ કરો. તમે પહેલી વાર તેને સંપૂર્ણ નહીં મેળવી શકો - કોઈને નહીં - પરંતુ યોગ્ય પ્રતિસાદ લૂપ્સ સાથે, તમારી સિસ્ટમ રાત્રે 2 વાગ્યે ઠંડા-પરસેવાની લાગણી વિના વધશે 😅
સંદર્ભ
[1] કુબર્નેટ્સ ડોક્સ - હોરિઝોન્ટલ પોડ ઓટોસ્કેલિંગ - વધુ વાંચો
[2] NVIDIA ટ્રાઇટોન - ડાયનેમિક બેચર - વધુ વાંચો
[3] vLLM દસ્તાવેજો - પૃષ્ઠ પર ધ્યાન આપો - વધુ વાંચો
[4] હોફમેન અને અન્ય (2022) - તાલીમ કમ્પ્યુટ-ઓપ્ટિમલ લાર્જ લેંગ્વેજ મોડેલ્સ - વધુ વાંચો
[5] ગૂગલ એસઆરઇ વર્કબુક - એસએલઓ અમલમાં મૂકવું - વધુ વાંચો