કૃત્રિમ બુદ્ધિ હવે સ્પ્રેડશીટ્સમાં અટવાયેલી નથી. તે સ્કેચિંગ, પેઇન્ટિંગ, કોલાજિંગ છે - ક્યારેક અસ્વસ્થતા અનુભવે છે. જો તમે ક્યારેય બેસીને વિચાર્યું હોય, તો ઠીક છે, પણ હું ખરેખર AI ને શું દોરવું તે કેવી રીતે કહી શકું? - ત્યાંથી "AI માટે કલા શૈલીઓ" નો વિચાર આવે છે.
નીચે, આપણે ટેક્સ્ટ-ટુ-ઇમેજ સિસ્ટમ્સ સાથે કઈ શૈલીઓ શ્રેષ્ઠ ક્લિક કરે છે, તે શા માટે કરે છે, અને તમે તમારી પોતાની સ્પાર્ક ગુમાવ્યા વિના તેમને કેવી રીતે ચલાવી શકો છો તે જોઈશું. હું હાથથી પરીક્ષણમાંથી કેટલીક વ્યવહારુ નોંધો (જેમાં ખરેખર બહુવિધ રનમાં શું રોકાય છે તે શામેલ છે) અને કેટલાક તકનીકી ભાગો ઉમેરીશ જેથી પ્રક્રિયા પાસા ફેરવવા જેવી ઓછી લાગે [1][2][3][4][5].
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI આર્ટ કેવી રીતે બનાવવી: નવા નિશાળીયા માટે સંપૂર્ણ માર્ગદર્શિકા
AI-જનરેટેડ ડિજિટલ આર્ટવર્ક બનાવવા માટે સ્ટેપ-બાય-સ્ટેપ શિખાઉ માણસો માટે માર્ગદર્શિકા.
🔗 એઆઈ-જનરેટેડ કલાનો ઉદય: સર્જનાત્મકતાનો ઉદય કે વિવાદ ઉભો કરવો
AI-જનરેટેડ કલાની આસપાસ સર્જનાત્મકતા, નીતિશાસ્ત્ર અને ચર્ચાઓનું અન્વેષણ કરવું.
🔗 ગ્રાફિક ડિઝાઇન માટે શ્રેષ્ઠ AI ટૂલ્સ: ટોચના AI-સંચાલિત ડિઝાઇન સોફ્ટવેર
આધુનિક ગ્રાફિક ડિઝાઇન વર્કફ્લોને પરિવર્તિત કરતા શક્તિશાળી AI સાધનો શોધો.
AI માટે કલા શૈલીઓ ખરેખર સારી શું બનાવે છે? ✨
શૈલીઓ પસંદ કરવી એ ફક્ત ટ્રેન્ડનો પીછો કરવો નથી. કેટલીક શૈલીઓ મોડેલો માટે સરળતાથી પકડી શકાય છે. તેના કેટલાક કારણો:
-
સ્પષ્ટતા - ખરેખર અલગ "નિયમો" (ક્યુબિઝમની ખંડિત ભૂમિતિ; મંગાના લાઇન-હેવી પેનલ્સ) ધરાવતી શૈલીઓ વધુ પુનરાવર્તિત થાય છે કારણ કે લક્ષ્ય દ્રશ્યો એટલા ડ્રિફ્ટ થતા નથી [3][4].
-
સુગમતા - મિશ્રણ-મૈત્રીપૂર્ણ શૈલીઓ (જેમ કે, "સાયબરપંક + વાસ્તવિકતા") આધુનિક પ્રસાર મોડેલોને વસ્તુઓને સ્વચ્છ રીતે મિશ્રિત કરવા માટે ક્રોસ-એટેન્સ પર આધાર રાખે છે [1].
-
ઓળખાણક્ષમતા - તાલીમ ડેટામાં હજાર વખત જોવા મળેલી શૈલીઓ (એનાઇમ, છાપવાદ, ફોટોરિયલિઝમ) વધુ વિશ્વાસુપણે બહાર આવે છે [2].
-
મૂડ/વાતાવરણ - "ઉદાસ," "શાંત," અથવા "નિયોન-પ્રકાશિત" જેવા શબ્દો લાઇટિંગ, પેલેટ અને રચનાને એવી રીતે બદલી નાખે છે જે ઇરાદાપૂર્વક લાગે છે [5].
ધ્યેય કોઈ ક્લિનિકલ "ચોકસાઈ" નથી. તે તમારા મૂડ અથવા વાર્તા માટે એક કન્ટેનર તરીકે શૈલી છે - અને મોડેલને કેવી રીતે પ્રોમ્પ્ટ કરવું તે શીખવું જેથી તે વારંવાર તે કન્ટેનરને હિટ કરી શકે.
AI શૈલી કેવી રીતે "જુએ છે" (સાદો સંસ્કરણ, કોઈ જાર્ગન ઓવરલોડ નહીં)
આધુનિક ટેક્સ્ટ-ટુ-ઇમેજ મોડેલો ત્રણ બાબતોને જોડે છે:
-
ટેક્સ્ટ-ઇમેજ મેચિંગ - CLIP જેવી સિસ્ટમો શીખે છે કે "કયા શબ્દો કયા દેખાવ સાથે જાય છે." તેથી જ્યારે તમે "ગ્રિટી ઇન્ક વોશ" કહો છો, ત્યારે તે તે શબ્દસમૂહને વિઝ્યુઅલ્સ [3] સાથે મેપ કરે છે.
-
ગુપ્ત અવકાશમાં પ્રસરણ - ગુપ્ત અવકાશમાં, ગુપ્ત પ્રસરણ ધીમે ધીમે તમારા વર્ણન તરફ ઘોંઘાટીયા છબીને તીક્ષ્ણ બનાવે છે. આ રીતે તે કાર્યક્ષમતા અને નિયંત્રણ બંને મેળવે છે [1].
-
પ્રોમ્પ્ટ મોડિફાયર - નાના "કમ્યુનિટી હેક્સ" - સિનેમેટિક લાઇટિંગ, રિમ લાઇટ, હાઇ-કોન્ટ્રાસ્ટ ફિલ્મ ગ્રેઇન - એ એડજસ્ટેબલ ડાયલ્સ જેવા છે જેને તમે સ્ટેક કરી શકો છો [5].
આ શા માટે મહત્વનું છે: જો તાલીમ ડેટામાં શૈલી સ્પષ્ટ રીતે અસ્તિત્વમાં હોય અને તમે તેને યોગ્ય એડ-ઓન્સ સાથે વર્ણવો, તો તમને સતત પરિણામો મળશે - ઝડપી [1][2][5].
સરખામણી કોષ્ટક: AI માટે લોકપ્રિય કલા શૈલીઓ 🖌️
અવ્યવસ્થિત પણ ઉપયોગી ચીટ શીટ આવી રહી છે:
| કલા શૈલી | પ્રેક્ષક | કિંમત (AI ટૂલ્સ) | તે કેમ કામ કરે છે |
|---|---|---|---|
| વાસ્તવિકતા | ફોટોગ્રાફર્સ, બ્રાન્ડ્સ | મફત – $$$ | સુંદર અને વિશ્વસનીય લાગે છે |
| એનાઇમ/માંગા | નાના ચાહકો, રમનારાઓ | મફત - મધ્યમ કિંમત | મજબૂત રેખા માળખું; તરત જ વાંચી શકાય તેવું |
| અતિવાસ્તવવાદ | સર્જનાત્મક, સ્વપ્ન જોનારા | મુક્ત-પ્રેમી | વિચિત્ર મેશઅપ્સ ડિફ્યુઝનમાં સારી રીતે ફિટ થાય છે |
| સાયબરપંક | ટેક પ્રેમીઓ, ભવિષ્યવાદીઓ | ઘણીવાર મફત એડ-ઓન્સ | નિયોન + કોન્ટ્રાસ્ટ = ઇન્સ્ટન્ટ વાહ ફેક્ટર ⚡ |
| પ્રભાવવાદ | કલા ઉત્સાહીઓ | મધ્યમ ખર્ચ | આછા + બ્રશવાળા ટેક્સચર મોડેલ-ફ્રેન્ડલી છે |
| લો પોલી 3D | ડિઝાઇનર્સ, વિકાસકર્તાઓ | વૈવિધ્યસભર | સરળ ભૂમિતિ પરિણામોને સુસંગત રાખે છે |
| પિક્સેલ આર્ટ | રમનારાઓ, જૂની યાદો શોધનારાઓ | મફત (મોટાભાગે) | હાર્ડ કન્સ્ટ્રેઇન્ટ્સ માર્ગદર્શિકા રચના |
ફીલ્ડ સ્ક્રિબલ: સાયબરપંક માટે, "સોફ્ટ રિમ-લાઇટ + વોલ્યુમેટ્રિક ફોગ" વિષયો પોપ થાય છે. પિક્સેલ આર્ટ માટે, ઓવર-ક્લીન આઉટપુટ ટાળવા માટે "8-બીટ, 32×32, મર્યાદિત પેલેટ"
ઊંડાણપૂર્વક ડાઇવ: વાસ્તવિકતા વિરુદ્ધ અતિવાસ્તવવાદ 🎭
વાસ્તવવાદ એ પ્રમાણ અને વિગતો વિશે છે - માર્કેટિંગ કોમ્પ્સ અથવા પ્રોડક્ટ ડિઝાઇન માટે સંપૂર્ણ, જ્યાં વિશ્વસનીયતા મહત્વપૂર્ણ છે. ફોટોરિયલ, છીછરા DOF, સ્ટુડિયો લાઇટિંગ, 85mm લેન્સ AI ને સ્પષ્ટ ટેકનિકલ એન્કર આપે છે.
બીજી બાજુ, અતિવાસ્તવવાદ સ્વપ્ન જેવું, અશક્ય ભૂમિતિ, એસ્ચર-એસ્ક્યુ .
એનાઇમ અને માંગા: ધ એઆઈ ડાર્લિંગ 🌸
એનાઇમ/મંગા લગભગ અયોગ્ય રીતે અસરકારક છે. વ્યાખ્યાયિત રેખીય, સેલ શેડિંગ અને આઇકોનિક પ્રમાણ મોડેલને એક લૉક-ઇન ટેમ્પ્લેટ આપે છે, વત્તા તે તાલીમ ડેટામાં હાસ્યાસ્પદ રીતે સામાન્ય છે [2]. અને હાઇબ્રિડ? ગોલ્ડ. સાયબરપંક એનાઇમ સમુરાઇ અથવા સ્ટીમપંક મંગા ડિટેક્ટીવ .
પાલખને આધાર આપવા માટે પ્રોત્સાહિત કરો:
-
"એનાઇમ કી વિઝ્યુઅલ, ડાયનેમિક પોઝ, ક્લીન રેખીય, સેલ શેડિંગ, એક્સપ્રેસિવ આંખો, વિગતવાર પૃષ્ઠભૂમિ"
-
"મંગા પેનલ, સ્ક્રીનટોન શેડિંગ, ડચ એંગલ, શાહી ભાર"
પોતાના માટે નોંધ: જો આઉટપુટ કાદવવાળું લાગે, તો "ક્લીન રેખીય, ફ્લેટ શેડિંગ" અથવા "મર્યાદિત પેલેટ" સાથે રંગોને મર્યાદિત કરો.
સાયબરપંક અને ભવિષ્યવાદી શૈલીઓ ⚡
નિયોન ચિહ્નો, ક્રોમ પ્રતિબિંબો, વરસાદી રાતો - આ મોડેલ આ બધું ખાઈ જાય છે. ડિફ્યુઝન ઉચ્ચ-કોન્ટ્રાસ્ટ લાઇટિંગ + પ્રતિબિંબિત સામગ્રીને "નિયોન-લાઇટ એલી, વોલ્યુમેટ્રિક ફોગ, પુડલ રિફ્લેક્શન્સ" જેવા પ્રોમ્પ્ટ ઘણીવાર પોસ્ટર-રેડી લાગે છે.
ફિક્સ ટિપ: મીણ જેવા ચહેરા? પ્રોમ્પ્ટમાં "સબસર્ફેસ સ્કેટરિંગ, ફિલ્મિક ગ્રેડિંગ"
છાપવાદ અને ચિત્રકારી રચનાઓ 🎨
અહીં, વિગતો રાજા નથી. પ્રભાવવાદ નરમ ધાર, તૂટેલા રંગ અને પ્રકાશ રમત પર ખીલે છે. દૃશ્યમાન બ્રશસ્ટ્રોક, પ્લેઇન-એર લાઇટિંગ, ગોલ્ડન અવર જેવા સંકેતો સારી રીતે કાર્ય કરે છે. મોડેલ વધુ પડતા રેન્ડરિંગ વિના વિગતો સૂચવે છે, જે - પૂરતું રમુજી - પ્રમાણિક અને ગણતરીત્મક રીતે સરળ બંને છે [4].
મિનિમલિઝમ, પિક્સેલ આર્ટ અને રેટ્રો 🕹️
મર્યાદાઓ સરળ બનાવે છે. લો-પોલી ભૂમિતિ સ્પષ્ટતા પર આધાર રાખે છે; પિક્સેલ આર્ટ રિઝોલ્યુશન + પેલેટ દ્વારા લૉક થયેલ છે.
મદદરૂપ પ્રોમ્પ્ટ ફ્રેમ્સ:
-
"લો-પોલી ડાયોરામા, સખત ધાર, સપાટ શેડિંગ, એમ્બિયન્ટ ઓક્લુઝન"
-
"પિક્સેલ આર્ટ, 32×32 સ્પ્રાઈટ, NES શૈલી, મર્યાદિત ડિથરિંગ"
સાઈડ-નોટ: જો પિક્સેલ આર્ટ ખૂબ જ સ્લીક લાગે છે, તો એનાલોગ ગ્રિટ માટે "CRT સ્કેનલાઈન્સ, ડાયથર્ડ શેડોઝ"
હાઇબ્રિડ મેશઅપ્સ: જ્યાં AI ચમકે છે ✨
વાઇલ્ડ કાર્ડ: ક્રોસ-પોલિનેશન. ડિફ્યુઝન તમને એવા પ્રભાવોને મર્જ કરવાની મંજૂરી આપે છે જે મોટાભાગના કલાકારો સ્પર્શતા નથી - વેન ગો સાયબરપંક , એનાઇમ નોઇર ક્યુબિઝમ , રેનેસાં મેકા એન્જલ. આ ન્યુરલ સ્ટાઇલ ટ્રાન્સફર 2.0 જેવું છે, પરંતુ વધુ નિયંત્રિત [1][4].
રેસીપી ફોર્મેટ:
[વિષય] + [યુગ/ગતિ] + [પ્રકાશ] + [મધ્યમ/સામગ્રી] + [રચના] + [પેલેટ/મૂડ]
ઉદાહરણ તરીકે: "છત પર વાયોલિનવાદક - પ્રભાવવાદી તેલ ચિત્ર - ગોલ્ડન અવર બેકલાઇટ - ઓફ-સેન્ટર - નોસ્ટાલ્જિક પેલેટ."
પરિણામોને ખરેખર બદલી નાખતા ઝડપી દાખલાઓ 🛠️
વારંવારના ટ્રાયલ રનમાંથી:
-
મીડિયમ + સ્ટાઇલ પેરિંગ ધાર/ટેક્ષ્ચરને સ્પષ્ટ કરે છે: ઓઇલ અતિવાસ્તવવાદ, ડિજિટલ મંગા [5].
-
લાઇટિંગ ફર્સ્ટ શબ્દોના સંગ્રહ કરતાં વાસ્તવિકતામાં વધુ ફેરફાર કરે છે.
-
કેમેરા ભાષા (ખૂણા, લેન્સ લંબાઈ) તાત્કાલિક આગાહી આપે છે.
-
લઘુત્તમવાદ અથવા પિક્સેલ આર્ટ માટે રીઝોલ્યુશન/પેલેટ પર પ્રતિબંધો
-
નાના ફેરફારો > મોટા પુનર્લેખન . "નિયોન" → "સોડિયમ-વેપર" ને બદલવાનું ઘણીવાર સંપૂર્ણ ઓવરઓલ કરતાં વધુ અસરકારક હોય છે [5].
એક ઝડપી વાસ્તવિકતા તપાસ 🔍
-
પૂર્વગ્રહ - ઓનલાઇન સામાન્ય શૈલીઓ (એનાઇમ, ફોટોરિયલિઝમ) પરિણામો પર પ્રભુત્વ ધરાવે છે; દુર્લભ શૈલીઓને સંદર્ભ અથવા ફાઇન-ટ્યુનિંગની જરૂર છે [2].
-
શા માટે સરિયલ કામ કરે છે - ડિફ્યુઝનની ઢીલાશ શરીરરચનાની ભૂલોને છુપાવે છે - વિચિત્ર વસ્તુઓને ઇરાદાપૂર્વકની લાગે છે [1].
-
પ્રોમ્પ્ટ ડ્રિફ્ટ - જો દરેક આઉટપુટ સરખું દેખાય, તો વિષયવસ્તુને ફરીથી ગોઠવતા પહેલા મોડિફાયરમાં ફેરફાર કરો [5].
-
અધિકારો/નૈતિકતા - ડેટાસેટ્સનો વ્યાપક ઉપયોગ થાય છે; આઉટપુટનો જવાબદારીપૂર્વક ઉપયોગ કરો, ખાસ કરીને વ્યાપારી રીતે [2].
મીની કેસ નોટ્સ (મારા સેન્ડબોક્સમાંથી) 🧪
-
સાયબરપંક પોટ્રેટ - “પોટ્રેટ, ટીલ-મેજેન્ટા નિયોન, રેની એલી, રિમ-લાઇટ, 85 મીમી, સિનેમેટિક બોકેહ”
કામ કર્યું કારણ કે: લેન્સ + લાઇટિંગ નેઇલ કરેલ વિષય/પૃષ્ઠભૂમિ વિભાજન. -
પ્રભાવવાદી લેન્ડસ્કેપ - "સોનેરી કલાકે નદી કિનારે, પ્રભાવવાદી તેલ ચિત્ર, દૃશ્યમાન બ્રશસ્ટ્રોક"
કારણ કે કામ કર્યું: મધ્યમ સેટ ટેક્સચર, લાઇટિંગ ગરમીને નિયંત્રિત કરે છે. -
પિક્સેલ-આર્ટ ક્રિએચર - “32×32 પિક્સેલ ડ્રેગન, મર્યાદિત ડિથરિંગ, 1-પિક્સેલ આઉટલાઇન, આઇસોમેટ્રિક”
કામ કર્યું કારણ કે: અવરોધોએ સ્મૂથિંગ બંધ કર્યું.
ઝડપી સંદર્ભ સંકેતો (કૉપિ/પેસ્ટ કરો)
-
વાસ્તવવાદ (ઉત્પાદન): "સ્ટુડિયો પ્રોડક્ટ ફોટો, સોફ્ટબોક્સ લાઇટિંગ, 50mm લેન્સ, ગ્લોસી સિરામિક, ક્લીન સ્વીપ"
-
એનાઇમ એક્શન: "એનાઇમ કી વિઝ્યુઅલ, ફોરશોર્ટન ડાયનેમિક પોઝ, સેલ શેડિંગ, સ્પીડ લાઇન્સ"
-
અતિવાસ્તવ કોલાજ: "સ્વપ્ન દૃશ્ય, અશક્ય ભૂમિતિ, તરતી સીડીઓ, નરમ ધુમ્મસ, સોનેરી કલાકનો પ્રકાશ અનાજ"
-
લો-પોલી સીન: "આઇસોમેટ્રિક લો-પોલી ટાઉન, ફ્લેટ શેડિંગ, એમ્બિયન્ટ ઓક્લુઝન, પેસ્ટલ પેલેટ"
-
પ્રભાવવાદી પોટ્રેટ: "કેનવાસ પર તેલ, છૂટક બ્રશવર્ક, રિમ લાઇટ, ઇમ્પેસ્ટો હાઇલાઇટ્સ"
નિષ્કર્ષ 🖼️
"AI માટે કલા શૈલીઓ" નિયમો નથી - તે રમતના મેદાનો છે. જ્યારે વિશ્વાસ મહત્વપૂર્ણ હોય ત્યારે વાસ્તવિકતા કામ કરે છે; જ્યારે તમે વાસ્તવિકતાને તોડવા માંગતા હો ત્યારે અતિવાસ્તવવાદ; જ્યારે તમને સ્પષ્ટતાની જરૂર હોય ત્યારે એનાઇમ/મંગા શૈલીઓને જોડવાની જગ્યા સાથે. વિજેતા વ્યૂહરચના સ્ટ્રક્ચર્ડ પ્લે છે: શૈલી પસંદ કરો, લાઇટિંગ + માધ્યમ પસંદ કરો, થોડા મોડિફાયર ઉમેરો, પછી પુનરાવર્તન કરો. જો તે તમને કંઈક અનુભવ કરાવે છે - ભલે તે વિચિત્ર રીતે અપૂર્ણ હોય - તો તમે ઝોનમાં છો.
સંદર્ભ
[1] રોમ્બાચ, આર. એટ અલ. (2022). હાઇ-રિઝોલ્યુશન ઇમેજ સિન્થેસિસ વિથ લેટન્ટ ડિફ્યુઝન મોડેલ્સ (CVPR). PDF
[2] શુહમેન, સી. એટ અલ. (2022). LAION-5B: નેક્સ્ટ જનરેશન ઇમેજ-ટેક્સ્ટ મોડેલ્સને તાલીમ આપવા માટે એક ખુલ્લું મોટા પાયે ડેટાસેટ. PDF
[3] રેડફોર્ડ, એ. એટ અલ. (2021). નેચરલ લેંગ્વેજ સુપરવિઝન (CLIP) થી ટ્રાન્સફરેબલ વિઝ્યુઅલ મોડેલ્સ શીખવું. PDF
[4] ગેટીસ, એલ. એટ અલ. (2016). કન્વોલ્યુશનલ ન્યુરલ નેટવર્ક્સ (CVPR) નો ઉપયોગ કરીને ઇમેજ સ્ટાઇલ ટ્રાન્સફર. PDF
[5] ઓપેનલેન્ડર, જે. (2024). ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન માટે પ્રોમ્પ્ટ મોડિફાયર્સની વર્ગીકરણ. વર્તણૂક અને માહિતી ટેકનોલોજી. લેખ