ટૂંકો જવાબ: AI અપસ્કેલિંગ મોડેલને ઓછી અને ઉચ્ચ-રિઝોલ્યુશન છબીઓ પર તાલીમ આપીને કાર્ય કરે છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરવા માટે તેનો ઉપયોગ કરે છે. જો મોડેલે તાલીમમાં સમાન ટેક્સચર અથવા ચહેરા જોયા હોય, તો તે ખાતરીકારક વિગતો ઉમેરી શકે છે; જો નહીં, તો તે પ્રભામંડળ, મીણ જેવી ત્વચા અથવા વિડિઓમાં ફ્લિકર જેવી કલાકૃતિઓને "ભ્રમિત" કરી શકે છે.
મુખ્ય બાબતો:
આગાહી : આ મોડેલ વાસ્તવિકતાના ગેરંટીકૃત પુનર્નિર્માણ નહીં, પરંતુ બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરે છે.
મોડેલ પસંદગી : CNN વધુ સ્થિર હોય છે; GAN વધુ તીક્ષ્ણ દેખાઈ શકે છે પરંતુ સુવિધાઓ શોધવાનું જોખમ લે છે.
આર્ટિફેક્ટ ચેક્સ : પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર, "લગભગ અક્ષરો" અને પ્લાસ્ટિકી ચહેરાઓ પર ધ્યાન આપો.
વિડિઓ સ્થિરતા : ટેમ્પોરલ પદ્ધતિઓનો ઉપયોગ કરો નહીંતર તમને ફ્રેમ-ટુ-ફ્રેમ ઝબૂકવું અને ડ્રિફ્ટ દેખાશે.
ઉચ્ચ દાવનો ઉપયોગ : જો ચોકસાઈ મહત્વપૂર્ણ હોય, તો પ્રક્રિયા જાહેર કરો અને પરિણામોને દૃષ્ટાંતરૂપ તરીકે ગણો.

તમે કદાચ જોયું હશે: એક નાનકડી, કરચલીવાળી છબી એટલી ચપળ બની જાય છે કે છાપી શકાય, સ્ટ્રીમ કરી શકાય અથવા પ્રેઝન્ટેશનમાં મૂકી શકાય, કોઈ પણ રીતે તેને દબાવ્યા વિના. તે છેતરપિંડી જેવું લાગે છે. અને - શ્રેષ્ઠ રીતે - તે 😅 છે
તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે "કમ્પ્યુટર વિગતો વધારે છે" (હાથથી લહેરાતું) કરતાં વધુ ચોક્કસ કંઈક પર આધારિત છે અને "એક મોડેલ ઘણા ઉદાહરણોમાંથી શીખેલા પેટર્નના આધારે સંભવિત ઉચ્ચ-રિઝોલ્યુશન માળખાની આગાહી કરે છે" ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ) ની નજીક છે. તે આગાહી પગલું એ આખી રમત છે - અને તેથી જ AI અપસ્કેલિંગ અદભુત દેખાઈ શકે છે... અથવા થોડું પ્લાસ્ટિક... અથવા તમારી બિલાડીના બોનસ મૂછો ઉગાડ્યા જેવું.
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI કેવી રીતે કાર્ય કરે છે
AI માં મોડેલ, ડેટા અને અનુમાનની મૂળભૂત બાબતો શીખો.
🔗 AI કેવી રીતે શીખે છે
તાલીમ ડેટા અને પ્રતિસાદ સમય જતાં મોડેલ પ્રદર્શનમાં કેવી રીતે સુધારો કરે છે તે જુઓ.
🔗 AI કેવી રીતે અસંગતતાઓ શોધી કાઢે છે
પેટર્ન બેઝલાઇન્સ અને AI અસામાન્ય વર્તનને ઝડપથી કેવી રીતે ચિહ્નિત કરે છે તે સમજો.
🔗 AI વલણોની આગાહી કેવી રીતે કરે છે
સંકેતો શોધી કાઢતી અને ભવિષ્યની માંગની આગાહી કરતી આગાહી પદ્ધતિઓનું અન્વેષણ કરો.
AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: મુખ્ય વિચાર, રોજિંદા શબ્દોમાં 🧩
અપસ્કેલિંગ એટલે રિઝોલ્યુશન વધારવું: વધુ પિક્સેલ્સ, મોટી છબી. પરંપરાગત અપસ્કેલિંગ (જેમ કે બાયક્યુબિક) મૂળભૂત રીતે પિક્સેલ્સને ખેંચે છે અને સંક્રમણોને સરળ બનાવે છે ( બાયક્યુબિક ઇન્ટરપોલેશન ). તે ઠીક છે, પરંતુ તે નવી વિગતો શોધી શકતું નથી - તે ફક્ત ઇન્ટરપોલેટ કરે છે.
AI અપસ્કેલિંગ કંઈક વધુ બોલ્ડ (સંશોધન વિશ્વમાં "સુપર-રિઝોલ્યુશન" તરીકે પણ ઓળખાય છે) પ્રયાસ કરે છે ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ):
-
તે ઓછા રિઝોલ્યુશન ઇનપુટને જુએ છે
-
પેટર્ન ઓળખે છે (ધાર, પોત, ચહેરાના લક્ષણો, ટેક્સ્ટ સ્ટ્રોક, ફેબ્રિક વણાટ...)
-
ઉચ્ચ-રીઝોલ્યુશન વર્ઝન કેવું દેખાવું જોઈએ
-
તે પેટર્નને બંધબેસતો વધારાનો પિક્સેલ ડેટા જનરેટ કરે છે
ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) જેવું ). જો તે થોડું શંકાસ્પદ લાગે, તો તમે ખોટા નથી - પણ તે જ કારણ છે કે તે આટલું સારું કામ કરે છે 😄
અને હા, આનો અર્થ એ છે કે AI અપસ્કેલિંગ મૂળભૂત રીતે નિયંત્રિત ભ્રમ છે... પરંતુ ઉત્પાદક, પિક્સેલ-આદરપૂર્ણ રીતે.
AI અપસ્કેલિંગનું સારું વર્ઝન શું બનાવે છે? ✅🛠️
જો તમે AI અપસ્કેલર (અથવા સેટિંગ પ્રીસેટ) નું મૂલ્યાંકન કરી રહ્યા છો, તો અહીં સૌથી મહત્વપૂર્ણ બાબતો છે:
-
વધુ રાંધ્યા વિના વિગતવાર પુનઃપ્રાપ્તિ
સારી અપસ્કેલિંગ ચપળતા અને માળખું ઉમેરે છે, કર્કશ અવાજ કે નકલી છિદ્રો નહીં. -
ધાર શિસ્ત
સ્વચ્છ રેખાઓ સ્વચ્છ રહે છે. ખરાબ મોડેલો ધારને ધ્રુજારી અથવા અંકુરિત કરે છે. -
ટેક્સચર રિયાલિસ્ટિક
વાળ પેઇન્ટબ્રશ સ્ટ્રોક ન બનવા જોઈએ. ઈંટ પુનરાવર્તિત પેટર્ન સ્ટેમ્પ ન બનવા જોઈએ. -
ઘોંઘાટ અને કમ્પ્રેશન હેન્ડલિંગ
ઘણી બધી રોજિંદા છબીઓ JPEG'માં સમાપ્ત થાય છે. એક સારો અપસ્કેલર તે નુકસાનને વધારે પડતું નથી ( રીઅલ-ESRGAN ). -
ચહેરા અને ટેક્સ્ટ જાગૃતિ
ચહેરા અને ટેક્સ્ટ ભૂલો શોધવા માટે સૌથી સરળ સ્થાન છે. સારા મોડેલો તેમની સાથે નરમાશથી વર્તે છે (અથવા વિશિષ્ટ મોડ્સ ધરાવે છે). -
ફ્રેમમાં સુસંગતતા (વિડિઓ માટે)
જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ઝબકતી રહે, તો તમારી આંખો ચીસો પાડશે. વિડિઓ અપસ્કેલિંગ ટેમ્પોરલ સ્થિરતા દ્વારા જીવે છે અથવા મૃત્યુ પામે છે ( BasicVSR (CVPR 2021) ). -
નિયંત્રણો જે અર્થપૂર્ણ બને છે.
તમારે એવા સ્લાઇડર્સ જોઈએ છે જે વાસ્તવિક પરિણામોને મેપ કરે: અવાજ દૂર કરવો, ડિબ્લર કરવું, આર્ટિફેક્ટ દૂર કરવું, અનાજ જાળવી રાખવું, શાર્પન કરવું... વ્યવહારુ બાબતો.
એક શાંત નિયમ જે ટકી રહે છે: "શ્રેષ્ઠ" અપસ્કેલિંગ એ છે જે તમને ભાગ્યે જ ધ્યાનમાં આવે છે. એવું લાગે છે કે શરૂઆતમાં તમારી પાસે વધુ સારો કેમેરા હતો 📷✨
સરખામણી કોષ્ટક: લોકપ્રિય AI અપસ્કેલિંગ વિકલ્પો (અને તે કયા માટે સારા છે) 📊🙂
નીચે એક વ્યવહારુ સરખામણી છે. કિંમતો ઇરાદાપૂર્વક અસ્પષ્ટ છે કારણ કે સાધનો લાઇસન્સ, બંડલ્સ, ગણતરી ખર્ચ અને તે બધી મનોરંજક વસ્તુઓ દ્વારા બદલાય છે.
| સાધન / અભિગમ | માટે શ્રેષ્ઠ | ભાવનો માહોલ | તે શા માટે કામ કરે છે (આશરે) |
|---|---|---|---|
| પોખરાજ-શૈલીના ડેસ્કટોપ અપસ્કેલર્સ ( પોખરાજ ફોટો , પોખરાજ વિડિઓ ) | ફોટા, વિડિઓ, સરળ વર્કફ્લો | પેઇડ-ઇશ | મજબૂત સામાન્ય મોડેલો + ઘણી બધી ટ્યુનિંગ, મોટે ભાગે "બસ કામ કરે છે".. |
| એડોબ "સુપર રિઝોલ્યુશન" પ્રકારની સુવિધાઓ ( એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન ) | ફોટોગ્રાફરો પહેલાથી જ તે ઇકોસિસ્ટમમાં છે | સબ્સ્ક્રિપ્શન-વાય | નક્કર વિગતવાર પુનર્નિર્માણ, સામાન્ય રીતે રૂઢિચુસ્ત (ઓછું નાટકીય) |
| રીઅલ-ઇએસઆરજીએન / ઇએસઆરજીએન વેરિયન્ટ્સ ( રીઅલ-ઇએસઆરજીએન , ઇએસઆરજીએન ) | DIY, ડેવલપર્સ, બેચ જોબ્સ | મફત (પરંતુ સમય ખર્ચાળ) | ટેક્સચર ડિટેલમાં ઉત્તમ, જો તમે સાવચેત ન રહો તો ચહેરા પર તીખાશ આવી શકે છે |
| ડિફ્યુઝન-આધારિત અપસ્કેલિંગ મોડ્સ ( SR3 ) | સર્જનાત્મક કાર્ય, શૈલીયુક્ત પરિણામો | મિશ્ર | ખૂબસૂરત વિગતો બનાવી શકે છે - બકવાસ પણ શોધી શકે છે, તેથી... હા |
| ગેમ અપસ્કેલર્સ (DLSS/FSR-શૈલી) ( NVIDIA DLSS , AMD FSR 2 ) | રીઅલ-ટાઇમ ગેમિંગ અને રેન્ડરિંગ | બંડલ કરેલ | ગતિ ડેટા અને શીખેલા પૂર્વ અભ્યાસનો ઉપયોગ કરે છે - સરળ પ્રદર્શન જીત 🕹️ |
| ક્લાઉડ અપસ્કેલિંગ સેવાઓ | સુવિધા, ઝડપી જીત | ઉપયોગ દીઠ ચુકવણી | ઝડપી + સ્કેલેબલ, પરંતુ તમે નિયંત્રણ અને ક્યારેક સૂક્ષ્મતાનો વેપાર કરો છો |
| વિડિઓ-કેન્દ્રિત AI અપસ્કેલર્સ ( બેઝિકવીએસઆર , ટોપાઝ વિડિઓ ) | જૂના ફૂટેજ, એનાઇમ, આર્કાઇવ્સ | પેઇડ-ઇશ | ફ્લિકર ઘટાડવા માટે ટેમ્પોરલ યુક્તિઓ + વિશિષ્ટ વિડિઓ મોડેલ્સ |
| "સ્માર્ટ" ફોન/ગેલેરીનું સ્કેલિંગ વધારવું | કેઝ્યુઅલ ઉપયોગ | સમાવેશ થાય છે | હળવા વજનના મોડેલો સંપૂર્ણતા માટે નહીં, પણ આનંદદાયક આઉટપુટ માટે ટ્યુન કરેલા છે (હજુ પણ ઉપયોગી) |
ફોર્મેટિંગ વિચિત્ર કબૂલાત: "પેઇડ-ઇશ" તે ટેબલમાં ઘણું કામ કરી રહ્યું છે. પણ તમને ખ્યાલ આવે છે 😅
મોટું રહસ્ય: મોડેલો ઓછા-રિઝોલ્યુશનથી ઉચ્ચ-રિઝોલ્યુશન સુધીનું મેપિંગ શીખે છે 🧠➡️🖼️
મોટાભાગના AI અપસ્કેલિંગના કેન્દ્રમાં એક દેખરેખ હેઠળનું શિક્ષણ સેટઅપ છે ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) ):
-
ઉચ્ચ-રીઝોલ્યુશન છબીઓ ("સત્ય") થી શરૂઆત કરો
-
તેમને ઓછા-રિઝોલ્યુશન વર્ઝન ("ઇનપુટ") પર ડાઉનસેમ્પલ કરો
-
લો-રિઝોલ્યુશનમાંથી મૂળ હાઇ-રિઝોલ્યુશનનું પુનર્નિર્માણ કરવા માટે એક મોડેલને તાલીમ આપો
સમય જતાં, મોડેલ નીચેના સહસંબંધો શીખે છે:
-
"આંખની આસપાસ આ પ્રકારનો ઝાંખો ભાગ સામાન્ય રીતે પાંપણનો હોય છે"
-
"આ પિક્સેલ ક્લસ્ટર ઘણીવાર સેરીફ ટેક્સ્ટ સૂચવે છે"
-
"આ ધારનો ઢાળ છતની રેખા જેવો દેખાય છે, રેન્ડમ અવાજ જેવો નહીં"
તે ચોક્કસ છબીઓને યાદ રાખવાની વાત નથી (સાદા અર્થમાં), તે આંકડાકીય રચના શીખવાની વાત છે ( છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે ). તેને ટેક્સચર અને ધારનું વ્યાકરણ શીખવા જેવું વિચારો. કવિતાનું વ્યાકરણ નહીં, વધુ જેવું... IKEA મેન્યુઅલ વ્યાકરણ 🪑📦 (અડખું રૂપક, છતાં પૂરતું નજીક).
નટ એન્ડ બોલ્ટ્સ: અનુમાન દરમિયાન શું થાય છે (જ્યારે તમે અપસ્કેલ કરો છો) ⚙️✨
જ્યારે તમે AI અપસ્કેલરમાં કોઈ છબી ફીડ કરો છો, ત્યારે સામાન્ય રીતે આના જેવી પાઇપલાઇન હોય છે:
-
પ્રીપ્રોસેસિંગ
-
રંગ જગ્યા કન્વર્ટ કરો (ક્યારેક)
-
પિક્સેલ મૂલ્યોને સામાન્ય બનાવો
-
જો છબી મોટી હોય તો તેને ટુકડાઓમાં ટાઇલ કરો (VRAM રિયાલિટી ચેક 😭) ( રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો) )
-
-
સુવિધા નિષ્કર્ષણ
-
શરૂઆતના સ્તરો ધાર, ખૂણા, ગ્રેડિયન્ટ્સ શોધે છે
-
ઊંડા સ્તરો પેટર્ન શોધે છે: ટેક્સચર, આકારો, ચહેરાના ઘટકો
-
-
પુનર્નિર્માણ
-
આ મોડેલ ઉચ્ચ-રીઝોલ્યુશન ફીચર મેપ જનરેટ કરે છે
-
પછી તેને વાસ્તવિક પિક્સેલ આઉટપુટમાં રૂપાંતરિત કરે છે
-
-
પ્રક્રિયા પછી
-
વૈકલ્પિક શાર્પનિંગ
-
વૈકલ્પિક અવાજ દૂર કરો
-
વૈકલ્પિક આર્ટિફેક્ટ સપ્રેસન (રિંગિંગ, પ્રભામંડળ, અવરોધ)
-
એક સૂક્ષ્મ વિગત: ઘણા ટૂલ્સ ટાઇલ્સમાં ઉચ્ચ કક્ષાના હોય છે, પછી સીમ ભેળવે છે. ઉત્તમ ટૂલ્સ ટાઇલની સીમાઓ છુપાવે છે. જો તમે નજર નાખો તો મેહ ટૂલ્સ ઝાંખા ગ્રીડના નિશાન છોડી દે છે. અને હા, તમે નજર નાખશો, કારણ કે માનવીઓને નાના ગ્રેમલિનની જેમ 300% ઝૂમ પર નાની અપૂર્ણતાઓનું નિરીક્ષણ કરવાનું ગમે છે 🧌
AI અપસ્કેલિંગ માટે ઉપયોગમાં લેવાતા મુખ્ય મોડેલ પરિવારો (અને તેઓ શા માટે અલગ લાગે છે) 🤖📚
૧) સીએનએન-આધારિત સુપર-રિઝોલ્યુશન (ક્લાસિક વર્કહોર્સ)
કન્વોલ્યુશનલ ન્યુરલ નેટવર્ક્સ સ્થાનિક પેટર્નમાં ઉત્તમ છે: ધાર, ટેક્સચર, નાના માળખાં ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) ).
-
ફાયદા: ઝડપી, સ્થિર, ઓછા આશ્ચર્ય
-
ગેરફાયદા: જો જોરથી દબાણ કરવામાં આવે તો તે થોડું "પ્રક્રિયા કરેલું" દેખાઈ શકે છે
૨) GAN-આધારિત અપસ્કેલિંગ (ESRGAN-શૈલી) 🎭
GANs (જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ) જનરેટરને ઉચ્ચ-રીઝોલ્યુશન છબીઓ ઉત્પન્ન કરવા માટે તાલીમ આપે છે જેને ભેદભાવ કરનાર વાસ્તવિક છબીઓ ( જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ ) થી અલગ કરી શકતો નથી.
-
ફાયદા: મજબૂત વિગતો, પ્રભાવશાળી રચના
-
ગેરફાયદા: એવી વિગતો શોધી શકે છે જે ત્યાં નહોતી - ક્યારેક ખોટી, ક્યારેક વિચિત્ર ( SRGAN , ESRGAN )
GAN તમને હાંફી જાય તેવી તીક્ષ્ણતા આપી શકે છે. તે તમારા પોટ્રેટ વિષયને વધારાની ભમર પણ આપી શકે છે. તો… તમારી લડાઈઓ પસંદ કરો 😬
૩) ડિફ્યુઝન-આધારિત અપસ્કેલિંગ (સર્જનાત્મક વાઇલ્ડકાર્ડ) 🌫️➡️🖼️
SR3 ) ઉત્પન્ન કરવા માટે માર્ગદર્શન આપી શકાય છે
-
ફાયદા: બુદ્ધિગમ્ય વિગતોમાં ખૂબ જ સારા હોઈ શકે છે, ખાસ કરીને સર્જનાત્મક કાર્ય માટે
-
ગેરફાયદા: જો સેટિંગ્સ આક્રમક હોય તો મૂળ ઓળખ/માળખાથી દૂર જઈ શકે છે ( SR3 )
આ તે જગ્યા છે જ્યાં "અપસ્કેલિંગ" "ફરીથી કલ્પના" માં ભળી જાય છે. ક્યારેક તમે બરાબર એ જ ઇચ્છો છો. ક્યારેક એવું નથી હોતું.
૪) ટેમ્પોરલ સુસંગતતા સાથે વિડિઓ અપસ્કેલિંગ 🎞️
વિડિઓ અપસ્કેલિંગ ઘણીવાર ગતિ-જાગૃત તર્ક ઉમેરે છે:
-
વિગતોને સ્થિર કરવા માટે પડોશી ફ્રેમનો ઉપયોગ કરે છે ( BasicVSR (CVPR 2021) )
-
ઝબકતા અને ક્રોલ થતા કલાકૃતિઓ ટાળવાનો પ્રયાસ કરે છે
-
ઘણીવાર સુપર-રિઝોલ્યુશનને ડીનોઈઝ અને ડીઇન્ટરલેસિંગ સાથે જોડવામાં આવે છે ( ટોપાઝ વિડીયો )
જો છબી અપસ્કેલિંગ એક પેઇન્ટિંગને પુનર્સ્થાપિત કરવા જેવું છે, તો વિડિઓ અપસ્કેલિંગ એ પાત્રના નાકનો આકાર દરેક પૃષ્ઠ પર બદલ્યા વિના ફ્લિપબુકને પુનર્સ્થાપિત કરવા જેવું છે. જે... લાગે તે કરતાં વધુ મુશ્કેલ છે.
AI અપસ્કેલિંગ ક્યારેક નકલી કેમ લાગે છે (અને તેને કેવી રીતે ઓળખવું) 👀🚩
AI અપસ્કેલિંગ ઓળખી શકાય તેવી રીતે નિષ્ફળ જાય છે. એકવાર તમે પેટર્ન શીખી લો, પછી તમને તે દરેક જગ્યાએ દેખાશે, જેમ કે નવી કાર ખરીદવી અને અચાનક દરેક શેરી પર તે મોડેલ જોવું 😵💫
સામાન્ય કહે છે:
-
મીણની ત્વચા (ખૂબ વધારે પડતું અવાજ + સ્મૂથિંગ)
-
વધુ પડતા તીક્ષ્ણ પ્રભામંડળ (ક્લાસિક "ઓવરશૂટ" પ્રદેશ) ( બાયક્યુબિક ઇન્ટરપોલેશન )
-
પુનરાવર્તિત ટેક્સચર (ઈંટની દિવાલો કોપી-પેસ્ટ પેટર્ન બની જાય છે)
-
"એલ્ગોરિધમ" ની ચીસો પાડતો કર્કશ માઇક્રો-કોન્ટ્રાસ્ટ
-
ટેક્સ્ટમાં ફેરફાર કરવો જ્યાં અક્ષરો લગભગ અક્ષરો બની જાય છે (સૌથી ખરાબ પ્રકાર)
-
ડિટેલ ડ્રિફ્ટ જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે, ખાસ કરીને ડિફ્યુઝન વર્કફ્લોમાં ( SR3 )
મુશ્કેલ ભાગ: ક્યારેક આ કલાકૃતિઓ એક નજરમાં "વધુ સારી" લાગે છે. તમારા મગજને તીક્ષ્ણતા ગમે છે. પણ એક ક્ષણ પછી, તે... બંધ લાગે છે.
એક સારી યુક્તિ એ છે કે ઝૂમ આઉટ કરીને તપાસો કે તે સામાન્ય જોવાના અંતરે કુદરતી દેખાય છે કે નહીં. જો તે ફક્ત 400% ઝૂમ પર જ સારું દેખાય છે, તો તે જીત નથી, તે એક શોખ છે 😅
AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: તાલીમ બાજુ, ગણિતના માથાનો દુખાવો વિના 📉🙂
સુપર-રિઝોલ્યુશન મોડેલોને તાલીમ આપવામાં સામાન્ય રીતે શામેલ હોય છે:
-
જોડી કરેલ ડેટાસેટ્સ (લો-રિઝોલ્યુશન ઇનપુટ, હાઇ-રિઝોલ્યુશન ટાર્ગેટ) ( ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) નો ઉપયોગ કરીને છબી સુપર-રિઝોલ્યુશન )
-
ખોટા પુનર્નિર્માણને સજા આપતા નુકસાન કાર્યો SRGAN )
લાક્ષણિક નુકસાનના પ્રકારો:
-
પિક્સેલ નુકશાન (L1/L2)
ચોકસાઈને પ્રોત્સાહન આપે છે. થોડા નરમ પરિણામો આપી શકે છે. -
સમજશક્તિ ગુમાવવી એ
સમજશક્તિ ગુમાવવી ને બદલે ઊંડા લક્ષણો (જેમ કે "શું આ દેખાય છે . -
એડવર્સરિયલ લોસ (GAN)
વાસ્તવિકતાને પ્રોત્સાહન આપે છે, ક્યારેક શાબ્દિક ચોકસાઈના ભોગે ( SRGAN , જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ ).
સતત ખેંચતાણ ચાલુ રહે છે:
-
મૂળ
વિરુદ્ધ વફાદાર બનાવો -
દૃષ્ટિની રીતે આનંદદાયક બનાવો
તે સ્પેક્ટ્રમ પર અલગ અલગ જગ્યાએ અલગ અલગ સાધનો કામ કરે છે. અને તમે કૌટુંબિક ફોટા પુનઃસ્થાપિત કરી રહ્યા છો કે પોસ્ટર તૈયાર કરી રહ્યા છો તેના આધારે તમે એક પસંદ કરી શકો છો જ્યાં ફોરેન્સિક ચોકસાઈ કરતાં "સુંદર દેખાવ" વધુ મહત્વપૂર્ણ છે.
વ્યવહારુ વર્કફ્લો: ફોટા, જૂના સ્કેન, એનાઇમ અને વિડિઓ 📸🧾🎥
ફોટા (પોટ્રેટ, લેન્ડસ્કેપ્સ, પ્રોડક્ટ શોટ્સ)
શ્રેષ્ઠ પ્રથા સામાન્ય રીતે છે:
-
પહેલા હળવો અવાજ ઓછો કરો (જો જરૂરી હોય તો)
-
રૂઢિચુસ્ત સેટિંગ્સ સાથે ઉચ્ચ કક્ષાનું
-
જો વસ્તુઓ ખૂબ સરળ લાગે તો દાણા પાછા ઉમેરો (હા, ખરેખર)
અનાજ મીઠા જેવું છે. વધુ પડતું ખાવાથી રાત્રિભોજન બગડી જાય છે, પણ કોઈ પણ વસ્તુનો સ્વાદ બિલકુલ સપાટ હોતો નથી 🍟
જૂના સ્કેન અને ભારે સંકુચિત છબીઓ
આ વધુ મુશ્કેલ છે કારણ કે મોડેલ કમ્પ્રેશન બ્લોક્સને "ટેક્ષ્ચર" તરીકે ગણી શકે છે.
પ્રયાસ કરો:
-
કલાકૃતિ દૂર કરવી અથવા અવરોધિત કરવું
-
પછી ઉચ્ચ કક્ષાનું
-
પછી હળવેથી શાર્પનિંગ (બહુ વધારે નહીં... મને ખબર છે, બધા એવું કહે છે, પણ છતાં)
એનાઇમ અને લાઇન આર્ટ
લાઇન આર્ટના ફાયદા:
-
સ્વચ્છ ધાર સાચવતા મોડેલો
-
ઘટાડેલી ટેક્સચર ભ્રામકતા
એનાઇમ અપસ્કેલિંગ ઘણીવાર સરસ લાગે છે કારણ કે આકારો સરળ અને સુસંગત હોય છે. (નસીબદાર.)
વિડિઓ
વિડિઓ વધારાના પગલાં ઉમેરે છે:
-
અવાજ દૂર કરો
-
ડીઇન્ટરલેસ (ચોક્કસ સ્ત્રોતો માટે)
-
ઉચ્ચ કક્ષાનું
-
ટેમ્પોરલ સ્મૂથિંગ અથવા સ્ટેબિલાઇઝેશન ( બેઝિકવીએસઆર (સીવીપીઆર 2021) )
-
સંકલન માટે વૈકલ્પિક અનાજ પુનઃપ્રવેશ
જો તમે ટેમ્પોરલ સુસંગતતા છોડી દો છો, તો તમને તે ચમકતી વિગતો ઝબકતી દેખાશે. એકવાર તમે તેને જોશો, પછી તમે તેને જોઈ શકશો નહીં. શાંત રૂમમાં ખુરશીના અવાજની જેમ 😖
અનુમાન લગાવ્યા વિના સેટિંગ્સ પસંદ કરવી (એક નાની ચીટ શીટ) 🎛️😵💫
અહીં એક યોગ્ય શરૂઆતની માનસિકતા છે:
-
જો ચહેરા પ્લાસ્ટિક જેવા દેખાય છે,
તો અવાજ ઓછો કરો, શાર્પનિંગ ઓછું કરો, ફેસ-પ્રિઝર્વિંગ મોડેલ અથવા મોડ અજમાવો. -
જો ટેક્સચર ખૂબ તીવ્ર લાગે તો
"વિગતવાર વૃદ્ધિ" અથવા "વિગત પુનઃપ્રાપ્ત કરો" સ્લાઇડર્સને નીચે કરો, પછી સૂક્ષ્મ દાણા ઉમેરો. -
જો કિનારીઓ ચમકતી હોય તો
શાર્પનિંગ બંધ કરો, હેલો સપ્રેશન વિકલ્પો તપાસો. -
જો છબી ખૂબ "AI" લાગે છે,
તો વધુ રૂઢિચુસ્ત બનો. ક્યારેક શ્રેષ્ઠ ચાલ ફક્ત... ઓછી હોય છે.
અને: ફક્ત એટલા માટે 8x ને અપસ્કેલ ન કરો કે તમે કરી શકો છો. સ્વચ્છ 2x અથવા 4x ઘણીવાર શ્રેષ્ઠ વિકલ્પ હોય છે. તે પછી, તમે મોડેલને તમારા પિક્સેલ્સ વિશે ફેનફિક્શન લખવાનું કહી રહ્યા છો 📖😂
નીતિશાસ્ત્ર, પ્રામાણિકતા અને "સત્ય" નો અજીબોગરીબ પ્રશ્ન 🧭😬
AI અપસ્કેલિંગ એક રેખાને અસ્પષ્ટ કરે છે:
-
પુનઃસ્થાપન એટલે જે હતું તે પાછું મેળવવું
-
ઉન્નતીકરણ એટલે જે ન હતું તે ઉમેરવું
વ્યક્તિગત ફોટા સાથે, તે સામાન્ય રીતે સારું (અને સુંદર) હોય છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી છબીઓ, અથવા એવી કોઈપણ વસ્તુ જ્યાં વફાદારી મહત્વપૂર્ણ હોય... તમારે સાવચેત રહેવાની જરૂર છે ( OSAC/NIST: ફોરેન્સિક ડિજિટલ છબી વ્યવસ્થાપન માટે માનક માર્ગદર્શિકા , ફોરેન્સિક છબી વિશ્લેષણ માટે SWGDE માર્ગદર્શિકા ).
એક સરળ નિયમ:
-
જો દાવ વધારે હોય, તો AI અપસ્કેલિંગને દૃષ્ટાંતરૂપ , નિર્ણાયક નહીં.
ઉપરાંત, વ્યાવસાયિક સંદર્ભોમાં ખુલાસો મહત્વપૂર્ણ છે. એટલા માટે નહીં કે AI દુષ્ટ છે, પરંતુ એટલા માટે કે પ્રેક્ષકો જાણવાને લાયક છે કે વિગતો ફરીથી બનાવવામાં આવી હતી કે કેપ્ચર કરવામાં આવી હતી. તે ફક્ત... આદરણીય છે.
સમાપન નોંધો અને ટૂંકી સમીક્ષા 🧡✅
તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે આ છે: મોડેલો શીખે છે કે ઉચ્ચ-રિઝોલ્યુશન વિગતો ઓછા-રિઝોલ્યુશન પેટર્ન સાથે કેવી રીતે સંબંધિત છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરે છે ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ). મોડેલ પરિવાર (CNN, GAN, પ્રસરણ, વિડિઓ-ટેમ્પોરલ) પર આધાર રાખીને, તે આગાહી રૂઢિચુસ્ત અને વિશ્વાસુ હોઈ શકે છે... અથવા બોલ્ડ અને ક્યારેક અવિભાજ્ય 😅
ઝડપી રીકેપ
-
પરંપરાગત અપસ્કેલિંગ પિક્સેલ્સને ખેંચે છે ( બાયક્યુબિક ઇન્ટરપોલેશન )
-
AI અપસ્કેલિંગ શીખેલા પેટર્નનો ઉપયોગ કરીને ગુમ થયેલ વિગતોની આગાહી કરે છે ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) )
-
યોગ્ય મોડેલ + સંયમથી ઉત્તમ પરિણામો મળે છે
-
વિડિઓમાં પ્રભામંડળ, મીણ જેવા ચહેરા, પુનરાવર્તિત ટેક્સચર અને ફ્લિકર માટે જુઓ ( BasicVSR (CVPR 2021) )
-
અપસ્કેલિંગ ઘણીવાર "બુદ્ધિમાન પુનર્નિર્માણ" હોય છે, સંપૂર્ણ સત્ય નહીં ( SRGAN , ESRGAN )
જો તમે ઇચ્છો તો, મને કહો કે તમે શું અપસ્કેલિંગ કરી રહ્યા છો (ચહેરા, જૂના ફોટા, વિડિઓ, એનાઇમ, ટેક્સ્ટ સ્કેન), અને હું એક સેટિંગ્સ વ્યૂહરચના સૂચવીશ જે સામાન્ય "AI લુક" મુશ્કેલીઓથી બચવા માટે વલણ ધરાવે છે 🎯🙂
વારંવાર પૂછાતા પ્રશ્નો
AI અપસ્કેલિંગ અને તે કેવી રીતે કાર્ય કરે છે
AI અપસ્કેલિંગ (જેને ઘણીવાર "સુપર-રિઝોલ્યુશન" કહેવામાં આવે છે) તાલીમ દરમિયાન શીખેલા પેટર્નમાંથી ગુમ થયેલ ઉચ્ચ-રિઝોલ્યુશન વિગતોની આગાહી કરીને છબીનું રિઝોલ્યુશન વધારે છે. બાયક્યુબિક ઇન્ટરપોલેશન જેવા પિક્સેલ્સને ફક્ત ખેંચવાને બદલે, મોડેલ ધાર, ટેક્સચર, ચહેરા અને ટેક્સ્ટ જેવા સ્ટ્રોકનો અભ્યાસ કરે છે, પછી નવો પિક્સેલ ડેટા જનરેટ કરે છે જે તે શીખેલા પેટર્ન સાથે સુસંગત હોય છે. તે "વાસ્તવિકતાને પુનઃસ્થાપિત કરવાનું" ઓછું અને "વિશ્વસનીય અનુમાન લગાવવાનું" વધુ છે જે કુદરતી તરીકે વાંચવામાં આવે છે.
બાયક્યુબિક અથવા પરંપરાગત માપ બદલવાની વિરુદ્ધ AI અપસ્કેલિંગ
પરંપરાગત અપસ્કેલિંગ પદ્ધતિઓ (જેમ કે બાયક્યુબિક) મુખ્યત્વે હાલના પિક્સેલ્સ વચ્ચે ઇન્ટરપોલેટ થાય છે, સાચી નવી વિગતો બનાવ્યા વિના સંક્રમણોને સરળ બનાવે છે. AI અપસ્કેલિંગનો હેતુ દ્રશ્ય સંકેતોને ઓળખીને અને તે સંકેતોના ઉચ્ચ-રિઝોલ્યુશન સંસ્કરણો કેવા દેખાશે તેની આગાહી કરીને બુદ્ધિગમ્ય માળખું ફરીથી બનાવવાનો છે. એટલા માટે AI પરિણામો નાટકીય રીતે તીક્ષ્ણ લાગે છે, અને શા માટે તેઓ કલાકૃતિઓ રજૂ કરી શકે છે અથવા વિગતો "શોધ" કરી શકે છે જે સ્રોતમાં હાજર ન હતા.
શા માટે ચહેરો મીણ જેવો અથવા વધુ પડતો મુલાયમ દેખાઈ શકે છે
મીણ જેવા ચહેરા સામાન્ય રીતે આક્રમક ડીનોઈઝિંગ અને સ્મૂથિંગથી આવે છે જે શાર્પનિંગ સાથે જોડાય છે જે કુદરતી ત્વચાની રચનાને દૂર કરે છે. ઘણા સાધનો અવાજ અને બારીક રચનાને સમાન રીતે વર્તે છે, તેથી છબીને "સફાઈ" કરવાથી છિદ્રો અને સૂક્ષ્મ વિગતો ભૂંસી શકાય છે. એક સામાન્ય અભિગમ એ છે કે ડીનોઈઝ અને શાર્પનિંગ ઘટાડવું, જો ઉપલબ્ધ હોય તો ફેસ-પ્રિઝર્વિંગ મોડનો ઉપયોગ કરવો, પછી અનાજનો સ્પર્શ ફરીથી રજૂ કરવો જેથી પરિણામ ઓછું પ્લાસ્ટિક અને વધુ ફોટોગ્રાફિક લાગે.
જોવા માટે સામાન્ય AI અપસ્કેલિંગ કલાકૃતિઓ
લાક્ષણિક ટેલમાં કિનારીઓ આસપાસ પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર પેટર્ન (જેમ કે કોપી-પેસ્ટ ઇંટો), ક્રન્ચી માઇક્રો-કોન્ટ્રાસ્ટ અને "લગભગ અક્ષરો" માં ફેરવાતું ટેક્સ્ટ શામેલ છે. ડિફ્યુઝન-આધારિત વર્કફ્લોમાં, તમે વિગતવાર ડ્રિફ્ટ પણ જોઈ શકો છો જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે. વિડિઓ માટે, ફ્રેમમાં ફ્લિકર અને ક્રોલિંગ વિગતો મોટા લાલ ધ્વજ છે. જો તે ફક્ત આત્યંતિક ઝૂમ પર જ સારું લાગે છે, તો સેટિંગ્સ કદાચ ખૂબ આક્રમક છે.
GAN, CNN અને ડિફ્યુઝન અપસ્કેલર્સ પરિણામોમાં કેવી રીતે અલગ પડે છે
CNN-આધારિત સુપર-રિઝોલ્યુશન વધુ સ્થિર અને વધુ અનુમાનિત હોય છે, પરંતુ જો તેને સખત દબાણ કરવામાં આવે તો તે "પ્રક્રિયા કરેલ" દેખાઈ શકે છે. GAN-આધારિત વિકલ્પો (ESRGAN-શૈલી) ઘણીવાર પંચીર ટેક્સચર અને કથિત તીક્ષ્ણતા ઉત્પન્ન કરે છે, પરંતુ તેઓ ખોટી વિગતોને ભ્રમિત કરી શકે છે, ખાસ કરીને ચહેરા પર. ડિફ્યુઝન-આધારિત અપસ્કેલિંગ સુંદર, બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરી શકે છે, છતાં જો માર્ગદર્શન અથવા તાકાત સેટિંગ્સ ખૂબ મજબૂત હોય તો તે મૂળ રચનાથી દૂર જઈ શકે છે.
"ખૂબ જ કૃત્રિમ બુદ્ધિ" દેખાવ ટાળવા માટે એક વ્યવહારુ સેટિંગ્સ વ્યૂહરચના
રૂઢિચુસ્ત શરૂઆત કરો: આત્યંતિક પરિબળો સુધી પહોંચતા પહેલા 2× અથવા 4× અપસ્કેલ કરો. જો ચહેરા પ્લાસ્ટિકી દેખાય, તો ડાયલ બેક ડિનોઈઝ અને શાર્પનિંગ કરો અને ફેસ-અવેર મોડ અજમાવો. જો ટેક્સચર ખૂબ તીવ્ર બને છે, તો ડિટેલ એન્હાન્સમેન્ટ ઓછું કરો અને પછી સૂક્ષ્મ દાણા ઉમેરવાનું વિચારો. જો કિનારીઓ ચમકતી હોય, તો શાર્પનિંગ ઓછું કરો અને પ્રભામંડળ અથવા આર્ટિફેક્ટ સપ્રેશન તપાસો. ઘણી પાઇપલાઇન્સમાં, "ઓછું" જીતે છે કારણ કે તે વિશ્વસનીય વાસ્તવિકતા જાળવી રાખે છે.
જૂના સ્કેન અથવા ભારે JPEG-સંકુચિત છબીઓને અપસ્કેલિંગ પહેલાં હેન્ડલ કરવી
સંકુચિત છબીઓ મુશ્કેલ છે કારણ કે મોડેલો બ્લોક આર્ટિફેક્ટ્સને વાસ્તવિક ટેક્સચર તરીકે ગણી શકે છે અને તેમને વિસ્તૃત કરી શકે છે. એક સામાન્ય વર્કફ્લો એ છે કે પહેલા આર્ટિફેક્ટ દૂર કરવું અથવા ડિબ્લોક કરવું, પછી અપસ્કેલિંગ કરવું, પછી જો જરૂરી હોય તો જ પ્રકાશ શાર્પનિંગ કરવું. સ્કેન માટે, હળવી સફાઈ મોડેલને નુકસાનને બદલે વાસ્તવિક માળખા પર ધ્યાન કેન્દ્રિત કરવામાં મદદ કરી શકે છે. ધ્યેય "નકલી ટેક્સચર સંકેતો" ઘટાડવાનો છે જેથી અપસ્કેલરને ઘોંઘાટીયા ઇનપુટ્સથી આત્મવિશ્વાસપૂર્ણ અનુમાન લગાવવાની ફરજ ન પડે.
ફોટો અપસ્કેલિંગ કરતાં વિડિઓ અપસ્કેલિંગ કેમ મુશ્કેલ છે
વિડિઓ અપસ્કેલિંગ ફક્ત એક જ સ્થિર છબી પર સારી નહીં, પરંતુ ફ્રેમમાં સુસંગત હોવું જોઈએ. જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ફ્લિકર થાય છે, તો પરિણામ ઝડપથી વિચલિત કરનારું બને છે. વિડિઓ-કેન્દ્રિત અભિગમો પુનઃનિર્માણને સ્થિર કરવા અને ઝળહળતી કલાકૃતિઓને ટાળવા માટે પડોશી ફ્રેમ્સમાંથી ટેમ્પોરલ માહિતીનો ઉપયોગ કરે છે. ઘણા વર્કફ્લોમાં ડીનોઇઝ, ચોક્કસ સ્ત્રોતો માટે ડીઇન્ટરલેસિંગ અને વૈકલ્પિક ગ્રેન રિઇન્ટ્રોડક્શનનો પણ સમાવેશ થાય છે જેથી સમગ્ર ક્રમ કૃત્રિમ રીતે તીક્ષ્ણ હોવાને બદલે સુસંગત લાગે.
જ્યારે AI અપસ્કેલિંગ યોગ્ય ન હોય અથવા તેના પર આધાર રાખવો જોખમી હોય
AI અપસ્કેલિંગને પુરાવા તરીકે નહીં, પણ ઉન્નતીકરણ તરીકે શ્રેષ્ઠ રીતે ગણવામાં આવે છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી ઇમેજિંગ અથવા ફોરેન્સિક કાર્ય જેવા ઉચ્ચ-દાવના સંદર્ભોમાં, "વિશ્વસનીય" પિક્સેલ જનરેટ કરવાથી ગેરમાર્ગે દોરવામાં આવી શકે છે કારણ કે તે એવી વિગતો ઉમેરી શકે છે જે કેપ્ચર કરવામાં આવી ન હતી. વધુ સુરક્ષિત ફ્રેમિંગ એ છે કે તેનો ઉપયોગ ઉદાહરણ તરીકે કરવો અને જાહેર કરવું કે AI પ્રક્રિયાએ વિગતનું પુનર્નિર્માણ કર્યું છે. જો વફાદારી મહત્વપૂર્ણ છે, તો મૂળને સાચવો અને દરેક પ્રક્રિયાના પગલા અને સેટિંગનું દસ્તાવેજીકરણ કરો.
સંદર્ભ
-
arXiv - છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે - arxiv.org
-
arXiv - ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) નો ઉપયોગ કરીને ઇમેજ સુપર-રિઝોલ્યુશન - arxiv.org
-
arXiv - રીઅલ-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA ડેવલપર - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX સુપર રિઝોલ્યુશન 2 - gpuopen.com
-
કમ્પ્યુટર વિઝન ફાઉન્ડેશન (CVF) ઓપન એક્સેસ - બેઝિકવીએસઆર: વિડિઓ સુપર-રિઝોલ્યુશનમાં આવશ્યક ઘટકોની શોધ (CVPR 2021) - openaccess.thecvf.com
-
arXiv - જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - સમજશક્તિ ગુમાવવી (જોહ્ન્સન એટ અલ., 2016) - arxiv.org
-
GitHub - રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો) - github.com
-
વિકિપીડિયા - બાયક્યુબિક ઇન્ટરપોલેશન - wikipedia.org
-
ટોપાઝ લેબ્સ - ટોપાઝ ફોટો - topazlabs.com
-
ટોપાઝ લેબ્સ - ટોપાઝ વિડિઓ - topazlabs.com
-
એડોબ હેલ્પ સેન્ટર - એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન - helpx.adobe.com
-
NIST / OSAC - ફોરેન્સિક ડિજિટલ ઇમેજ મેનેજમેન્ટ માટે માનક માર્ગદર્શિકા (સંસ્કરણ 1.0) - nist.gov
-
SWGDE - ફોરેન્સિક છબી વિશ્લેષણ માટે માર્ગદર્શિકા - swgde.org