ટૂંકો જવાબ: AI અપસ્કેલિંગ મોડેલને ઓછી અને ઉચ્ચ-રિઝોલ્યુશન છબીઓ પર તાલીમ આપીને કાર્ય કરે છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરવા માટે તેનો ઉપયોગ કરે છે. જો મોડેલે તાલીમમાં સમાન ટેક્સચર અથવા ચહેરા જોયા હોય, તો તે ખાતરીકારક વિગતો ઉમેરી શકે છે; જો નહીં, તો તે પ્રભામંડળ, મીણ જેવી ત્વચા અથવા વિડિઓમાં ફ્લિકર જેવી કલાકૃતિઓને "ભ્રમિત" કરી શકે છે.
મુખ્ય બાબતો:
આગાહી: આ મોડેલ વાસ્તવિકતાના ગેરંટીકૃત પુનર્નિર્માણ નહીં, પરંતુ બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરે છે.
મોડેલ પસંદગી: CNN વધુ સ્થિર હોય છે; GAN વધુ તીક્ષ્ણ દેખાઈ શકે છે પરંતુ સુવિધાઓ શોધવાનું જોખમ લે છે.
આર્ટિફેક્ટ ચેક્સ: પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર, "લગભગ અક્ષરો" અને પ્લાસ્ટિકી ચહેરાઓ પર ધ્યાન આપો.
વિડિઓ સ્થિરતા: ટેમ્પોરલ પદ્ધતિઓનો ઉપયોગ કરો નહીંતર તમને ફ્રેમ-ટુ-ફ્રેમ ઝબૂકવું અને ડ્રિફ્ટ દેખાશે.
ઉચ્ચ દાવનો ઉપયોગ: જો ચોકસાઈ મહત્વપૂર્ણ હોય, તો પ્રક્રિયા જાહેર કરો અને પરિણામોને દૃષ્ટાંતરૂપ તરીકે ગણો.

તમે કદાચ જોયું હશે: એક નાનકડી, કરચલીવાળી છબી એટલી ચપળ બની જાય છે કે છાપી શકાય, સ્ટ્રીમ કરી શકાય અથવા પ્રેઝન્ટેશનમાં મૂકી શકાય, કોઈ પણ રીતે તેને દબાવ્યા વિના. તે છેતરપિંડી જેવું લાગે છે. અને - શ્રેષ્ઠ રીતે - તે 😅 છે
તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે "કમ્પ્યુટર વિગતો વધારે છે" (હાથથી લહેરાતું) કરતાં વધુ ચોક્કસ કંઈક પર આધારિત છે અને "એક મોડેલ ઘણા ઉદાહરણોમાંથી શીખેલા પેટર્નના આધારે સંભવિત ઉચ્ચ-રિઝોલ્યુશન માળખાની આગાહી કરે છે" (ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે) ની નજીક છે. તે આગાહી પગલું એ આખી રમત છે - અને તેથી જ AI અપસ્કેલિંગ અદભુત દેખાઈ શકે છે... અથવા થોડું પ્લાસ્ટિક... અથવા તમારી બિલાડીના બોનસ મૂછો ઉગાડ્યા જેવું.
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 AI કેવી રીતે કાર્ય કરે છે
AI માં મોડેલ, ડેટા અને અનુમાનની મૂળભૂત બાબતો શીખો.
🔗 AI કેવી રીતે શીખે છે
તાલીમ ડેટા અને પ્રતિસાદ સમય જતાં મોડેલ પ્રદર્શનમાં કેવી રીતે સુધારો કરે છે તે જુઓ.
🔗 AI કેવી રીતે અસંગતતાઓ શોધી કાઢે છે
પેટર્ન બેઝલાઇન્સ અને AI અસામાન્ય વર્તનને ઝડપથી કેવી રીતે ચિહ્નિત કરે છે તે સમજો.
🔗 AI વલણોની આગાહી કેવી રીતે કરે છે
સંકેતો શોધી કાઢતી અને ભવિષ્યની માંગની આગાહી કરતી આગાહી પદ્ધતિઓનું અન્વેષણ કરો.
AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: મુખ્ય વિચાર, રોજિંદા શબ્દોમાં 🧩
અપસ્કેલિંગ એટલે રિઝોલ્યુશન વધારવું: વધુ પિક્સેલ્સ, મોટી છબી. પરંપરાગત અપસ્કેલિંગ (જેમ કે બાયક્યુબિક) મૂળભૂત રીતે પિક્સેલ્સને ખેંચે છે અને સંક્રમણોને સરળ બનાવે છે (બાયક્યુબિક ઇન્ટરપોલેશન). તે ઠીક છે, પરંતુ તે નવી વિગતો શોધી શકતું નથી - તે ફક્ત ઇન્ટરપોલેટ કરે છે.
AI અપસ્કેલિંગ કંઈક વધુ બોલ્ડ (સંશોધન વિશ્વમાં "સુપર-રિઝોલ્યુશન" તરીકે પણ ઓળખાય છે) પ્રયાસ કરે છે (ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે):
-
તે ઓછા રિઝોલ્યુશન ઇનપુટને જુએ છે
-
પેટર્ન ઓળખે છે (ધાર, પોત, ચહેરાના લક્ષણો, ટેક્સ્ટ સ્ટ્રોક, ફેબ્રિક વણાટ...)
-
ઉચ્ચ-રીઝોલ્યુશન વર્ઝન કેવું દેખાવું જોઈએ તેનું અનુમાન કરે છે
-
તે પેટર્નને બંધબેસતો વધારાનો પિક્સેલ ડેટા જનરેટ કરે છે
"વાસ્તવિકતાને સંપૂર્ણ રીતે પુનઃસ્થાપિત કરો" નહીં, "ખૂબ જ વિશ્વસનીય અનુમાન લગાવો" ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) ) જેવું ). જો તે થોડું શંકાસ્પદ લાગે, તો તમે ખોટા નથી - પણ તે જ કારણ છે કે તે આટલું સારું કામ કરે છે 😄
અને હા, આનો અર્થ એ છે કે AI અપસ્કેલિંગ મૂળભૂત રીતે નિયંત્રિત ભ્રમ છે... પરંતુ ઉત્પાદક, પિક્સેલ-આદરપૂર્ણ રીતે.
AI અપસ્કેલિંગનું સારું વર્ઝન શું બનાવે છે? ✅🛠️
જો તમે AI અપસ્કેલર (અથવા સેટિંગ પ્રીસેટ) નું મૂલ્યાંકન કરી રહ્યા છો, તો અહીં સૌથી મહત્વપૂર્ણ બાબતો છે:
-
વધુ રાંધ્યા વિના વિગતવાર પુનઃપ્રાપ્તિ
સારી અપસ્કેલિંગ ચપળતા અને માળખું ઉમેરે છે, કર્કશ અવાજ કે નકલી છિદ્રો નહીં. -
ધાર શિસ્ત
સ્વચ્છ રેખાઓ સ્વચ્છ રહે છે. ખરાબ મોડેલો ધારને ધ્રુજારી અથવા અંકુરિત કરે છે. -
ટેક્સચર રિયાલિસ્ટિક
વાળ પેઇન્ટબ્રશ સ્ટ્રોક ન બનવા જોઈએ. ઈંટ પુનરાવર્તિત પેટર્ન સ્ટેમ્પ ન બનવા જોઈએ. -
ઘોંઘાટ અને કમ્પ્રેશન હેન્ડલિંગ
ઘણી બધી રોજિંદા છબીઓ JPEG'માં સમાપ્ત થાય છે. એક સારો અપસ્કેલર તે નુકસાનને વધારે પડતું નથી (રીઅલ-ESRGAN). -
ચહેરા અને ટેક્સ્ટ જાગૃતિ
ચહેરા અને ટેક્સ્ટ ભૂલો શોધવા માટે સૌથી સરળ સ્થાન છે. સારા મોડેલો તેમની સાથે નરમાશથી વર્તે છે (અથવા વિશિષ્ટ મોડ્સ ધરાવે છે). -
ફ્રેમમાં સુસંગતતા (વિડિઓ માટે)
જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ઝબકતી રહે, તો તમારી આંખો ચીસો પાડશે. વિડિઓ અપસ્કેલિંગ ટેમ્પોરલ સ્થિરતા દ્વારા જીવે છે અથવા મૃત્યુ પામે છે (BasicVSR (CVPR 2021)). -
નિયંત્રણો જે અર્થપૂર્ણ બને છે.
તમારે એવા સ્લાઇડર્સ જોઈએ છે જે વાસ્તવિક પરિણામોને મેપ કરે: અવાજ દૂર કરવો, ડિબ્લર કરવું, આર્ટિફેક્ટ દૂર કરવું, અનાજ જાળવી રાખવું, શાર્પન કરવું... વ્યવહારુ બાબતો.
એક શાંત નિયમ જે ટકી રહે છે: "શ્રેષ્ઠ" અપસ્કેલિંગ એ છે જે તમને ભાગ્યે જ ધ્યાનમાં આવે છે. એવું લાગે છે કે શરૂઆતમાં તમારી પાસે વધુ સારો કેમેરા હતો 📷✨
સરખામણી કોષ્ટક: લોકપ્રિય AI અપસ્કેલિંગ વિકલ્પો (અને તે કયા માટે સારા છે) 📊🙂
નીચે એક વ્યવહારુ સરખામણી છે. કિંમતો ઇરાદાપૂર્વક અસ્પષ્ટ છે કારણ કે સાધનો લાઇસન્સ, બંડલ્સ, ગણતરી ખર્ચ અને તે બધી મનોરંજક વસ્તુઓ દ્વારા બદલાય છે.
| સાધન / અભિગમ | માટે શ્રેષ્ઠ | ભાવનો માહોલ | તે શા માટે કામ કરે છે (આશરે) |
|---|---|---|---|
| પોખરાજ-શૈલીના ડેસ્કટોપ અપસ્કેલર્સ (પોખરાજ ફોટો, પોખરાજ વિડિઓ) | ફોટા, વિડિઓ, સરળ વર્કફ્લો | પેઇડ-ઇશ | મજબૂત સામાન્ય મોડેલો + ઘણી બધી ટ્યુનિંગ, મોટે ભાગે "બસ કામ કરે છે".. |
| એડોબ "સુપર રિઝોલ્યુશન" પ્રકારની સુવિધાઓ (એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન) | ફોટોગ્રાફરો પહેલાથી જ તે ઇકોસિસ્ટમમાં છે | સબ્સ્ક્રિપ્શન-વાય | નક્કર વિગતવાર પુનર્નિર્માણ, સામાન્ય રીતે રૂઢિચુસ્ત (ઓછું નાટકીય) |
| રીઅલ-ઇએસઆરજીએન / ઇએસઆરજીએન વેરિયન્ટ્સ (રીઅલ-ઇએસઆરજીએન, ઇએસઆરજીએન) | DIY, ડેવલપર્સ, બેચ જોબ્સ | મફત (પરંતુ સમય ખર્ચાળ) | ટેક્સચર ડિટેલમાં ઉત્તમ, જો તમે સાવચેત ન રહો તો ચહેરા પર તીખાશ આવી શકે છે |
| ડિફ્યુઝન-આધારિત અપસ્કેલિંગ મોડ્સ (SR3) | સર્જનાત્મક કાર્ય, શૈલીયુક્ત પરિણામો | મિશ્ર | ખૂબસૂરત વિગતો બનાવી શકે છે - બકવાસ પણ શોધી શકે છે, તેથી... હા |
| ગેમ અપસ્કેલર્સ (DLSS/FSR-શૈલી) (NVIDIA DLSS, AMD FSR 2) | રીઅલ-ટાઇમ ગેમિંગ અને રેન્ડરિંગ | બંડલ કરેલ | ગતિ ડેટા અને શીખેલા પૂર્વ અભ્યાસનો ઉપયોગ કરે છે - સરળ પ્રદર્શન જીત 🕹️ |
| ક્લાઉડ અપસ્કેલિંગ સેવાઓ | સુવિધા, ઝડપી જીત | ઉપયોગ દીઠ ચુકવણી | ઝડપી + સ્કેલેબલ, પરંતુ તમે નિયંત્રણ અને ક્યારેક સૂક્ષ્મતાનો વેપાર કરો છો |
| વિડિઓ-કેન્દ્રિત AI અપસ્કેલર્સ (બેઝિકવીએસઆર, ટોપાઝ વિડિઓ) | જૂના ફૂટેજ, એનાઇમ, આર્કાઇવ્સ | પેઇડ-ઇશ | ફ્લિકર ઘટાડવા માટે ટેમ્પોરલ યુક્તિઓ + વિશિષ્ટ વિડિઓ મોડેલ્સ |
| "સ્માર્ટ" ફોન/ગેલેરીનું સ્કેલિંગ વધારવું | કેઝ્યુઅલ ઉપયોગ | સમાવેશ થાય છે | હળવા વજનના મોડેલો સંપૂર્ણતા માટે નહીં, પણ આનંદદાયક આઉટપુટ માટે ટ્યુન કરેલા છે (હજુ પણ ઉપયોગી) |
ફોર્મેટિંગ વિચિત્ર કબૂલાત: "પેઇડ-ઇશ" તે ટેબલમાં ઘણું કામ કરી રહ્યું છે. પણ તમને ખ્યાલ આવે છે 😅
મોટું રહસ્ય: મોડેલો ઓછા-રિઝોલ્યુશનથી ઉચ્ચ-રિઝોલ્યુશન સુધીનું મેપિંગ શીખે છે 🧠➡️🖼️
મોટાભાગના AI અપસ્કેલિંગના કેન્દ્રમાં એક દેખરેખ હેઠળનું શિક્ષણ સેટઅપ છે (ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN)):
-
ઉચ્ચ-રીઝોલ્યુશન છબીઓ ("સત્ય") થી શરૂઆત કરો
-
તેમને ઓછા-રિઝોલ્યુશન વર્ઝન ("ઇનપુટ") પર ડાઉનસેમ્પલ કરો
-
લો-રિઝોલ્યુશનમાંથી મૂળ હાઇ-રિઝોલ્યુશનનું પુનર્નિર્માણ કરવા માટે એક મોડેલને તાલીમ આપો
સમય જતાં, મોડેલ નીચેના સહસંબંધો શીખે છે:
-
"આંખની આસપાસ આ પ્રકારનો ઝાંખો ભાગ સામાન્ય રીતે પાંપણનો હોય છે"
-
"આ પિક્સેલ ક્લસ્ટર ઘણીવાર સેરીફ ટેક્સ્ટ સૂચવે છે"
-
"આ ધારનો ઢાળ છતની રેખા જેવો દેખાય છે, રેન્ડમ અવાજ જેવો નહીં"
તે ચોક્કસ છબીઓને યાદ રાખવાની વાત નથી (સાદા અર્થમાં), તે આંકડાકીય રચના શીખવાની વાત છે (છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે). તેને ટેક્સચર અને ધારનું વ્યાકરણ શીખવા જેવું વિચારો. કવિતાનું વ્યાકરણ નહીં, વધુ જેવું... IKEA મેન્યુઅલ વ્યાકરણ 🪑📦 (અડખું રૂપક, છતાં પૂરતું નજીક).
નટ એન્ડ બોલ્ટ્સ: અનુમાન દરમિયાન શું થાય છે (જ્યારે તમે અપસ્કેલ કરો છો) ⚙️✨
જ્યારે તમે AI અપસ્કેલરમાં કોઈ છબી ફીડ કરો છો, ત્યારે સામાન્ય રીતે આના જેવી પાઇપલાઇન હોય છે:
-
પ્રીપ્રોસેસિંગ
-
રંગ જગ્યા કન્વર્ટ કરો (ક્યારેક)
-
પિક્સેલ મૂલ્યોને સામાન્ય બનાવો
-
જો છબી મોટી હોય તો તેને ટુકડાઓમાં ટાઇલ કરો (VRAM રિયાલિટી ચેક 😭) (રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો))
-
-
સુવિધા નિષ્કર્ષણ
-
શરૂઆતના સ્તરો ધાર, ખૂણા, ગ્રેડિયન્ટ્સ શોધે છે
-
ઊંડા સ્તરો પેટર્ન શોધે છે: ટેક્સચર, આકારો, ચહેરાના ઘટકો
-
-
પુનર્નિર્માણ
-
આ મોડેલ ઉચ્ચ-રીઝોલ્યુશન ફીચર મેપ જનરેટ કરે છે
-
પછી તેને વાસ્તવિક પિક્સેલ આઉટપુટમાં રૂપાંતરિત કરે છે
-
-
પ્રક્રિયા પછી
-
વૈકલ્પિક શાર્પનિંગ
-
વૈકલ્પિક અવાજ દૂર કરો
-
વૈકલ્પિક આર્ટિફેક્ટ સપ્રેસન (રિંગિંગ, પ્રભામંડળ, અવરોધ)
-
એક સૂક્ષ્મ વિગત: ઘણા ટૂલ્સ ટાઇલ્સમાં ઉચ્ચ કક્ષાના હોય છે, પછી સીમ ભેળવે છે. ઉત્તમ ટૂલ્સ ટાઇલની સીમાઓ છુપાવે છે. જો તમે નજર નાખો તો મેહ ટૂલ્સ ઝાંખા ગ્રીડના નિશાન છોડી દે છે. અને હા, તમે નજર નાખશો, કારણ કે માનવીઓને નાના ગ્રેમલિનની જેમ 300% ઝૂમ પર નાની અપૂર્ણતાઓનું નિરીક્ષણ કરવાનું ગમે છે 🧌
AI અપસ્કેલિંગ માટે ઉપયોગમાં લેવાતા મુખ્ય મોડેલ પરિવારો (અને તેઓ શા માટે અલગ લાગે છે) 🤖📚
૧) સીએનએન-આધારિત સુપર-રિઝોલ્યુશન (ક્લાસિક વર્કહોર્સ)
કન્વોલ્યુશનલ ન્યુરલ નેટવર્ક્સ સ્થાનિક પેટર્નમાં ઉત્તમ છે: ધાર, ટેક્સચર, નાના માળખાં (ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN)).
-
ફાયદા: ઝડપી, સ્થિર, ઓછા આશ્ચર્ય
-
ગેરફાયદા: જો જોરથી દબાણ કરવામાં આવે તો તે થોડું "પ્રક્રિયા કરેલું" દેખાઈ શકે છે
૨) GAN-આધારિત અપસ્કેલિંગ (ESRGAN-શૈલી) 🎭
GANs (જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ) જનરેટરને ઉચ્ચ-રીઝોલ્યુશન છબીઓ ઉત્પન્ન કરવા માટે તાલીમ આપે છે જેને ભેદભાવ કરનાર વાસ્તવિક છબીઓ (જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ) થી અલગ કરી શકતો નથી.
-
ફાયદા: મજબૂત વિગતો, પ્રભાવશાળી રચના
-
ગેરફાયદા: એવી વિગતો શોધી શકે છે જે ત્યાં નહોતી - ક્યારેક ખોટી, ક્યારેક વિચિત્ર (SRGAN, ESRGAN)
GAN તમને હાંફી જાય તેવી તીક્ષ્ણતા આપી શકે છે. તે તમારા પોટ્રેટ વિષયને વધારાની ભમર પણ આપી શકે છે. તો… તમારી લડાઈઓ પસંદ કરો 😬
૩) ડિફ્યુઝન-આધારિત અપસ્કેલિંગ (સર્જનાત્મક વાઇલ્ડકાર્ડ) 🌫️➡️🖼️
ડિફ્યુઝન મોડેલો સ્ટેપ-બાય-સ્ટેપ અવાજ ઓછો કરે છે અને ઉચ્ચ-રિઝોલ્યુશન વિગતો ( SR3 ) ઉત્પન્ન કરવા માટે માર્ગદર્શન આપી શકાય છે
-
ફાયદા: બુદ્ધિગમ્ય વિગતોમાં ખૂબ જ સારા હોઈ શકે છે, ખાસ કરીને સર્જનાત્મક કાર્ય માટે
-
ગેરફાયદા: જો સેટિંગ્સ આક્રમક હોય તો મૂળ ઓળખ/માળખાથી દૂર જઈ શકે છે (SR3)
આ તે જગ્યા છે જ્યાં "અપસ્કેલિંગ" "ફરીથી કલ્પના" માં ભળી જાય છે. ક્યારેક તમે બરાબર એ જ ઇચ્છો છો. ક્યારેક એવું નથી હોતું.
૪) ટેમ્પોરલ સુસંગતતા સાથે વિડિઓ અપસ્કેલિંગ 🎞️
વિડિઓ અપસ્કેલિંગ ઘણીવાર ગતિ-જાગૃત તર્ક ઉમેરે છે:
-
વિગતોને સ્થિર કરવા માટે પડોશી ફ્રેમનો ઉપયોગ કરે છે (BasicVSR (CVPR 2021))
-
ઝબકતા અને ક્રોલ થતા કલાકૃતિઓ ટાળવાનો પ્રયાસ કરે છે
-
ઘણીવાર સુપર-રિઝોલ્યુશનને ડીનોઈઝ અને ડીઇન્ટરલેસિંગ સાથે જોડવામાં આવે છે (ટોપાઝ વિડીયો)
જો છબી અપસ્કેલિંગ એક પેઇન્ટિંગને પુનર્સ્થાપિત કરવા જેવું છે, તો વિડિઓ અપસ્કેલિંગ એ પાત્રના નાકનો આકાર દરેક પૃષ્ઠ પર બદલ્યા વિના ફ્લિપબુકને પુનર્સ્થાપિત કરવા જેવું છે. જે... લાગે તે કરતાં વધુ મુશ્કેલ છે.
AI અપસ્કેલિંગ ક્યારેક નકલી કેમ લાગે છે (અને તેને કેવી રીતે ઓળખવું) 👀🚩
AI અપસ્કેલિંગ ઓળખી શકાય તેવી રીતે નિષ્ફળ જાય છે. એકવાર તમે પેટર્ન શીખી લો, પછી તમને તે દરેક જગ્યાએ દેખાશે, જેમ કે નવી કાર ખરીદવી અને અચાનક દરેક શેરી પર તે મોડેલ જોવું 😵💫
સામાન્ય કહે છે:
-
મીણની ત્વચા (ખૂબ વધારે પડતું અવાજ + સ્મૂથિંગ)
-
વધુ પડતા તીક્ષ્ણ પ્રભામંડળ (ક્લાસિક "ઓવરશૂટ" પ્રદેશ) (બાયક્યુબિક ઇન્ટરપોલેશન)
-
પુનરાવર્તિત ટેક્સચર (ઈંટની દિવાલો કોપી-પેસ્ટ પેટર્ન બની જાય છે)
-
"એલ્ગોરિધમ" ની ચીસો પાડતો કર્કશ માઇક્રો-કોન્ટ્રાસ્ટ
-
ટેક્સ્ટમાં ફેરફાર કરવો જ્યાં અક્ષરો લગભગ અક્ષરો બની જાય છે (સૌથી ખરાબ પ્રકાર)
-
ડિટેલ ડ્રિફ્ટ જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે, ખાસ કરીને ડિફ્યુઝન વર્કફ્લોમાં (SR3)
મુશ્કેલ ભાગ: ક્યારેક આ કલાકૃતિઓ એક નજરમાં "વધુ સારી" લાગે છે. તમારા મગજને તીક્ષ્ણતા ગમે છે. પણ એક ક્ષણ પછી, તે... બંધ લાગે છે.
એક સારી યુક્તિ એ છે કે ઝૂમ આઉટ કરીને તપાસો કે તે સામાન્ય જોવાના અંતરે કુદરતી દેખાય છે કે નહીં. જો તે ફક્ત 400% ઝૂમ પર જ સારું દેખાય છે, તો તે જીત નથી, તે એક શોખ છે 😅
AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: તાલીમ બાજુ, ગણિતના માથાનો દુખાવો વિના 📉🙂
સુપર-રિઝોલ્યુશન મોડેલોને તાલીમ આપવામાં સામાન્ય રીતે શામેલ હોય છે:
-
જોડી કરેલ ડેટાસેટ્સ (લો-રિઝોલ્યુશન ઇનપુટ, હાઇ-રિઝોલ્યુશન ટાર્ગેટ) (ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) નો ઉપયોગ કરીને છબી સુપર-રિઝોલ્યુશન)
-
ખોટા પુનર્નિર્માણને સજા આપતા નુકસાન કાર્યો ( SRGAN )
લાક્ષણિક નુકસાનના પ્રકારો:
-
પિક્સેલ નુકશાન (L1/L2)
ચોકસાઈને પ્રોત્સાહન આપે છે. થોડા નરમ પરિણામો આપી શકે છે. -
સમજશક્તિ ગુમાવવી એ ચોક્કસ પિક્સેલ ( સમજશક્તિ ગુમાવવી ) ને બદલે ઊંડા લક્ષણો (જેમ કે "શું આ સમાન દેખાય છે ") ની તુલના કરે છે .
-
એડવર્સરિયલ લોસ (GAN)
વાસ્તવિકતાને પ્રોત્સાહન આપે છે, ક્યારેક શાબ્દિક ચોકસાઈના ભોગે (SRGAN, જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ).
સતત ખેંચતાણ ચાલુ રહે છે:
-
મૂળ વિરુદ્ધ તેને વફાદાર બનાવો
-
તેને દૃષ્ટિની રીતે આનંદદાયક બનાવો
તે સ્પેક્ટ્રમ પર અલગ અલગ જગ્યાએ અલગ અલગ સાધનો કામ કરે છે. અને તમે કૌટુંબિક ફોટા પુનઃસ્થાપિત કરી રહ્યા છો કે પોસ્ટર તૈયાર કરી રહ્યા છો તેના આધારે તમે એક પસંદ કરી શકો છો જ્યાં ફોરેન્સિક ચોકસાઈ કરતાં "સુંદર દેખાવ" વધુ મહત્વપૂર્ણ છે.
વ્યવહારુ વર્કફ્લો: ફોટા, જૂના સ્કેન, એનાઇમ અને વિડિઓ 📸🧾🎥
ફોટા (પોટ્રેટ, લેન્ડસ્કેપ્સ, પ્રોડક્ટ શોટ્સ)
શ્રેષ્ઠ પ્રથા સામાન્ય રીતે છે:
-
પહેલા હળવો અવાજ ઓછો કરો (જો જરૂરી હોય તો)
-
રૂઢિચુસ્ત સેટિંગ્સ સાથે ઉચ્ચ કક્ષાનું
-
જો વસ્તુઓ ખૂબ સરળ લાગે તો દાણા પાછા ઉમેરો (હા, ખરેખર)
અનાજ મીઠા જેવું છે. વધુ પડતું ખાવાથી રાત્રિભોજન બગડી જાય છે, પણ કોઈ પણ વસ્તુનો સ્વાદ બિલકુલ સપાટ હોતો નથી 🍟
જૂના સ્કેન અને ભારે સંકુચિત છબીઓ
આ વધુ મુશ્કેલ છે કારણ કે મોડેલ કમ્પ્રેશન બ્લોક્સને "ટેક્ષ્ચર" તરીકે ગણી શકે છે.
પ્રયાસ કરો:
-
કલાકૃતિ દૂર કરવી અથવા અવરોધિત કરવું
-
પછી ઉચ્ચ કક્ષાનું
-
પછી હળવેથી શાર્પનિંગ (બહુ વધારે નહીં... મને ખબર છે, બધા એવું કહે છે, પણ છતાં)
એનાઇમ અને લાઇન આર્ટ
લાઇન આર્ટના ફાયદા:
-
સ્વચ્છ ધાર સાચવતા મોડેલો
-
ઘટાડેલી ટેક્સચર ભ્રામકતા
એનાઇમ અપસ્કેલિંગ ઘણીવાર સરસ લાગે છે કારણ કે આકારો સરળ અને સુસંગત હોય છે. (નસીબદાર.)
વિડિઓ
વિડિઓ વધારાના પગલાં ઉમેરે છે:
-
અવાજ દૂર કરો
-
ડીઇન્ટરલેસ (ચોક્કસ સ્ત્રોતો માટે)
-
ઉચ્ચ કક્ષાનું
-
ટેમ્પોરલ સ્મૂથિંગ અથવા સ્ટેબિલાઇઝેશન (બેઝિકવીએસઆર (સીવીપીઆર 2021))
-
સંકલન માટે વૈકલ્પિક અનાજ પુનઃપ્રવેશ
જો તમે ટેમ્પોરલ સુસંગતતા છોડી દો છો, તો તમને તે ચમકતી વિગતો ઝબકતી દેખાશે. એકવાર તમે તેને જોશો, પછી તમે તેને જોઈ શકશો નહીં. શાંત રૂમમાં ખુરશીના અવાજની જેમ 😖
અનુમાન લગાવ્યા વિના સેટિંગ્સ પસંદ કરવી (એક નાની ચીટ શીટ) 🎛️😵💫
અહીં એક યોગ્ય શરૂઆતની માનસિકતા છે:
-
જો ચહેરા પ્લાસ્ટિક જેવા દેખાય છે,
તો અવાજ ઓછો કરો, શાર્પનિંગ ઓછું કરો, ફેસ-પ્રિઝર્વિંગ મોડેલ અથવા મોડ અજમાવો. -
જો ટેક્સચર ખૂબ તીવ્ર લાગે તો
"વિગતવાર વૃદ્ધિ" અથવા "વિગત પુનઃપ્રાપ્ત કરો" સ્લાઇડર્સને નીચે કરો, પછી સૂક્ષ્મ દાણા ઉમેરો. -
જો કિનારીઓ ચમકતી હોય તો
શાર્પનિંગ બંધ કરો, હેલો સપ્રેશન વિકલ્પો તપાસો. -
જો છબી ખૂબ "AI" લાગે છે,
તો વધુ રૂઢિચુસ્ત બનો. ક્યારેક શ્રેષ્ઠ ચાલ ફક્ત... ઓછી હોય છે.
અને: ફક્ત એટલા માટે 8x ને અપસ્કેલ ન કરો કે તમે કરી શકો છો. સ્વચ્છ 2x અથવા 4x ઘણીવાર શ્રેષ્ઠ વિકલ્પ હોય છે. તે પછી, તમે મોડેલને તમારા પિક્સેલ્સ વિશે ફેનફિક્શન લખવાનું કહી રહ્યા છો 📖😂
નીતિશાસ્ત્ર, પ્રામાણિકતા અને "સત્ય" નો અજીબોગરીબ પ્રશ્ન 🧭😬
AI અપસ્કેલિંગ એક રેખાને અસ્પષ્ટ કરે છે:
-
પુનઃસ્થાપન એટલે જે હતું તે પાછું મેળવવું
-
ઉન્નતીકરણ એટલે જે ન હતું તે ઉમેરવું
વ્યક્તિગત ફોટા સાથે, તે સામાન્ય રીતે સારું (અને સુંદર) હોય છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી છબીઓ, અથવા કોઈપણ વસ્તુ જ્યાં વફાદારી મહત્વપૂર્ણ હોય છે... તમારે સાવચેત રહેવાની જરૂર છે (OSAC/NIST: ફોરેન્સિક ડિજિટલ છબી વ્યવસ્થાપન માટે માનક માર્ગદર્શિકા, ફોરેન્સિક છબી વિશ્લેષણ માટે SWGDE માર્ગદર્શિકા).
એક સરળ નિયમ:
-
જો દાવ વધારે હોય, તો AI અપસ્કેલિંગને દૃષ્ટાંતરૂપ, નિર્ણાયક નહીં.
ઉપરાંત, વ્યાવસાયિક સંદર્ભોમાં ખુલાસો મહત્વપૂર્ણ છે. એટલા માટે નહીં કે AI દુષ્ટ છે, પરંતુ એટલા માટે કે પ્રેક્ષકો જાણવાને લાયક છે કે વિગતો ફરીથી બનાવવામાં આવી હતી કે કેપ્ચર કરવામાં આવી હતી. તે ફક્ત... આદરણીય છે.
સમાપન નોંધો અને ટૂંકી સમીક્ષા 🧡✅
તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે આ છે: મોડેલો શીખે છે કે ઉચ્ચ-રિઝોલ્યુશન વિગતો ઓછા-રિઝોલ્યુશન પેટર્ન સાથે કેવી રીતે સંબંધિત છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરે છે ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ). મોડેલ પરિવાર (CNN, GAN, પ્રસરણ, વિડિઓ-ટેમ્પોરલ) પર આધાર રાખીને, તે આગાહી રૂઢિચુસ્ત અને વિશ્વાસુ હોઈ શકે છે... અથવા બોલ્ડ અને ક્યારેક અવિભાજ્ય 😅
ઝડપી રીકેપ
-
પરંપરાગત અપસ્કેલિંગ પિક્સેલ્સને ખેંચે છે (બાયક્યુબિક ઇન્ટરપોલેશન)
-
AI અપસ્કેલિંગ શીખેલા પેટર્નનો ઉપયોગ કરીને ગુમ થયેલ વિગતોની આગાહી કરે છે (ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN))
-
યોગ્ય મોડેલ + સંયમથી ઉત્તમ પરિણામો મળે છે
-
વિડિઓમાં પ્રભામંડળ, મીણ જેવા ચહેરા, પુનરાવર્તિત ટેક્સચર અને ફ્લિકર માટે જુઓ (BasicVSR (CVPR 2021))
-
અપસ્કેલિંગ ઘણીવાર "બુદ્ધિમાન પુનર્નિર્માણ" હોય છે, સંપૂર્ણ સત્ય નહીં (SRGAN, ESRGAN)
જો તમે ઇચ્છો તો, મને કહો કે તમે શું અપસ્કેલિંગ કરી રહ્યા છો (ચહેરા, જૂના ફોટા, વિડિઓ, એનાઇમ, ટેક્સ્ટ સ્કેન), અને હું એક સેટિંગ્સ વ્યૂહરચના સૂચવીશ જે સામાન્ય "AI લુક" મુશ્કેલીઓથી બચવા માટે વલણ ધરાવે છે 🎯🙂
વાસ્તવિક દુનિયાનું ઉદાહરણ: જૂના માર્કેટપ્લેસ પ્રોડક્ટના ફોટાને અપસ્કેલ કરવા 📸
દૃશ્ય
એક નાની સેકન્ડ-હેન્ડ કેમેરા દુકાનમાં જૂની વેબસાઇટ પરથી 800px પહોળાઈમાં નિકાસ કરાયેલા 40 પ્રોડક્ટ ફોટા છે. માલિક તેમને નવા ઈકોમર્સ પેજ પર ફરીથી વાપરવા માંગે છે, જ્યાં ભલામણ કરેલ છબીનું કદ 1,600px પહોળું છે.
સમસ્યા: સામાન્ય કદ બદલવાથી કેમેરા નરમ દેખાય છે, જ્યારે આક્રમક AI અપસ્કેલિંગ રબર ગ્રિપ્સ, સીરીયલ નંબર્સ અને લેન્સ માર્કિંગ્સ શંકાસ્પદ રીતે નકલી બનાવી શકે છે. તે મહત્વનું છે કારણ કે ખરીદદારો ખરીદી કરતા પહેલા તે વિગતો પર આધાર રાખે છે.
ધ્યેય ગુમ થયેલી માહિતીને સંપૂર્ણ રીતે "પુનઃસ્થાપિત" કરવાનો નથી. તે મૂળ ફાઇલો ઉપલબ્ધ રાખીને સ્વચ્છ સૂચિ છબીઓ બનાવવાનો છે, કારણ કે AI અપસ્કેલિંગ ખાતરીપૂર્વકની સત્યતાને બદલે બુદ્ધિગમ્ય વિગતોની આગાહી કરે છે.
વર્કફ્લો માટે શું જરૂરી છે
મૂળ ઉત્પાદનના ફોટા, આદર્શ રીતે ઉપલબ્ધ ઓછામાં ઓછા સંકુચિત સંસ્કરણો
લક્ષ્ય આઉટપુટ કદ, જેમ કે 800px થી 1,600px પહોળાઈ સુધી 2× અપસ્કેલ
અવાજ દૂર કરવા, શાર્પ કરવા અને કલાકૃતિ દૂર કરવા માટે અલગ નિયંત્રણો ધરાવતું સાધન અથવા મોડેલ
ટેક્સ્ટ, કિનારીઓ, લોગો, સ્ક્રૂ, બટનો, ચામડાના દાણા અને પ્રતિબિંબ માટે એક સરળ સમીક્ષા ચેકલિસ્ટ
મૂળ માટે એક ફોલ્ડર અને સંપાદિત નિકાસ માટે એક અલગ ફોલ્ડર, જેથી કંઈપણ ઓવરરાઇટ ન થાય
ઉદાહરણ સૂચના
AI અપસ્કેલરનું પરીક્ષણ કરતી વખતે આ પ્રકારની સૂચનાનો ઉપયોગ કરો:
ઈ-કોમર્સ લિસ્ટિંગ માટે આ પ્રોડક્ટ ફોટોને 2× અપસ્કેલ કરો. ઑબ્જેક્ટનો આકાર, લોગો પ્લેસમેન્ટ, લેન્સ માર્કિંગ, બટન એજ અને સપાટીની રચના શક્ય તેટલી મૂળની નજીક રાખો. હળવા કમ્પ્રેશન ક્લીન-અપ, ઓછી શાર્પનિંગનો ઉપયોગ કરો અને વધારાના ટેક્સ્ટ, સ્ક્રેચ, લેબલ્સ, સીરીયલ નંબર અથવા સુશોભન વિગતો શોધવાનું ટાળો. અંતિમ છબી સામાન્ય પ્રોડક્ટ-પેજ કદ પર કુદરતી દેખાવી જોઈએ, 400% ઝૂમ પર કૃત્રિમ રીતે શાર્પ નહીં.
તેનું પરીક્ષણ કેવી રીતે કરવું
સંપૂર્ણ બેચ પર પ્રક્રિયા કરતા પહેલા પાંચ મિશ્ર છબીઓથી શરૂઆત કરો:
સારી લાઇટિંગ સાથે એક સ્વચ્છ ઉત્પાદન ફોટો
બ્લોકીનેસ સાથે એક JPEG-સંકુચિત છબી
નાના છાપેલા ટેક્સ્ટ અથવા લેન્સ માર્કિંગ સાથેનો એક ફોટો
પડછાયામાં અવાજ સાથે એક કાળી છબી
પ્રતિબિંબીત ધાતુ અથવા કાચ સાથેની એક છબી
અપસ્કેલિંગ પછી, દરેક પરિણામની સરખામણી મૂળ સાથે 100% અને 200% પર કરો. બ્રાન્ડ નામો, ડાયલ્સ, સ્ક્રૂ, પોર્ટ અને ટેક્સચર પેટર્ન હજુ પણ મેળ ખાય છે કે નહીં તે તપાસો. જો મોડેલ "લગભગ અક્ષરો" અથવા નકલી સપાટીના નિશાન બનાવે છે, તો શાર્પનિંગ અથવા વિગતવાર પુનઃપ્રાપ્તિ સેટિંગ ઓછી કરો.
પરિણામ
ઉદાહરણરૂપ પરિણામ: આ વર્કફ્લોનો ઉપયોગ કરતા પહેલા અને પછી પાંચ-ઇમેજ પરીક્ષણના સમયના આધારે.
મેન્યુઅલ સફાઈ અને કદ બદલવામાં પ્રતિ છબી લગભગ 9 મિનિટ અથવા પાંચ છબીઓ માટે 45 મિનિટનો સમય લાગ્યો.
AI-સહાયિત વર્કફ્લોમાં પ્રતિ છબી લગભગ 3 મિનિટ અથવા પાંચ છબીઓ માટે 15 મિનિટનો સમય લાગ્યો.
એટલે કે પાંચ છબીઓ પર અંદાજે 30 મિનિટ બચી, અથવા 40 છબીઓના બેચમાં લગભગ 4 કલાક બચ્યા.
ગુણવત્તા ચકાસણી પરિણામ: 5 માંથી 4 છબીઓ પ્રથમ સમીક્ષામાં પાસ થઈ. એક છબી નિષ્ફળ ગઈ કારણ કે અપસ્કેલરે નાના લેન્સ ટેક્સ્ટને વિકૃત કર્યું હતું, તેથી તેને ઓછી શાર્પનિંગ સાથે ફરીથી પ્રક્રિયા કરવામાં આવી હતી અને ટેક્સ્ટમાં કોઈ વધારો કરવામાં આવ્યો ન હતો.
અહીં મૂલ્યવાન માપદંડ ફક્ત "વધુ તીક્ષ્ણ દેખાય છે" એ નથી. તે છે: શોધેલી વિગતો વિના કેટલી છબીઓ બાજુ-બાજુ સમીક્ષામાંથી પસાર થાય છે?
શું ખોટું થઈ શકે છે?
આ મોડેલ ધૂળ, JPEG બ્લોક્સ અથવા સ્ક્રેચને "વાસ્તવિક" રચનામાં ફેરવી શકે છે.
નાનું લખાણ નકલી લખાણ બની શકે છે જે ઝૂમ ઇન ન થાય ત્યાં સુધી વિશ્વસનીય લાગે છે.
વધુ પડતો અવાજ ટાળવાથી રબર, ચામડું અથવા બ્રશ કરેલી ધાતુ મીણ જેવી દેખાઈ શકે છે.
મજબૂત શાર્પનિંગ ઉત્પાદનની કિનારીઓ આસપાસ પ્રભામંડળ બનાવી શકે છે.
બેચ પ્રોસેસિંગ ભૂલો છુપાવી શકે છે, તેથી બધું નિકાસ કરતા પહેલા નમૂનાની સમીક્ષા કરો.
ઈ-કોમર્સ માટે, સૌથી સલામત નિયમ સરળ છે: નુકસાન છુપાવવા, સ્થિતિ બદલવા અથવા ઉત્પાદનને તેના કરતાં નવું દેખાવા માટે ક્યારેય AI અપસ્કેલિંગનો ઉપયોગ કરશો નહીં.
વ્યવહારુ ઉપાય
AI અપસ્કેલિંગ શ્રેષ્ઠ રીતે કામ કરે છે જ્યારે તમે તેને નિયંત્રિત ફિનિશિંગ સ્ટેપ તરીકે ગણો છો, જાદુઈ રિપેર બટન તરીકે નહીં. રૂઢિચુસ્ત 2× સેટિંગ્સનો ઉપયોગ કરો, ખરીદદારો કઈ વિગતોની કાળજી રાખે છે તે તપાસો અને મૂળ છબી રાખો જેથી સંપાદિત સંસ્કરણ વિશ્વસનીય રહે.
વાસ્તવિક દુનિયાનું ઉદાહરણ: જૂના તાલીમ વિડિઓને ચમકાવ્યા વિના તેને ઉપર તરફ વાળવું
દૃશ્ય
એક નાની તાલીમ કંપની પાસે 2014 માં 720p પર રેકોર્ડ કરાયેલ 7 મિનિટનો સલામતી પ્રદર્શન વિડિઓ છે. સામગ્રી હજુ પણ મૂલ્યવાન છે, પરંતુ ફૂટેજ કંપનીની નવી વેબસાઇટ પર, ખાસ કરીને મોટી લેપટોપ સ્ક્રીન પર નરમ લાગે છે.
ટીમ ફરીથી શૂટ કર્યા વિના વધુ સ્વચ્છ 1080p વર્ઝન નિકાસ કરવા માંગે છે. જોખમ એ છે કે આક્રમક AI અપસ્કેલિંગ ચહેરાઓને મીણ જેવા દેખાડી શકે છે, ચિહ્નો પરના ટેક્સ્ટને "લગભગ શબ્દો" માં ફેરવી શકે છે, અથવા ફ્રેમથી ફ્રેમમાં ફ્લિકરિંગ ટેક્સચર બનાવી શકે છે.
ધ્યેય વિડિઓને તદ્દન નવો દેખાવાનો નથી. તેનો હેતુ તેને સ્પષ્ટ, સ્થિર અને ઓછો સંકુચિત બનાવવાનો છે, સાથે સાથે પ્રશિક્ષકનો ચહેરો, ચેતવણી લેબલ, હાથની ગતિવિધિઓ અને સાધનોની વિગતોને મૂળ શૈલીમાં જ રાખવાનો છે.
વર્કફ્લો માટે શું જરૂરી છે
શક્ય હોય તો, મૂળ વિડિઓ ફાઇલ, સંકુચિત સોશિયલ મીડિયા ડાઉનલોડ નહીં
સીધા 4K પર જવાને બદલે 720p થી 1080p જેવા નિકાસ કદને લક્ષ્ય બનાવો
ડીનોઈઝ, શાર્પનિંગ, કમ્પ્રેશન રિપેર અને ટેમ્પોરલ કન્સિસ્ટન્સી વિકલ્પો સાથેનો વિડિયો અપસ્કેલર
ચહેરા, હલનચલન, ટેક્સ્ટ અને વિગતવાર સપાટીઓ સાથેની એક ટૂંકી પરીક્ષણ ક્લિપ
ફ્લિકર, પ્રભામંડળ, વિકૃત ટેક્સ્ટ, ચહેરાની રચના અને ગતિશીલ ધાર માટે સમીક્ષા ચેકલિસ્ટ
જો જરૂર પડે તો સરખામણી અને જાહેરાત માટે મૂળ વિડિઓની સાચવેલી નકલ
ઉદાહરણ સૂચના
સંપૂર્ણ વિડિઓ પર પ્રક્રિયા કરતા પહેલા આ પ્રકારની સૂચનાનો ઉપયોગ કરો:
આ 720p તાલીમ વિડિઓને 1080p સુધી અપસ્કેલ કરો. કુદરતી ગતિ, સ્થિર ધાર, વાંચી શકાય તેવા હાલના ટેક્સ્ટ અને વાસ્તવિક ત્વચાની રચનાને પ્રાથમિકતા આપો. હળવા કમ્પ્રેશન રિપેર અને ઓછી શાર્પનિંગનો ઉપયોગ કરો. ગુમ થયેલ ટેક્સ્ટ, લોગો, લેબલ્સ, સ્ક્રેચ, ચહેરાની વિગતો અથવા સાધનોના નિશાનો શોધશો નહીં. ફ્રેમ-ટુ-ફ્રેમ ઝબૂકવાનું ટાળો. અંતિમ પરિણામ સામાન્ય જોવાના કદ પર વધુ સ્પષ્ટ દેખાવું જોઈએ, જ્યારે થોભાવવામાં આવે અને ઝૂમ ઇન કરવામાં આવે ત્યારે કૃત્રિમ રીતે શાર્પ નહીં.
તેનું પરીક્ષણ કેવી રીતે કરવું
સંપૂર્ણ 7-મિનિટની ફાઇલ પર પ્રક્રિયા કરતા પહેલા, 20-સેકન્ડનો નમૂનો નિકાસ કરો જેમાં શામેલ છે:
બોલતી વખતે પ્રશિક્ષકનો ચહેરો
ફ્રેમ પર ફરતો હાથ
ચેતવણી લેબલ અથવા નાનું છાપેલું લખાણ
ટેક્ષ્ચર સપાટી, જેમ કે ફેબ્રિક, કોંક્રિટ, બ્રશ કરેલી ધાતુ અથવા પ્લાસ્ટિક
કેમેરા પેન અથવા કોઈપણ અસ્થિર ગતિ
નમૂનાને બે વાર જુઓ: એક વાર સામાન્ય ગતિએ અને એક વાર ફ્રેમ-દર-ફ્રેમ થોભાવો. સામાન્ય ગતિએ, ફ્લિકર, ક્રોલિંગ ટેક્સચર અથવા કિનારીઓ આસપાસ અકુદરતી ગતિ જુઓ. જ્યારે થોભાવવામાં આવે, ત્યારે ટેક્સ્ટ, બટનો, ટૂલ્સ અને ચહેરાના લક્ષણો હજુ પણ મેળ ખાય છે કે નહીં તે તપાસવા માટે મૂળ અને ઉચ્ચ સ્તરીય સંસ્કરણોની તુલના કરો.
પરિણામ
ઉદાહરણરૂપ પરિણામ: એક 20-સેકન્ડની ટેસ્ટ ક્લિપના સમય અને પછી 7-મિનિટના વિડિઓ પર સમાન સેટિંગ્સ લાગુ કરવાના આધારે.
મેન્યુઅલ "કદ બદલો અને શાર્પ કરો" વર્કફ્લોમાં નિકાસ અને સમીક્ષા સહિત લગભગ 35 મિનિટ લાગી, પરંતુ પરિણામમાં પ્રશિક્ષકના વાળ પર ઝબૂકવું અને સલામતી ચિહ્નોની આસપાસ પ્રભામંડળ દેખાયો.
AI-સહાયિત વર્કફ્લોમાં પરીક્ષણ નિકાસ સહિત લગભગ 55 મિનિટનો સમય લાગ્યો, પરંતુ સમીક્ષા સમસ્યાઓ પ્રથમ નિકાસમાં 8 દૃશ્યમાન સમસ્યાઓથી ઘટાડીને અંતિમ નિકાસમાં 2 નાની સમસ્યાઓ થઈ.
અંતિમ સંસ્કરણે સમીક્ષા ચેકલિસ્ટ પર 12 માંથી 10 ચકાસણીઓ પાસ કરી. બાકીના બે મુદ્દાઓ પૃષ્ઠભૂમિ ટેક્સ્ટમાં થોડી નરમાઈ અને એક અંધારા ખૂણામાં હળવો અવાજ હતો. બંનેને સ્વીકારવામાં આવ્યા કારણ કે પ્રશિક્ષક, સાધનો અને સલામતીના પગલાં દૃષ્ટિની રીતે સુસંગત રહ્યા.
અહીં અર્થપૂર્ણ માપદંડ "૧૦૮૦p પ્રાપ્ત" નથી. તે છે: સામાન્ય પ્લેબેક દરમિયાન વિડિઓના કેટલા સેકન્ડમાં ધ્યાન ભંગ કરતી કલાકૃતિઓ બતાવવામાં આવે છે?
શું ખોટું થઈ શકે છે?
આ મોડેલ કમ્પ્રેશન બ્લોક્સને શાર્પ કરી શકે છે અને તેમને વાસ્તવિક ટેક્સચર જેવો બનાવી શકે છે.
ફાઇન ટેક્સ્ટ વધુ આત્મવિશ્વાસપૂર્ણ દેખાઈ શકે છે પરંતુ ઓછું સચોટ બની શકે છે.
જો ડિનોઇઝ ખૂબ વધારે હોય તો ચહેરા ખૂબ સરળ બની શકે છે.
જો ટૂલ દરેક ફ્રેમને ખૂબ સ્વતંત્ર રીતે વર્તે તો ગતિશીલ ધાર ચમકી શકે છે.
4K નિકાસ મર્યાદિત 1080p નિકાસ કરતાં વધુ ખરાબ દેખાઈ શકે છે કારણ કે મોડેલમાં ખૂબ જ વિગતો શોધવી પડે છે.
સૌથી મોટી ભૂલ એ છે કે ફક્ત થોભાવેલી ફ્રેમનું મૂલ્યાંકન કરવું. વિડિઓ અપસ્કેલિંગ ફક્ત સ્થિર છબી તરીકે પ્રભાવશાળી નહીં, પણ ગતિમાં કુદરતી દેખાવું જોઈએ.
વ્યવહારુ ઉપાય
વિડિઓ માટે, AI અપસ્કેલિંગ શ્રેષ્ઠ કાર્ય કરે છે જ્યારે તમે પહેલા ટૂંકા વિભાગનું પરીક્ષણ કરો છો, ઉચ્ચ સ્તરને સામાન્ય રાખો છો અને શાર્પનેસ પહેલાં ગતિનું મૂલ્યાંકન કરો છો. થોડું નરમ પરંતુ સ્થિર પરિણામ સામાન્ય રીતે ક્રિસ્પ વર્ઝન કરતાં વધુ સારું હોય છે જે દર વખતે કોઈ ખસેડતી વખતે ઝબકતું રહે છે.
વારંવાર પૂછાતા પ્રશ્નો
AI અપસ્કેલિંગ અને તે કેવી રીતે કાર્ય કરે છે
AI અપસ્કેલિંગ (જેને ઘણીવાર "સુપર-રિઝોલ્યુશન" કહેવામાં આવે છે) તાલીમ દરમિયાન શીખેલા પેટર્નમાંથી ગુમ થયેલ ઉચ્ચ-રિઝોલ્યુશન વિગતોની આગાહી કરીને છબીનું રિઝોલ્યુશન વધારે છે. બાયક્યુબિક ઇન્ટરપોલેશન જેવા પિક્સેલ્સને ફક્ત ખેંચવાને બદલે, મોડેલ ધાર, ટેક્સચર, ચહેરા અને ટેક્સ્ટ જેવા સ્ટ્રોકનો અભ્યાસ કરે છે, પછી નવો પિક્સેલ ડેટા જનરેટ કરે છે જે તે શીખેલા પેટર્ન સાથે સુસંગત હોય છે. તે "વાસ્તવિકતાને પુનઃસ્થાપિત કરવાનું" ઓછું અને "વિશ્વસનીય અનુમાન લગાવવાનું" વધુ છે જે કુદરતી તરીકે વાંચવામાં આવે છે.
બાયક્યુબિક અથવા પરંપરાગત માપ બદલવાની વિરુદ્ધ AI અપસ્કેલિંગ
પરંપરાગત અપસ્કેલિંગ પદ્ધતિઓ (જેમ કે બાયક્યુબિક) મુખ્યત્વે હાલના પિક્સેલ્સ વચ્ચે ઇન્ટરપોલેટ થાય છે, સાચી નવી વિગતો બનાવ્યા વિના સંક્રમણોને સરળ બનાવે છે. AI અપસ્કેલિંગનો હેતુ દ્રશ્ય સંકેતોને ઓળખીને અને તે સંકેતોના ઉચ્ચ-રિઝોલ્યુશન સંસ્કરણો કેવા દેખાશે તેની આગાહી કરીને બુદ્ધિગમ્ય માળખું ફરીથી બનાવવાનો છે. એટલા માટે AI પરિણામો નાટકીય રીતે તીક્ષ્ણ લાગે છે, અને શા માટે તેઓ કલાકૃતિઓ રજૂ કરી શકે છે અથવા વિગતો "શોધ" કરી શકે છે જે સ્રોતમાં હાજર ન હતા.
શા માટે ચહેરો મીણ જેવો અથવા વધુ પડતો મુલાયમ દેખાઈ શકે છે
મીણ જેવા ચહેરા સામાન્ય રીતે આક્રમક ડીનોઈઝિંગ અને સ્મૂથિંગથી આવે છે જે શાર્પનિંગ સાથે જોડાય છે જે કુદરતી ત્વચાની રચનાને દૂર કરે છે. ઘણા સાધનો અવાજ અને બારીક રચનાને સમાન રીતે વર્તે છે, તેથી છબીને "સફાઈ" કરવાથી છિદ્રો અને સૂક્ષ્મ વિગતો ભૂંસી શકાય છે. એક સામાન્ય અભિગમ એ છે કે ડીનોઈઝ અને શાર્પનિંગ ઘટાડવું, જો ઉપલબ્ધ હોય તો ફેસ-પ્રિઝર્વિંગ મોડનો ઉપયોગ કરવો, પછી અનાજનો સ્પર્શ ફરીથી રજૂ કરવો જેથી પરિણામ ઓછું પ્લાસ્ટિક અને વધુ ફોટોગ્રાફિક લાગે.
જોવા માટે સામાન્ય AI અપસ્કેલિંગ કલાકૃતિઓ
લાક્ષણિક ટેલમાં કિનારીઓ આસપાસ પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર પેટર્ન (જેમ કે કોપી-પેસ્ટ ઇંટો), ક્રન્ચી માઇક્રો-કોન્ટ્રાસ્ટ અને "લગભગ અક્ષરો" માં ફેરવાતું ટેક્સ્ટ શામેલ છે. ડિફ્યુઝન-આધારિત વર્કફ્લોમાં, તમે વિગતવાર ડ્રિફ્ટ પણ જોઈ શકો છો જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે. વિડિઓ માટે, ફ્રેમમાં ફ્લિકર અને ક્રોલિંગ વિગતો મોટા લાલ ધ્વજ છે. જો તે ફક્ત આત્યંતિક ઝૂમ પર જ સારું લાગે છે, તો સેટિંગ્સ કદાચ ખૂબ આક્રમક છે.
GAN, CNN અને ડિફ્યુઝન અપસ્કેલર્સ પરિણામોમાં કેવી રીતે અલગ પડે છે
CNN-આધારિત સુપર-રિઝોલ્યુશન વધુ સ્થિર અને વધુ અનુમાનિત હોય છે, પરંતુ જો તેને સખત દબાણ કરવામાં આવે તો તે "પ્રક્રિયા કરેલ" દેખાઈ શકે છે. GAN-આધારિત વિકલ્પો (ESRGAN-શૈલી) ઘણીવાર પંચીર ટેક્સચર અને કથિત તીક્ષ્ણતા ઉત્પન્ન કરે છે, પરંતુ તેઓ ખોટી વિગતોને ભ્રમિત કરી શકે છે, ખાસ કરીને ચહેરા પર. ડિફ્યુઝન-આધારિત અપસ્કેલિંગ સુંદર, બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરી શકે છે, છતાં જો માર્ગદર્શન અથવા તાકાત સેટિંગ્સ ખૂબ મજબૂત હોય તો તે મૂળ રચનાથી દૂર જઈ શકે છે.
"ખૂબ જ કૃત્રિમ બુદ્ધિ" દેખાવ ટાળવા માટે એક વ્યવહારુ સેટિંગ્સ વ્યૂહરચના
રૂઢિચુસ્ત શરૂઆત કરો: આત્યંતિક પરિબળો સુધી પહોંચતા પહેલા 2× અથવા 4× અપસ્કેલ કરો. જો ચહેરા પ્લાસ્ટિકી દેખાય, તો ડાયલ બેક ડિનોઈઝ અને શાર્પનિંગ કરો અને ફેસ-અવેર મોડ અજમાવો. જો ટેક્સચર ખૂબ તીવ્ર બને છે, તો ડિટેલ એન્હાન્સમેન્ટ ઓછું કરો અને પછી સૂક્ષ્મ દાણા ઉમેરવાનું વિચારો. જો કિનારીઓ ચમકતી હોય, તો શાર્પનિંગ ઓછું કરો અને પ્રભામંડળ અથવા આર્ટિફેક્ટ સપ્રેશન તપાસો. ઘણી પાઇપલાઇન્સમાં, "ઓછું" જીતે છે કારણ કે તે વિશ્વસનીય વાસ્તવિકતા જાળવી રાખે છે.
જૂના સ્કેન અથવા ભારે JPEG-સંકુચિત છબીઓને અપસ્કેલિંગ પહેલાં હેન્ડલ કરવી
સંકુચિત છબીઓ મુશ્કેલ છે કારણ કે મોડેલો બ્લોક આર્ટિફેક્ટ્સને વાસ્તવિક ટેક્સચર તરીકે ગણી શકે છે અને તેમને વિસ્તૃત કરી શકે છે. એક સામાન્ય વર્કફ્લો એ છે કે પહેલા આર્ટિફેક્ટ દૂર કરવું અથવા ડિબ્લોક કરવું, પછી અપસ્કેલિંગ કરવું, પછી જો જરૂરી હોય તો જ પ્રકાશ શાર્પનિંગ કરવું. સ્કેન માટે, હળવી સફાઈ મોડેલને નુકસાનને બદલે વાસ્તવિક માળખા પર ધ્યાન કેન્દ્રિત કરવામાં મદદ કરી શકે છે. ધ્યેય "નકલી ટેક્સચર સંકેતો" ઘટાડવાનો છે જેથી અપસ્કેલરને ઘોંઘાટીયા ઇનપુટ્સથી આત્મવિશ્વાસપૂર્ણ અનુમાન લગાવવાની ફરજ ન પડે.
ફોટો અપસ્કેલિંગ કરતાં વિડિઓ અપસ્કેલિંગ કેમ મુશ્કેલ છે
વિડિઓ અપસ્કેલિંગ ફક્ત એક જ સ્થિર છબી પર સારી નહીં, પરંતુ ફ્રેમમાં સુસંગત હોવું જોઈએ. જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ફ્લિકર થાય છે, તો પરિણામ ઝડપથી વિચલિત કરનારું બને છે. વિડિઓ-કેન્દ્રિત અભિગમો પુનઃનિર્માણને સ્થિર કરવા અને ઝળહળતી કલાકૃતિઓને ટાળવા માટે પડોશી ફ્રેમ્સમાંથી ટેમ્પોરલ માહિતીનો ઉપયોગ કરે છે. ઘણા વર્કફ્લોમાં ડીનોઇઝ, ચોક્કસ સ્ત્રોતો માટે ડીઇન્ટરલેસિંગ અને વૈકલ્પિક ગ્રેન રિઇન્ટ્રોડક્શનનો પણ સમાવેશ થાય છે જેથી સમગ્ર ક્રમ કૃત્રિમ રીતે તીક્ષ્ણ હોવાને બદલે સુસંગત લાગે.
જ્યારે AI અપસ્કેલિંગ યોગ્ય ન હોય અથવા તેના પર આધાર રાખવો જોખમી હોય
AI અપસ્કેલિંગને પુરાવા તરીકે નહીં, પણ ઉન્નતીકરણ તરીકે શ્રેષ્ઠ રીતે ગણવામાં આવે છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી ઇમેજિંગ અથવા ફોરેન્સિક કાર્ય જેવા ઉચ્ચ-દાવના સંદર્ભોમાં, "વિશ્વસનીય" પિક્સેલ જનરેટ કરવાથી ગેરમાર્ગે દોરવામાં આવી શકે છે કારણ કે તે એવી વિગતો ઉમેરી શકે છે જે કેપ્ચર કરવામાં આવી ન હતી. વધુ સુરક્ષિત ફ્રેમિંગ એ છે કે તેનો ઉપયોગ ઉદાહરણ તરીકે કરવો અને જાહેર કરવું કે AI પ્રક્રિયાએ વિગતનું પુનર્નિર્માણ કર્યું છે. જો વફાદારી મહત્વપૂર્ણ છે, તો મૂળને સાચવો અને દરેક પ્રક્રિયાના પગલા અને સેટિંગનું દસ્તાવેજીકરણ કરો.
સંદર્ભ
-
arXiv - છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે - arxiv.org
-
arXiv - ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) નો ઉપયોગ કરીને ઇમેજ સુપર-રિઝોલ્યુશન - arxiv.org
-
arXiv - રીઅલ-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA ડેવલપર - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX સુપર રિઝોલ્યુશન 2 - gpuopen.com
-
કમ્પ્યુટર વિઝન ફાઉન્ડેશન (CVF) ઓપન એક્સેસ - બેઝિકવીએસઆર: વિડિઓ સુપર-રિઝોલ્યુશનમાં આવશ્યક ઘટકોની શોધ (CVPR 2021) - openaccess.thecvf.com
-
arXiv - જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - સમજશક્તિ ગુમાવવી (જોહ્ન્સન એટ અલ., 2016) - arxiv.org
-
GitHub - રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો) - github.com
-
વિકિપીડિયા - બાયક્યુબિક ઇન્ટરપોલેશન - wikipedia.org
-
ટોપાઝ લેબ્સ - ટોપાઝ ફોટો - topazlabs.com
-
ટોપાઝ લેબ્સ - ટોપાઝ વિડિઓ - topazlabs.com
-
એડોબ હેલ્પ સેન્ટર - એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન - helpx.adobe.com
-
NIST / OSAC - ફોરેન્સિક ડિજિટલ ઇમેજ મેનેજમેન્ટ માટે માનક માર્ગદર્શિકા (સંસ્કરણ 1.0) - nist.gov
-
SWGDE - ફોરેન્સિક છબી વિશ્લેષણ માટે માર્ગદર્શિકા - swgde.org