AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે

AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે?

ટૂંકો જવાબ: AI અપસ્કેલિંગ મોડેલને ઓછી અને ઉચ્ચ-રિઝોલ્યુશન છબીઓ પર તાલીમ આપીને કાર્ય કરે છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરવા માટે તેનો ઉપયોગ કરે છે. જો મોડેલે તાલીમમાં સમાન ટેક્સચર અથવા ચહેરા જોયા હોય, તો તે ખાતરીકારક વિગતો ઉમેરી શકે છે; જો નહીં, તો તે પ્રભામંડળ, મીણ જેવી ત્વચા અથવા વિડિઓમાં ફ્લિકર જેવી કલાકૃતિઓને "ભ્રમિત" કરી શકે છે.

મુખ્ય બાબતો:

આગાહી : આ મોડેલ વાસ્તવિકતાના ગેરંટીકૃત પુનર્નિર્માણ નહીં, પરંતુ બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરે છે.

મોડેલ પસંદગી : CNN વધુ સ્થિર હોય છે; GAN વધુ તીક્ષ્ણ દેખાઈ શકે છે પરંતુ સુવિધાઓ શોધવાનું જોખમ લે છે.

આર્ટિફેક્ટ ચેક્સ : પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર, "લગભગ અક્ષરો" અને પ્લાસ્ટિકી ચહેરાઓ પર ધ્યાન આપો.

વિડિઓ સ્થિરતા : ટેમ્પોરલ પદ્ધતિઓનો ઉપયોગ કરો નહીંતર તમને ફ્રેમ-ટુ-ફ્રેમ ઝબૂકવું અને ડ્રિફ્ટ દેખાશે.

ઉચ્ચ દાવનો ઉપયોગ : જો ચોકસાઈ મહત્વપૂર્ણ હોય, તો પ્રક્રિયા જાહેર કરો અને પરિણામોને દૃષ્ટાંતરૂપ તરીકે ગણો.

AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે? ઇન્ફોગ્રાફિક.

તમે કદાચ જોયું હશે: એક નાનકડી, કરચલીવાળી છબી એટલી ચપળ બની જાય છે કે છાપી શકાય, સ્ટ્રીમ કરી શકાય અથવા પ્રેઝન્ટેશનમાં મૂકી શકાય, કોઈ પણ રીતે તેને દબાવ્યા વિના. તે છેતરપિંડી જેવું લાગે છે. અને - શ્રેષ્ઠ રીતે - તે 😅 છે

તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે "કમ્પ્યુટર વિગતો વધારે છે" (હાથથી લહેરાતું) કરતાં વધુ ચોક્કસ કંઈક પર આધારિત છે અને "એક મોડેલ ઘણા ઉદાહરણોમાંથી શીખેલા પેટર્નના આધારે સંભવિત ઉચ્ચ-રિઝોલ્યુશન માળખાની આગાહી કરે છે" ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ) ની નજીક છે. તે આગાહી પગલું એ આખી રમત છે - અને તેથી જ AI અપસ્કેલિંગ અદભુત દેખાઈ શકે છે... અથવા થોડું પ્લાસ્ટિક... અથવા તમારી બિલાડીના બોનસ મૂછો ઉગાડ્યા જેવું.

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 AI કેવી રીતે કાર્ય કરે છે
AI માં મોડેલ, ડેટા અને અનુમાનની મૂળભૂત બાબતો શીખો.

🔗 AI કેવી રીતે શીખે છે
તાલીમ ડેટા અને પ્રતિસાદ સમય જતાં મોડેલ પ્રદર્શનમાં કેવી રીતે સુધારો કરે છે તે જુઓ.

🔗 AI કેવી રીતે અસંગતતાઓ શોધી કાઢે છે
પેટર્ન બેઝલાઇન્સ અને AI અસામાન્ય વર્તનને ઝડપથી કેવી રીતે ચિહ્નિત કરે છે તે સમજો.

🔗 AI વલણોની આગાહી કેવી રીતે કરે છે
સંકેતો શોધી કાઢતી અને ભવિષ્યની માંગની આગાહી કરતી આગાહી પદ્ધતિઓનું અન્વેષણ કરો.


AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: મુખ્ય વિચાર, રોજિંદા શબ્દોમાં 🧩

અપસ્કેલિંગ એટલે રિઝોલ્યુશન વધારવું: વધુ પિક્સેલ્સ, મોટી છબી. પરંપરાગત અપસ્કેલિંગ (જેમ કે બાયક્યુબિક) મૂળભૂત રીતે પિક્સેલ્સને ખેંચે છે અને સંક્રમણોને સરળ બનાવે છે ( બાયક્યુબિક ઇન્ટરપોલેશન ). તે ઠીક છે, પરંતુ તે નવી વિગતો શોધી શકતું નથી - તે ફક્ત ઇન્ટરપોલેટ કરે છે.

AI અપસ્કેલિંગ કંઈક વધુ બોલ્ડ (સંશોધન વિશ્વમાં "સુપર-રિઝોલ્યુશન" તરીકે પણ ઓળખાય છે) પ્રયાસ કરે છે ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ):

  • તે ઓછા રિઝોલ્યુશન ઇનપુટને જુએ છે

  • પેટર્ન ઓળખે છે (ધાર, પોત, ચહેરાના લક્ષણો, ટેક્સ્ટ સ્ટ્રોક, ફેબ્રિક વણાટ...)

  • ઉચ્ચ-રીઝોલ્યુશન વર્ઝન કેવું દેખાવું જોઈએ

  • તે પેટર્નને બંધબેસતો વધારાનો પિક્સેલ ડેટા જનરેટ કરે છે

ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) જેવું ). જો તે થોડું શંકાસ્પદ લાગે, તો તમે ખોટા નથી - પણ તે જ કારણ છે કે તે આટલું સારું કામ કરે છે 😄

અને હા, આનો અર્થ એ છે કે AI અપસ્કેલિંગ મૂળભૂત રીતે નિયંત્રિત ભ્રમ છે... પરંતુ ઉત્પાદક, પિક્સેલ-આદરપૂર્ણ રીતે.


AI અપસ્કેલિંગનું સારું વર્ઝન શું બનાવે છે? ✅🛠️

જો તમે AI અપસ્કેલર (અથવા સેટિંગ પ્રીસેટ) નું મૂલ્યાંકન કરી રહ્યા છો, તો અહીં સૌથી મહત્વપૂર્ણ બાબતો છે:

  • વધુ રાંધ્યા વિના વિગતવાર પુનઃપ્રાપ્તિ
    સારી અપસ્કેલિંગ ચપળતા અને માળખું ઉમેરે છે, કર્કશ અવાજ કે નકલી છિદ્રો નહીં.

  • ધાર શિસ્ત
    સ્વચ્છ રેખાઓ સ્વચ્છ રહે છે. ખરાબ મોડેલો ધારને ધ્રુજારી અથવા અંકુરિત કરે છે.

  • ટેક્સચર રિયાલિસ્ટિક
    વાળ પેઇન્ટબ્રશ સ્ટ્રોક ન બનવા જોઈએ. ઈંટ પુનરાવર્તિત પેટર્ન સ્ટેમ્પ ન બનવા જોઈએ.

  • ઘોંઘાટ અને કમ્પ્રેશન હેન્ડલિંગ
    ઘણી બધી રોજિંદા છબીઓ JPEG'માં સમાપ્ત થાય છે. એક સારો અપસ્કેલર તે નુકસાનને વધારે પડતું નથી ( રીઅલ-ESRGAN ).

  • ચહેરા અને ટેક્સ્ટ જાગૃતિ
    ચહેરા અને ટેક્સ્ટ ભૂલો શોધવા માટે સૌથી સરળ સ્થાન છે. સારા મોડેલો તેમની સાથે નરમાશથી વર્તે છે (અથવા વિશિષ્ટ મોડ્સ ધરાવે છે).

  • ફ્રેમમાં સુસંગતતા (વિડિઓ માટે)
    જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ઝબકતી રહે, તો તમારી આંખો ચીસો પાડશે. વિડિઓ અપસ્કેલિંગ ટેમ્પોરલ સ્થિરતા દ્વારા જીવે છે અથવા મૃત્યુ પામે છે ( BasicVSR (CVPR 2021) ).

  • નિયંત્રણો જે અર્થપૂર્ણ બને છે.
    તમારે એવા સ્લાઇડર્સ જોઈએ છે જે વાસ્તવિક પરિણામોને મેપ કરે: અવાજ દૂર કરવો, ડિબ્લર કરવું, આર્ટિફેક્ટ દૂર કરવું, અનાજ જાળવી રાખવું, શાર્પન કરવું... વ્યવહારુ બાબતો.

એક શાંત નિયમ જે ટકી રહે છે: "શ્રેષ્ઠ" અપસ્કેલિંગ એ છે જે તમને ભાગ્યે જ ધ્યાનમાં આવે છે. એવું લાગે છે કે શરૂઆતમાં તમારી પાસે વધુ સારો કેમેરા હતો 📷✨


સરખામણી કોષ્ટક: લોકપ્રિય AI અપસ્કેલિંગ વિકલ્પો (અને તે કયા માટે સારા છે) 📊🙂

નીચે એક વ્યવહારુ સરખામણી છે. કિંમતો ઇરાદાપૂર્વક અસ્પષ્ટ છે કારણ કે સાધનો લાઇસન્સ, બંડલ્સ, ગણતરી ખર્ચ અને તે બધી મનોરંજક વસ્તુઓ દ્વારા બદલાય છે.

સાધન / અભિગમ માટે શ્રેષ્ઠ ભાવનો માહોલ તે શા માટે કામ કરે છે (આશરે)
પોખરાજ-શૈલીના ડેસ્કટોપ અપસ્કેલર્સ ( પોખરાજ ફોટો , પોખરાજ વિડિઓ ) ફોટા, વિડિઓ, સરળ વર્કફ્લો પેઇડ-ઇશ મજબૂત સામાન્ય મોડેલો + ઘણી બધી ટ્યુનિંગ, મોટે ભાગે "બસ કામ કરે છે"..
એડોબ "સુપર રિઝોલ્યુશન" પ્રકારની સુવિધાઓ ( એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન ) ફોટોગ્રાફરો પહેલાથી જ તે ઇકોસિસ્ટમમાં છે સબ્સ્ક્રિપ્શન-વાય નક્કર વિગતવાર પુનર્નિર્માણ, સામાન્ય રીતે રૂઢિચુસ્ત (ઓછું નાટકીય)
રીઅલ-ઇએસઆરજીએન / ઇએસઆરજીએન વેરિયન્ટ્સ ( રીઅલ-ઇએસઆરજીએન , ઇએસઆરજીએન ) DIY, ડેવલપર્સ, બેચ જોબ્સ મફત (પરંતુ સમય ખર્ચાળ) ટેક્સચર ડિટેલમાં ઉત્તમ, જો તમે સાવચેત ન રહો તો ચહેરા પર તીખાશ આવી શકે છે
ડિફ્યુઝન-આધારિત અપસ્કેલિંગ મોડ્સ ( SR3 ) સર્જનાત્મક કાર્ય, શૈલીયુક્ત પરિણામો મિશ્ર ખૂબસૂરત વિગતો બનાવી શકે છે - બકવાસ પણ શોધી શકે છે, તેથી... હા
ગેમ અપસ્કેલર્સ (DLSS/FSR-શૈલી) ( NVIDIA DLSS , AMD FSR 2 ) રીઅલ-ટાઇમ ગેમિંગ અને રેન્ડરિંગ બંડલ કરેલ ગતિ ડેટા અને શીખેલા પૂર્વ અભ્યાસનો ઉપયોગ કરે છે - સરળ પ્રદર્શન જીત 🕹️
ક્લાઉડ અપસ્કેલિંગ સેવાઓ સુવિધા, ઝડપી જીત ઉપયોગ દીઠ ચુકવણી ઝડપી + સ્કેલેબલ, પરંતુ તમે નિયંત્રણ અને ક્યારેક સૂક્ષ્મતાનો વેપાર કરો છો
વિડિઓ-કેન્દ્રિત AI અપસ્કેલર્સ ( બેઝિકવીએસઆર , ટોપાઝ વિડિઓ ) જૂના ફૂટેજ, એનાઇમ, આર્કાઇવ્સ પેઇડ-ઇશ ફ્લિકર ઘટાડવા માટે ટેમ્પોરલ યુક્તિઓ + વિશિષ્ટ વિડિઓ મોડેલ્સ
"સ્માર્ટ" ફોન/ગેલેરીનું સ્કેલિંગ વધારવું કેઝ્યુઅલ ઉપયોગ સમાવેશ થાય છે હળવા વજનના મોડેલો સંપૂર્ણતા માટે નહીં, પણ આનંદદાયક આઉટપુટ માટે ટ્યુન કરેલા છે (હજુ પણ ઉપયોગી)

ફોર્મેટિંગ વિચિત્ર કબૂલાત: "પેઇડ-ઇશ" તે ટેબલમાં ઘણું કામ કરી રહ્યું છે. પણ તમને ખ્યાલ આવે છે 😅


મોટું રહસ્ય: મોડેલો ઓછા-રિઝોલ્યુશનથી ઉચ્ચ-રિઝોલ્યુશન સુધીનું મેપિંગ શીખે છે 🧠➡️🖼️

મોટાભાગના AI અપસ્કેલિંગના કેન્દ્રમાં એક દેખરેખ હેઠળનું શિક્ષણ સેટઅપ છે ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) ):

  1. ઉચ્ચ-રીઝોલ્યુશન છબીઓ ("સત્ય") થી શરૂઆત કરો

  2. તેમને ઓછા-રિઝોલ્યુશન વર્ઝન ("ઇનપુટ") પર ડાઉનસેમ્પલ કરો

  3. લો-રિઝોલ્યુશનમાંથી મૂળ હાઇ-રિઝોલ્યુશનનું પુનર્નિર્માણ કરવા માટે એક મોડેલને તાલીમ આપો

સમય જતાં, મોડેલ નીચેના સહસંબંધો શીખે છે:

  • "આંખની આસપાસ આ પ્રકારનો ઝાંખો ભાગ સામાન્ય રીતે પાંપણનો હોય છે"

  • "આ પિક્સેલ ક્લસ્ટર ઘણીવાર સેરીફ ટેક્સ્ટ સૂચવે છે"

  • "આ ધારનો ઢાળ છતની રેખા જેવો દેખાય છે, રેન્ડમ અવાજ જેવો નહીં"

તે ચોક્કસ છબીઓને યાદ રાખવાની વાત નથી (સાદા અર્થમાં), તે આંકડાકીય રચના શીખવાની વાત છે ( છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે ). તેને ટેક્સચર અને ધારનું વ્યાકરણ શીખવા જેવું વિચારો. કવિતાનું વ્યાકરણ નહીં, વધુ જેવું... IKEA મેન્યુઅલ વ્યાકરણ 🪑📦 (અડખું રૂપક, છતાં પૂરતું નજીક).


નટ એન્ડ બોલ્ટ્સ: અનુમાન દરમિયાન શું થાય છે (જ્યારે તમે અપસ્કેલ કરો છો) ⚙️✨

જ્યારે તમે AI અપસ્કેલરમાં કોઈ છબી ફીડ કરો છો, ત્યારે સામાન્ય રીતે આના જેવી પાઇપલાઇન હોય છે:

  • પ્રીપ્રોસેસિંગ

    • રંગ જગ્યા કન્વર્ટ કરો (ક્યારેક)

    • પિક્સેલ મૂલ્યોને સામાન્ય બનાવો

    • જો છબી મોટી હોય તો તેને ટુકડાઓમાં ટાઇલ કરો (VRAM રિયાલિટી ચેક 😭) ( રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો) )

  • સુવિધા નિષ્કર્ષણ

    • શરૂઆતના સ્તરો ધાર, ખૂણા, ગ્રેડિયન્ટ્સ શોધે છે

    • ઊંડા સ્તરો પેટર્ન શોધે છે: ટેક્સચર, આકારો, ચહેરાના ઘટકો

  • પુનર્નિર્માણ

    • આ મોડેલ ઉચ્ચ-રીઝોલ્યુશન ફીચર મેપ જનરેટ કરે છે

    • પછી તેને વાસ્તવિક પિક્સેલ આઉટપુટમાં રૂપાંતરિત કરે છે

  • પ્રક્રિયા પછી

    • વૈકલ્પિક શાર્પનિંગ

    • વૈકલ્પિક અવાજ દૂર કરો

    • વૈકલ્પિક આર્ટિફેક્ટ સપ્રેસન (રિંગિંગ, પ્રભામંડળ, અવરોધ)

એક સૂક્ષ્મ વિગત: ઘણા ટૂલ્સ ટાઇલ્સમાં ઉચ્ચ કક્ષાના હોય છે, પછી સીમ ભેળવે છે. ઉત્તમ ટૂલ્સ ટાઇલની સીમાઓ છુપાવે છે. જો તમે નજર નાખો તો મેહ ટૂલ્સ ઝાંખા ગ્રીડના નિશાન છોડી દે છે. અને હા, તમે નજર નાખશો, કારણ કે માનવીઓને નાના ગ્રેમલિનની જેમ 300% ઝૂમ પર નાની અપૂર્ણતાઓનું નિરીક્ષણ કરવાનું ગમે છે 🧌


AI અપસ્કેલિંગ માટે ઉપયોગમાં લેવાતા મુખ્ય મોડેલ પરિવારો (અને તેઓ શા માટે અલગ લાગે છે) 🤖📚

૧) સીએનએન-આધારિત સુપર-રિઝોલ્યુશન (ક્લાસિક વર્કહોર્સ)

કન્વોલ્યુશનલ ન્યુરલ નેટવર્ક્સ સ્થાનિક પેટર્નમાં ઉત્તમ છે: ધાર, ટેક્સચર, નાના માળખાં ( ઇમેજ સુપર-રિઝોલ્યુશન યુઝિંગ ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) ).

  • ફાયદા: ઝડપી, સ્થિર, ઓછા આશ્ચર્ય

  • ગેરફાયદા: જો જોરથી દબાણ કરવામાં આવે તો તે થોડું "પ્રક્રિયા કરેલું" દેખાઈ શકે છે

૨) GAN-આધારિત અપસ્કેલિંગ (ESRGAN-શૈલી) 🎭

GANs (જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ) જનરેટરને ઉચ્ચ-રીઝોલ્યુશન છબીઓ ઉત્પન્ન કરવા માટે તાલીમ આપે છે જેને ભેદભાવ કરનાર વાસ્તવિક છબીઓ ( જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ ) થી અલગ કરી શકતો નથી.

  • ફાયદા: મજબૂત વિગતો, પ્રભાવશાળી રચના

  • ગેરફાયદા: એવી વિગતો શોધી શકે છે જે ત્યાં નહોતી - ક્યારેક ખોટી, ક્યારેક વિચિત્ર ( SRGAN , ESRGAN )

GAN તમને હાંફી જાય તેવી તીક્ષ્ણતા આપી શકે છે. તે તમારા પોટ્રેટ વિષયને વધારાની ભમર પણ આપી શકે છે. તો… તમારી લડાઈઓ પસંદ કરો 😬

૩) ડિફ્યુઝન-આધારિત અપસ્કેલિંગ (સર્જનાત્મક વાઇલ્ડકાર્ડ) 🌫️➡️🖼️

SR3 ) ઉત્પન્ન કરવા માટે માર્ગદર્શન આપી શકાય છે

  • ફાયદા: બુદ્ધિગમ્ય વિગતોમાં ખૂબ જ સારા હોઈ શકે છે, ખાસ કરીને સર્જનાત્મક કાર્ય માટે

  • ગેરફાયદા: જો સેટિંગ્સ આક્રમક હોય તો મૂળ ઓળખ/માળખાથી દૂર જઈ શકે છે ( SR3 )

આ તે જગ્યા છે જ્યાં "અપસ્કેલિંગ" "ફરીથી કલ્પના" માં ભળી જાય છે. ક્યારેક તમે બરાબર એ જ ઇચ્છો છો. ક્યારેક એવું નથી હોતું.

૪) ટેમ્પોરલ સુસંગતતા સાથે વિડિઓ અપસ્કેલિંગ 🎞️

વિડિઓ અપસ્કેલિંગ ઘણીવાર ગતિ-જાગૃત તર્ક ઉમેરે છે:

  • વિગતોને સ્થિર કરવા માટે પડોશી ફ્રેમનો ઉપયોગ કરે છે ( BasicVSR (CVPR 2021) )

  • ઝબકતા અને ક્રોલ થતા કલાકૃતિઓ ટાળવાનો પ્રયાસ કરે છે

  • ઘણીવાર સુપર-રિઝોલ્યુશનને ડીનોઈઝ અને ડીઇન્ટરલેસિંગ સાથે જોડવામાં આવે છે ( ટોપાઝ વિડીયો )

જો છબી અપસ્કેલિંગ એક પેઇન્ટિંગને પુનર્સ્થાપિત કરવા જેવું છે, તો વિડિઓ અપસ્કેલિંગ એ પાત્રના નાકનો આકાર દરેક પૃષ્ઠ પર બદલ્યા વિના ફ્લિપબુકને પુનર્સ્થાપિત કરવા જેવું છે. જે... લાગે તે કરતાં વધુ મુશ્કેલ છે.


AI અપસ્કેલિંગ ક્યારેક નકલી કેમ લાગે છે (અને તેને કેવી રીતે ઓળખવું) 👀🚩

AI અપસ્કેલિંગ ઓળખી શકાય તેવી રીતે નિષ્ફળ જાય છે. એકવાર તમે પેટર્ન શીખી લો, પછી તમને તે દરેક જગ્યાએ દેખાશે, જેમ કે નવી કાર ખરીદવી અને અચાનક દરેક શેરી પર તે મોડેલ જોવું 😵💫

સામાન્ય કહે છે:

  • મીણની ત્વચા (ખૂબ વધારે પડતું અવાજ + સ્મૂથિંગ)

  • વધુ પડતા તીક્ષ્ણ પ્રભામંડળ (ક્લાસિક "ઓવરશૂટ" પ્રદેશ) ( બાયક્યુબિક ઇન્ટરપોલેશન )

  • પુનરાવર્તિત ટેક્સચર (ઈંટની દિવાલો કોપી-પેસ્ટ પેટર્ન બની જાય છે)

  • "એલ્ગોરિધમ" ની ચીસો પાડતો કર્કશ માઇક્રો-કોન્ટ્રાસ્ટ

  • ટેક્સ્ટમાં ફેરફાર કરવો જ્યાં અક્ષરો લગભગ અક્ષરો બની જાય છે (સૌથી ખરાબ પ્રકાર)

  • ડિટેલ ડ્રિફ્ટ જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે, ખાસ કરીને ડિફ્યુઝન વર્કફ્લોમાં ( SR3 )

મુશ્કેલ ભાગ: ક્યારેક આ કલાકૃતિઓ એક નજરમાં "વધુ સારી" લાગે છે. તમારા મગજને તીક્ષ્ણતા ગમે છે. પણ એક ક્ષણ પછી, તે... બંધ લાગે છે.

એક સારી યુક્તિ એ છે કે ઝૂમ આઉટ કરીને તપાસો કે તે સામાન્ય જોવાના અંતરે કુદરતી દેખાય છે કે નહીં. જો તે ફક્ત 400% ઝૂમ પર જ સારું દેખાય છે, તો તે જીત નથી, તે એક શોખ છે 😅


AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે: તાલીમ બાજુ, ગણિતના માથાનો દુખાવો વિના 📉🙂

સુપર-રિઝોલ્યુશન મોડેલોને તાલીમ આપવામાં સામાન્ય રીતે શામેલ હોય છે:

લાક્ષણિક નુકસાનના પ્રકારો:

  • પિક્સેલ નુકશાન (L1/L2)
    ચોકસાઈને પ્રોત્સાહન આપે છે. થોડા નરમ પરિણામો આપી શકે છે.

  • સમજશક્તિ ગુમાવવી એ
    સમજશક્તિ ગુમાવવી ને બદલે ઊંડા લક્ષણો (જેમ કે "શું આ દેખાય છે .

  • એડવર્સરિયલ લોસ (GAN)
    વાસ્તવિકતાને પ્રોત્સાહન આપે છે, ક્યારેક શાબ્દિક ચોકસાઈના ભોગે ( SRGAN , જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ ).

સતત ખેંચતાણ ચાલુ રહે છે:

  • મૂળ
    વિરુદ્ધ વફાદાર બનાવો

  • દૃષ્ટિની રીતે આનંદદાયક બનાવો

તે સ્પેક્ટ્રમ પર અલગ અલગ જગ્યાએ અલગ અલગ સાધનો કામ કરે છે. અને તમે કૌટુંબિક ફોટા પુનઃસ્થાપિત કરી રહ્યા છો કે પોસ્ટર તૈયાર કરી રહ્યા છો તેના આધારે તમે એક પસંદ કરી શકો છો જ્યાં ફોરેન્સિક ચોકસાઈ કરતાં "સુંદર દેખાવ" વધુ મહત્વપૂર્ણ છે.


વ્યવહારુ વર્કફ્લો: ફોટા, જૂના સ્કેન, એનાઇમ અને વિડિઓ 📸🧾🎥

ફોટા (પોટ્રેટ, લેન્ડસ્કેપ્સ, પ્રોડક્ટ શોટ્સ)

શ્રેષ્ઠ પ્રથા સામાન્ય રીતે છે:

  • પહેલા હળવો અવાજ ઓછો કરો (જો જરૂરી હોય તો)

  • રૂઢિચુસ્ત સેટિંગ્સ સાથે ઉચ્ચ કક્ષાનું

  • જો વસ્તુઓ ખૂબ સરળ લાગે તો દાણા પાછા ઉમેરો (હા, ખરેખર)

અનાજ મીઠા જેવું છે. વધુ પડતું ખાવાથી રાત્રિભોજન બગડી જાય છે, પણ કોઈ પણ વસ્તુનો સ્વાદ બિલકુલ સપાટ હોતો નથી 🍟

જૂના સ્કેન અને ભારે સંકુચિત છબીઓ

આ વધુ મુશ્કેલ છે કારણ કે મોડેલ કમ્પ્રેશન બ્લોક્સને "ટેક્ષ્ચર" તરીકે ગણી શકે છે.
પ્રયાસ કરો:

  • કલાકૃતિ દૂર કરવી અથવા અવરોધિત કરવું

  • પછી ઉચ્ચ કક્ષાનું

  • પછી હળવેથી શાર્પનિંગ (બહુ વધારે નહીં... મને ખબર છે, બધા એવું કહે છે, પણ છતાં)

એનાઇમ અને લાઇન આર્ટ

લાઇન આર્ટના ફાયદા:

  • સ્વચ્છ ધાર સાચવતા મોડેલો

  • ઘટાડેલી ટેક્સચર ભ્રામકતા
    એનાઇમ અપસ્કેલિંગ ઘણીવાર સરસ લાગે છે કારણ કે આકારો સરળ અને સુસંગત હોય છે. (નસીબદાર.)

વિડિઓ

વિડિઓ વધારાના પગલાં ઉમેરે છે:

  • અવાજ દૂર કરો

  • ડીઇન્ટરલેસ (ચોક્કસ સ્ત્રોતો માટે)

  • ઉચ્ચ કક્ષાનું

  • ટેમ્પોરલ સ્મૂથિંગ અથવા સ્ટેબિલાઇઝેશન ( બેઝિકવીએસઆર (સીવીપીઆર 2021) )

  • સંકલન માટે વૈકલ્પિક અનાજ પુનઃપ્રવેશ

જો તમે ટેમ્પોરલ સુસંગતતા છોડી દો છો, તો તમને તે ચમકતી વિગતો ઝબકતી દેખાશે. એકવાર તમે તેને જોશો, પછી તમે તેને જોઈ શકશો નહીં. શાંત રૂમમાં ખુરશીના અવાજની જેમ 😖


અનુમાન લગાવ્યા વિના સેટિંગ્સ પસંદ કરવી (એક નાની ચીટ શીટ) 🎛️😵💫

અહીં એક યોગ્ય શરૂઆતની માનસિકતા છે:

  • જો ચહેરા પ્લાસ્ટિક જેવા દેખાય છે,
    તો અવાજ ઓછો કરો, શાર્પનિંગ ઓછું કરો, ફેસ-પ્રિઝર્વિંગ મોડેલ અથવા મોડ અજમાવો.

  • જો ટેક્સચર ખૂબ તીવ્ર લાગે તો
    "વિગતવાર વૃદ્ધિ" અથવા "વિગત પુનઃપ્રાપ્ત કરો" સ્લાઇડર્સને નીચે કરો, પછી સૂક્ષ્મ દાણા ઉમેરો.

  • જો કિનારીઓ ચમકતી હોય તો
    શાર્પનિંગ બંધ કરો, હેલો સપ્રેશન વિકલ્પો તપાસો.

  • જો છબી ખૂબ "AI" લાગે છે,
    તો વધુ રૂઢિચુસ્ત બનો. ક્યારેક શ્રેષ્ઠ ચાલ ફક્ત... ઓછી હોય છે.

અને: ફક્ત એટલા માટે 8x ને અપસ્કેલ ન કરો કે તમે કરી શકો છો. સ્વચ્છ 2x અથવા 4x ઘણીવાર શ્રેષ્ઠ વિકલ્પ હોય છે. તે પછી, તમે મોડેલને તમારા પિક્સેલ્સ વિશે ફેનફિક્શન લખવાનું કહી રહ્યા છો 📖😂


નીતિશાસ્ત્ર, પ્રામાણિકતા અને "સત્ય" નો અજીબોગરીબ પ્રશ્ન 🧭😬

AI અપસ્કેલિંગ એક રેખાને અસ્પષ્ટ કરે છે:

  • પુનઃસ્થાપન એટલે જે હતું તે પાછું મેળવવું

  • ઉન્નતીકરણ એટલે જે ન હતું તે ઉમેરવું

વ્યક્તિગત ફોટા સાથે, તે સામાન્ય રીતે સારું (અને સુંદર) હોય છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી છબીઓ, અથવા એવી કોઈપણ વસ્તુ જ્યાં વફાદારી મહત્વપૂર્ણ હોય... તમારે સાવચેત રહેવાની જરૂર છે ( OSAC/NIST: ફોરેન્સિક ડિજિટલ છબી વ્યવસ્થાપન માટે માનક માર્ગદર્શિકા , ફોરેન્સિક છબી વિશ્લેષણ માટે SWGDE માર્ગદર્શિકા ).

એક સરળ નિયમ:

  • જો દાવ વધારે હોય, તો AI અપસ્કેલિંગને દૃષ્ટાંતરૂપ , નિર્ણાયક નહીં.

ઉપરાંત, વ્યાવસાયિક સંદર્ભોમાં ખુલાસો મહત્વપૂર્ણ છે. એટલા માટે નહીં કે AI દુષ્ટ છે, પરંતુ એટલા માટે કે પ્રેક્ષકો જાણવાને લાયક છે કે વિગતો ફરીથી બનાવવામાં આવી હતી કે કેપ્ચર કરવામાં આવી હતી. તે ફક્ત... આદરણીય છે.


સમાપન નોંધો અને ટૂંકી સમીક્ષા 🧡✅

તો, AI અપસ્કેલિંગ કેવી રીતે કાર્ય કરે છે તે આ છે: મોડેલો શીખે છે કે ઉચ્ચ-રિઝોલ્યુશન વિગતો ઓછા-રિઝોલ્યુશન પેટર્ન સાથે કેવી રીતે સંબંધિત છે, પછી અપસ્કેલિંગ દરમિયાન વિશ્વસનીય વધારાના પિક્સેલ્સની આગાહી કરે છે ( ડિપ લર્નિંગ ફોર ઇમેજ સુપર-રિઝોલ્યુશન: એક સર્વે ). મોડેલ પરિવાર (CNN, GAN, પ્રસરણ, વિડિઓ-ટેમ્પોરલ) પર આધાર રાખીને, તે આગાહી રૂઢિચુસ્ત અને વિશ્વાસુ હોઈ શકે છે... અથવા બોલ્ડ અને ક્યારેક અવિભાજ્ય 😅

ઝડપી રીકેપ

જો તમે ઇચ્છો તો, મને કહો કે તમે શું અપસ્કેલિંગ કરી રહ્યા છો (ચહેરા, જૂના ફોટા, વિડિઓ, એનાઇમ, ટેક્સ્ટ સ્કેન), અને હું એક સેટિંગ્સ વ્યૂહરચના સૂચવીશ જે સામાન્ય "AI લુક" મુશ્કેલીઓથી બચવા માટે વલણ ધરાવે છે 🎯🙂


વારંવાર પૂછાતા પ્રશ્નો

AI અપસ્કેલિંગ અને તે કેવી રીતે કાર્ય કરે છે

AI અપસ્કેલિંગ (જેને ઘણીવાર "સુપર-રિઝોલ્યુશન" કહેવામાં આવે છે) તાલીમ દરમિયાન શીખેલા પેટર્નમાંથી ગુમ થયેલ ઉચ્ચ-રિઝોલ્યુશન વિગતોની આગાહી કરીને છબીનું રિઝોલ્યુશન વધારે છે. બાયક્યુબિક ઇન્ટરપોલેશન જેવા પિક્સેલ્સને ફક્ત ખેંચવાને બદલે, મોડેલ ધાર, ટેક્સચર, ચહેરા અને ટેક્સ્ટ જેવા સ્ટ્રોકનો અભ્યાસ કરે છે, પછી નવો પિક્સેલ ડેટા જનરેટ કરે છે જે તે શીખેલા પેટર્ન સાથે સુસંગત હોય છે. તે "વાસ્તવિકતાને પુનઃસ્થાપિત કરવાનું" ઓછું અને "વિશ્વસનીય અનુમાન લગાવવાનું" વધુ છે જે કુદરતી તરીકે વાંચવામાં આવે છે.

બાયક્યુબિક અથવા પરંપરાગત માપ બદલવાની વિરુદ્ધ AI અપસ્કેલિંગ

પરંપરાગત અપસ્કેલિંગ પદ્ધતિઓ (જેમ કે બાયક્યુબિક) મુખ્યત્વે હાલના પિક્સેલ્સ વચ્ચે ઇન્ટરપોલેટ થાય છે, સાચી નવી વિગતો બનાવ્યા વિના સંક્રમણોને સરળ બનાવે છે. AI અપસ્કેલિંગનો હેતુ દ્રશ્ય સંકેતોને ઓળખીને અને તે સંકેતોના ઉચ્ચ-રિઝોલ્યુશન સંસ્કરણો કેવા દેખાશે તેની આગાહી કરીને બુદ્ધિગમ્ય માળખું ફરીથી બનાવવાનો છે. એટલા માટે AI પરિણામો નાટકીય રીતે તીક્ષ્ણ લાગે છે, અને શા માટે તેઓ કલાકૃતિઓ રજૂ કરી શકે છે અથવા વિગતો "શોધ" કરી શકે છે જે સ્રોતમાં હાજર ન હતા.

શા માટે ચહેરો મીણ જેવો અથવા વધુ પડતો મુલાયમ દેખાઈ શકે છે

મીણ જેવા ચહેરા સામાન્ય રીતે આક્રમક ડીનોઈઝિંગ અને સ્મૂથિંગથી આવે છે જે શાર્પનિંગ સાથે જોડાય છે જે કુદરતી ત્વચાની રચનાને દૂર કરે છે. ઘણા સાધનો અવાજ અને બારીક રચનાને સમાન રીતે વર્તે છે, તેથી છબીને "સફાઈ" કરવાથી છિદ્રો અને સૂક્ષ્મ વિગતો ભૂંસી શકાય છે. એક સામાન્ય અભિગમ એ છે કે ડીનોઈઝ અને શાર્પનિંગ ઘટાડવું, જો ઉપલબ્ધ હોય તો ફેસ-પ્રિઝર્વિંગ મોડનો ઉપયોગ કરવો, પછી અનાજનો સ્પર્શ ફરીથી રજૂ કરવો જેથી પરિણામ ઓછું પ્લાસ્ટિક અને વધુ ફોટોગ્રાફિક લાગે.

જોવા માટે સામાન્ય AI અપસ્કેલિંગ કલાકૃતિઓ

લાક્ષણિક ટેલમાં કિનારીઓ આસપાસ પ્રભામંડળ, પુનરાવર્તિત ટેક્સચર પેટર્ન (જેમ કે કોપી-પેસ્ટ ઇંટો), ક્રન્ચી માઇક્રો-કોન્ટ્રાસ્ટ અને "લગભગ અક્ષરો" માં ફેરવાતું ટેક્સ્ટ શામેલ છે. ડિફ્યુઝન-આધારિત વર્કફ્લોમાં, તમે વિગતવાર ડ્રિફ્ટ પણ જોઈ શકો છો જ્યાં નાના લક્ષણો સૂક્ષ્મ રીતે બદલાય છે. વિડિઓ માટે, ફ્રેમમાં ફ્લિકર અને ક્રોલિંગ વિગતો મોટા લાલ ધ્વજ છે. જો તે ફક્ત આત્યંતિક ઝૂમ પર જ સારું લાગે છે, તો સેટિંગ્સ કદાચ ખૂબ આક્રમક છે.

GAN, CNN અને ડિફ્યુઝન અપસ્કેલર્સ પરિણામોમાં કેવી રીતે અલગ પડે છે

CNN-આધારિત સુપર-રિઝોલ્યુશન વધુ સ્થિર અને વધુ અનુમાનિત હોય છે, પરંતુ જો તેને સખત દબાણ કરવામાં આવે તો તે "પ્રક્રિયા કરેલ" દેખાઈ શકે છે. GAN-આધારિત વિકલ્પો (ESRGAN-શૈલી) ઘણીવાર પંચીર ટેક્સચર અને કથિત તીક્ષ્ણતા ઉત્પન્ન કરે છે, પરંતુ તેઓ ખોટી વિગતોને ભ્રમિત કરી શકે છે, ખાસ કરીને ચહેરા પર. ડિફ્યુઝન-આધારિત અપસ્કેલિંગ સુંદર, બુદ્ધિગમ્ય વિગતો ઉત્પન્ન કરી શકે છે, છતાં જો માર્ગદર્શન અથવા તાકાત સેટિંગ્સ ખૂબ મજબૂત હોય તો તે મૂળ રચનાથી દૂર જઈ શકે છે.

"ખૂબ જ કૃત્રિમ બુદ્ધિ" દેખાવ ટાળવા માટે એક વ્યવહારુ સેટિંગ્સ વ્યૂહરચના

રૂઢિચુસ્ત શરૂઆત કરો: આત્યંતિક પરિબળો સુધી પહોંચતા પહેલા 2× અથવા 4× અપસ્કેલ કરો. જો ચહેરા પ્લાસ્ટિકી દેખાય, તો ડાયલ બેક ડિનોઈઝ અને શાર્પનિંગ કરો અને ફેસ-અવેર મોડ અજમાવો. જો ટેક્સચર ખૂબ તીવ્ર બને છે, તો ડિટેલ એન્હાન્સમેન્ટ ઓછું કરો અને પછી સૂક્ષ્મ દાણા ઉમેરવાનું વિચારો. જો કિનારીઓ ચમકતી હોય, તો શાર્પનિંગ ઓછું કરો અને પ્રભામંડળ અથવા આર્ટિફેક્ટ સપ્રેશન તપાસો. ઘણી પાઇપલાઇન્સમાં, "ઓછું" જીતે છે કારણ કે તે વિશ્વસનીય વાસ્તવિકતા જાળવી રાખે છે.

જૂના સ્કેન અથવા ભારે JPEG-સંકુચિત છબીઓને અપસ્કેલિંગ પહેલાં હેન્ડલ કરવી

સંકુચિત છબીઓ મુશ્કેલ છે કારણ કે મોડેલો બ્લોક આર્ટિફેક્ટ્સને વાસ્તવિક ટેક્સચર તરીકે ગણી શકે છે અને તેમને વિસ્તૃત કરી શકે છે. એક સામાન્ય વર્કફ્લો એ છે કે પહેલા આર્ટિફેક્ટ દૂર કરવું અથવા ડિબ્લોક કરવું, પછી અપસ્કેલિંગ કરવું, પછી જો જરૂરી હોય તો જ પ્રકાશ શાર્પનિંગ કરવું. સ્કેન માટે, હળવી સફાઈ મોડેલને નુકસાનને બદલે વાસ્તવિક માળખા પર ધ્યાન કેન્દ્રિત કરવામાં મદદ કરી શકે છે. ધ્યેય "નકલી ટેક્સચર સંકેતો" ઘટાડવાનો છે જેથી અપસ્કેલરને ઘોંઘાટીયા ઇનપુટ્સથી આત્મવિશ્વાસપૂર્ણ અનુમાન લગાવવાની ફરજ ન પડે.

ફોટો અપસ્કેલિંગ કરતાં વિડિઓ અપસ્કેલિંગ કેમ મુશ્કેલ છે

વિડિઓ અપસ્કેલિંગ ફક્ત એક જ સ્થિર છબી પર સારી નહીં, પરંતુ ફ્રેમમાં સુસંગત હોવું જોઈએ. જો વિગતો ફ્રેમ-ટુ-ફ્રેમ ફ્લિકર થાય છે, તો પરિણામ ઝડપથી વિચલિત કરનારું બને છે. વિડિઓ-કેન્દ્રિત અભિગમો પુનઃનિર્માણને સ્થિર કરવા અને ઝળહળતી કલાકૃતિઓને ટાળવા માટે પડોશી ફ્રેમ્સમાંથી ટેમ્પોરલ માહિતીનો ઉપયોગ કરે છે. ઘણા વર્કફ્લોમાં ડીનોઇઝ, ચોક્કસ સ્ત્રોતો માટે ડીઇન્ટરલેસિંગ અને વૈકલ્પિક ગ્રેન રિઇન્ટ્રોડક્શનનો પણ સમાવેશ થાય છે જેથી સમગ્ર ક્રમ કૃત્રિમ રીતે તીક્ષ્ણ હોવાને બદલે સુસંગત લાગે.

જ્યારે AI અપસ્કેલિંગ યોગ્ય ન હોય અથવા તેના પર આધાર રાખવો જોખમી હોય

AI અપસ્કેલિંગને પુરાવા તરીકે નહીં, પણ ઉન્નતીકરણ તરીકે શ્રેષ્ઠ રીતે ગણવામાં આવે છે. પત્રકારત્વ, કાનૂની પુરાવા, તબીબી ઇમેજિંગ અથવા ફોરેન્સિક કાર્ય જેવા ઉચ્ચ-દાવના સંદર્ભોમાં, "વિશ્વસનીય" પિક્સેલ જનરેટ કરવાથી ગેરમાર્ગે દોરવામાં આવી શકે છે કારણ કે તે એવી વિગતો ઉમેરી શકે છે જે કેપ્ચર કરવામાં આવી ન હતી. વધુ સુરક્ષિત ફ્રેમિંગ એ છે કે તેનો ઉપયોગ ઉદાહરણ તરીકે કરવો અને જાહેર કરવું કે AI પ્રક્રિયાએ વિગતનું પુનર્નિર્માણ કર્યું છે. જો વફાદારી મહત્વપૂર્ણ છે, તો મૂળને સાચવો અને દરેક પ્રક્રિયાના પગલા અને સેટિંગનું દસ્તાવેજીકરણ કરો.

સંદર્ભ

  1. arXiv - છબી માટે ડીપ લર્નિંગ સુપર-રિઝોલ્યુશન: એક સર્વે - arxiv.org

  2. arXiv - ડીપ કન્વોલ્યુશનલ નેટવર્ક્સ (SRCNN) નો ઉપયોગ કરીને ઇમેજ સુપર-રિઝોલ્યુશન - arxiv.org

  3. arXiv - રીઅલ-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA ડેવલપર - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX સુપર રિઝોલ્યુશન 2 - gpuopen.com

  8. કમ્પ્યુટર વિઝન ફાઉન્ડેશન (CVF) ઓપન એક્સેસ - બેઝિકવીએસઆર: વિડિઓ સુપર-રિઝોલ્યુશનમાં આવશ્યક ઘટકોની શોધ (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - જનરેટિવ એડવર્સરિયલ નેટવર્ક્સ - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - સમજશક્તિ ગુમાવવી (જોહ્ન્સન એટ અલ., 2016) - arxiv.org

  12. GitHub - રીઅલ-ESRGAN રેપો (ટાઇલ વિકલ્પો) - github.com

  13. વિકિપીડિયા - બાયક્યુબિક ઇન્ટરપોલેશન - wikipedia.org

  14. ટોપાઝ લેબ્સ - ટોપાઝ ફોટો - topazlabs.com

  15. ટોપાઝ લેબ્સ - ટોપાઝ વિડિઓ - topazlabs.com

  16. એડોબ હેલ્પ સેન્ટર - એડોબ એન્હાન્સ > સુપર રિઝોલ્યુશન - helpx.adobe.com

  17. NIST / OSAC - ફોરેન્સિક ડિજિટલ ઇમેજ મેનેજમેન્ટ માટે માનક માર્ગદર્શિકા (સંસ્કરણ 1.0) - nist.gov

  18. SWGDE - ફોરેન્સિક છબી વિશ્લેષણ માટે માર્ગદર્શિકા - swgde.org

અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા