ક્યારેય ત્યાં બેસીને માથું ખંજવાળ્યું છે, જેમ કે... આ બધું ખરેખર ક્યાંથી આવી રહ્યું છે ? મારો મતલબ છે કે, AI ધૂળવાળા લાઇબ્રેરીના ઢગલાઓમાં ખોવાઈ રહ્યું નથી અથવા યુટ્યુબ શોર્ટ્સનો ઉપયોગ કરી રહ્યું નથી. છતાં કોઈક રીતે તે લાસગ્ના હેક્સથી લઈને બ્લેક હોલ ફિઝિક્સ સુધીની દરેક વસ્તુના જવાબો શોધી કાઢે છે - જાણે તેની અંદર કોઈ તળિયા વગરનું ફાઇલિંગ કેબિનેટ હોય. વાસ્તવિકતા વધુ વિચિત્ર છે, અને કદાચ તમે ધારો છો તેના કરતાં વધુ રસપ્રદ છે. ચાલો તેને થોડું ખોલીએ (અને હા, કદાચ રસ્તામાં કેટલીક દંતકથાઓનો નાશ કરીએ).
શું આ જાદુ છે? 🌐
તે જાદુટોણા નથી, જોકે ક્યારેક એવું લાગે છે. ગુપ્ત રીતે જે થઈ રહ્યું છે તે મૂળભૂત રીતે પેટર્ન આગાહી તથ્યો સંગ્રહિત કરતા નથી ; તેના બદલે, તેઓ પહેલા શું આવ્યું તેના આધારે આગામી શબ્દ (ટોકન) અનુમાન કરવા માટે તાલીમ પામેલા હોય છે [2]. વ્યવહારમાં, તેનો અર્થ એ છે કે તેઓ સંબંધોને જોડે છે: કયા શબ્દો એકસાથે રહે છે, વાક્યો સામાન્ય રીતે કેવી રીતે આકાર લે છે, સંપૂર્ણ વિચારો કેવી રીતે પાલખની જેમ બનાવવામાં આવે છે. તેથી જ આઉટપુટ લાગે છે , ભલે - સંપૂર્ણ પ્રામાણિકતા - તે આંકડાકીય નકલ છે, સમજણ નથી [4].
તો ખરેખર AI-જનરેટેડ માહિતી શું ઉપયોગી ? થોડીક બાબતો:
-
ડેટા વિવિધતા - એક સાંકડી પ્રવાહમાંથી નહીં, પણ અસંખ્ય સ્ત્રોતોમાંથી મેળવવી.
-
અપડેટ્સ - રિફ્રેશ ચક્ર વિના, તે ઝડપથી જૂનું થઈ જાય છે.
-
ફિલ્ટરિંગ - આદર્શ રીતે કચરો અંદર ઘૂસે તે પહેલાં તેને પકડી લેવું (જોકે, ચાલો વાસ્તવિક બનીએ, તે જાળીમાં છિદ્રો હોય છે).
-
ક્રોસ-ચેકિંગ - સત્તાવાળા સ્ત્રોતો (નાસા, WHO, મુખ્ય યુનિવર્સિટીઓ વિશે વિચારો) પર આધાર રાખવો, જે મોટાભાગની AI ગવર્નન્સ પ્લેબુકમાં હોવું આવશ્યક છે [3].
છતાં, ક્યારેક તે આત્મવિશ્વાસથી બનાવટી બનાવે છે. તે કહેવાતા આભાસ ? મૂળભૂત રીતે પોલિશ્ડ બકવાસ સીધા ચહેરા સાથે રજૂ કરવામાં આવે છે [2][3].
આ પછી તમને વાંચવા ગમશે તેવા લેખો:
🔗 શું AI લોટરી નંબરોની આગાહી કરી શકે છે?
AI લોટરી આગાહીઓ વિશેની દંતકથાઓ અને તથ્યોનું અન્વેષણ કરવું.
🔗 AI પ્રત્યે સર્વાંગી અભિગમ અપનાવવાનો અર્થ શું છે?
નૈતિકતા અને અસર પર સંતુલિત દ્રષ્ટિકોણ સાથે AI ને સમજવું.
🔗 બાઇબલ કૃત્રિમ બુદ્ધિ વિશે શું કહે છે?
ટેકનોલોજી અને માનવ સર્જન પર બાઈબલના દ્રષ્ટિકોણની તપાસ કરવી.
ઝડપી સરખામણી: AI ક્યાંથી આગળ વધે છે 📊
દરેક સ્ત્રોત સમાન નથી હોતો, પરંતુ દરેક પોતાનો ભાગ ભજવે છે. અહીં એક સ્નેપશોટ દૃશ્ય છે.
| સ્રોત પ્રકાર | કોણ તેનો ઉપયોગ કરે છે (AI) | કિંમત/મૂલ્ય | તે કેમ કામ કરે છે (અથવા નથી...) |
|---|---|---|---|
| પુસ્તકો અને લેખો | મોટા ભાષા મોડેલો | અમૂલ્ય (ઇશ) | ગાઢ, માળખાગત જ્ઞાન - ફક્ત ઝડપથી જૂનું થઈ જાય છે. |
| વેબસાઇટ્સ અને બ્લોગ્સ | લગભગ બધા જ AI | મફત (અવાજ સાથે) | જંગલી વિવિધતા; તેજસ્વીતા અને સંપૂર્ણ કચરાનું મિશ્રણ. |
| શૈક્ષણિક પેપર્સ | સંશોધન-ભારે AIs | ક્યારેક પેવોલ્ડ | કઠોરતા + વિશ્વસનીયતા, પણ ભારે શબ્દભંડોળમાં સંલગ્ન. |
| વપરાશકર્તા ડેટા | વ્યક્તિગત AIs | અત્યંત સંવેદનશીલ ⚠️ | ચપળ ટેલરિંગ, પણ ગોપનીયતાનો માથાનો દુખાવો ઘણો વધારે છે. |
| રીઅલ-ટાઇમ વેબ | શોધ-લિંક્ડ AIs | મફત (જો ઓનલાઈન હોય તો) | માહિતી તાજી રાખે છે; ગેરલાભ એ અફવા ફેલાવવાનું જોખમ છે. |
તાલીમ ડેટા બ્રહ્માંડ 🌌
આ "બાળપણનું શિક્ષણ" તબક્કો છે. કલ્પના કરો કે તમે એક બાળકને લાખો સ્ટોરીબુક્સ, ન્યૂઝ ક્લિપિંગ્સ અને વિકિપીડિયા રેબિટ હોલ એકસાથે આપી રહ્યા છો. પ્રીટર્નિંગ આવું જ દેખાય છે. વાસ્તવિક દુનિયામાં, પ્રદાતાઓ જાહેરમાં ઉપલબ્ધ ડેટા, લાઇસન્સ પ્રાપ્ત સ્ત્રોતો અને ટ્રેનર દ્વારા જનરેટ કરાયેલ ટેક્સ્ટ [2] ને એકસાથે ભેગા કરે છે.
ટોચ પર સ્તરવાળી: ક્યુરેટેડ માનવ ઉદાહરણો - સારા જવાબો, ખરાબ જવાબો, યોગ્ય દિશામાં ધક્કો - મજબૂતીકરણ શરૂ થાય તે પહેલાં [1].
પારદર્શિતાની ચેતવણી: કંપનીઓ દરેક વિગતો જાહેર કરતી નથી. કેટલાક ગાર્ડરેલ્સ ગુપ્તતા (IP, સલામતીની ચિંતાઓ) ધરાવે છે, તેથી તમને વાસ્તવિક મિશ્રણમાં ફક્ત આંશિક વિન્ડો મળે છે [2].
રીઅલ-ટાઇમ શોધ: વધારાની ટોપિંગ 🍒
કેટલાક મોડેલો હવે તેમના તાલીમ બબલની બહાર ડોકિયું કરી શકે છે. તે રીટ્રીવલ-ઓગમેન્ટેડ જનરેશન (RAG) - મૂળભૂત રીતે લાઇવ ઇન્ડેક્સ અથવા ડોક સ્ટોરમાંથી હિસ્સા ખેંચીને, પછી તેને જવાબમાં વણાવીને [5]. સમાચાર હેડલાઇન્સ અથવા શેરના ભાવ જેવી ઝડપથી બદલાતી વસ્તુઓ માટે યોગ્ય.
શું ખરાબ છે? ઇન્ટરનેટ એ પ્રતિભા અને કચરાની આગ સમાન છે. જો ફિલ્ટર્સ અથવા ઉત્પત્તિ તપાસ નબળી હોય, તો તમે જંક ડેટાને ફરીથી અંદર જવાનું જોખમ લો છો - જે જોખમ ફ્રેમવર્ક ચેતવણી આપે છે [3].
એક સામાન્ય ઉપાય: કંપનીઓ મોડેલોને તેમના પોતાના આંતરિક ડેટાબેઝ સાથે જોડે છે, તેથી જવાબો વર્તમાન HR નીતિ અથવા અપડેટેડ પ્રોડક્ટ દસ્તાવેજનો ઉલ્લેખ કરે છે, તેને પાંખ મારવાને બદલે. વિચારો: ઓછા "ઉહ-ઓહ" ક્ષણો, વધુ વિશ્વસનીય જવાબો.
ફાઇન-ટ્યુનિંગ: AI નું પોલિશિંગ પગલું 🧪
કાચા પૂર્વ-પ્રશિક્ષિત મોડેલો અણઘડ હોય છે. તેથી તેઓ સુવ્યવસ્થિત :
-
મદદરૂપ, હાનિકારક, પ્રામાણિક બનવાનું શીખવવું (માનવ પ્રતિસાદ, RLHF માંથી મજબૂતીકરણ શિક્ષણ દ્વારા) [1].
-
અસુરક્ષિત અથવા ઝેરી ધારને રેતીથી ઢાંકવી (સંરેખણ) [1].
-
સ્વર પ્રમાણે ગોઠવણ કરવી - પછી ભલે તે મૈત્રીપૂર્ણ હોય, ઔપચારિક હોય કે રમતિયાળ કટાક્ષભર્યું હોય.
તે હીરાને એટલું પોલિશ કરવાનું નથી જેટલું કે આંકડાકીય હિમપ્રપાતને વાતચીત ભાગીદારની જેમ વર્તવા માટે ઉશ્કેરવાનું છે.
મુશ્કેલીઓ અને નિષ્ફળતાઓ 🚧
ચાલો એવું ન કહીએ કે તે દોષરહિત છે:
-
ભ્રમ - સ્પષ્ટ જવાબો જે એકદમ ખોટા છે [2][3].
-
પૂર્વગ્રહ - તે ડેટામાં બેક કરેલા પેટર્નને પ્રતિબિંબિત કરે છે; જો અનચેક કરવામાં આવે તો તેને વિસ્તૃત પણ કરી શકે છે [3][4].
-
કોઈ પ્રત્યક્ષ અનુભવ નથી - તે વાત કરી પણ ક્યારેય તેનો સ્વાદ ચાખ્યો નથી [4].
-
અતિશય આત્મવિશ્વાસ - ગદ્ય જાણે છે તેમ વહે છે, ભલે તે વહેતું ન હોય. જોખમ માળખા ધારણાઓને ફ્લેગ કરવા પર ભાર મૂકે છે [3].
કેમ લાગે છે 🧠
તેમાં કોઈ માન્યતા નથી, માનવીય અર્થમાં કોઈ યાદશક્તિ નથી, અને ચોક્કસપણે કોઈ સ્વ નથી. છતાં તે વાક્યોને સરળતાથી જોડે છે, તેથી તમારું મગજ તેને એવી રીતે વાંચે છે જાણે તે સમજે છે . જે થઈ રહ્યું છે તે ફક્ત મોટા પાયે આગામી આગાહી : સ્પ્લિટ-સેકન્ડમાં ટ્રિલિયન સંભાવનાઓને ક્રંચ કરી દે છે [2].
"બુદ્ધિ" ની ભાવના એ ઉભરતી વર્તણૂક છે - સંશોધકો તેને, થોડી જીભમાં, "સ્ટોકાસ્ટિક પોપટ" અસર [4] કહે છે.
બાળકો માટે અનુકૂળ સામ્યતા 🎨
એક પોપટની કલ્પના કરો જે લાઇબ્રેરીમાં દરેક પુસ્તક વાંચે છે. તેને સમજાતી પણ શબ્દોને ફરીથી એવી રીતે જોડી દે છે જે સમજદાર લાગે છે. ક્યારેક તે એકદમ સચોટ હોય છે; ક્યારેક તે બકવાસ હોય છે - પરંતુ પૂરતી પ્રતિભા હોવા છતાં, તમે હંમેશા તફાવત જોઈ શકતા નથી.
સમાપન: AI ની માહિતી ક્યાંથી આવે છે 📌
સ્પષ્ટ શબ્દોમાં:
-
વિશાળ તાલીમ ડેટા (જાહેર + લાઇસન્સ પ્રાપ્ત + ટ્રેનર-જનરેટેડ) [2].
-
ફાઇન-ટ્યુનિંગ [1].
-
લાઇવ ડેટા સ્ટ્રીમ્સ સાથે જોડાયેલ હોય ત્યારે પુનઃપ્રાપ્તિ સિસ્ટમ્સ
AI કંઈપણ "જાણતું" નથી - તે ટેક્સ્ટની આગાહી કરે છે . તે તેની સુપરપાવર અને તેની એચિલીસ હીલ બંને છે. મુખ્ય વાત? હંમેશા વિશ્વસનીય સ્ત્રોત [3] સામે મહત્વપૂર્ણ બાબતોની ક્રોસ-ચેક કરો.
સંદર્ભ
-
ઓયાંગ, એલ. એટ અલ. (2022). માનવ પ્રતિસાદ (InstructGPT) સાથે સૂચનાઓનું પાલન કરવા માટે ભાષા મોડેલોને તાલીમ આપવી . arXiv .
-
ઓપનએઆઈ (2023). GPT-4 ટેકનિકલ રિપોર્ટ - લાઇસન્સ પ્રાપ્ત, જાહેર અને માનવ-નિર્મિત ડેટાનું મિશ્રણ; આગામી-ટોકન આગાહી ઉદ્દેશ્ય અને મર્યાદાઓ. arXiv .
-
NIST (2023). AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF 1.0) - ઉદ્ભવસ્થાન, વિશ્વસનીયતા અને જોખમ નિયંત્રણો. PDF .
-
બેન્ડર, ઇએમ, ગેબ્રુ, ટી., મેકમિલન-મેજર, એ., મિશેલ, એસ. (2021). સ્ટોકેસ્ટિક પોપટના જોખમો પર: શું ભાષા મોડેલ ખૂબ મોટા હોઈ શકે છે? પીડીએફ .
-
લેવિસ, પી. એટ અલ. (2020). જ્ઞાન-સઘન NLP માટે પુનઃપ્રાપ્તિ-સંવર્ધિત પેઢી . arXiv .