AI માહિતી ક્યાંથી મેળવે છે?

AI તેની માહિતી ક્યાંથી મેળવે છે?

ક્યારેય ત્યાં બેસીને માથું ખંજવાળ્યું છે, જેમ કે... આ બધું ખરેખર ક્યાંથી આવી રહ્યું છે ? મારો મતલબ છે કે, AI ધૂળવાળા લાઇબ્રેરીના ઢગલાઓમાં ખોવાઈ રહ્યું નથી અથવા યુટ્યુબ શોર્ટ્સનો ઉપયોગ કરી રહ્યું નથી. છતાં કોઈક રીતે તે લાસગ્ના હેક્સથી લઈને બ્લેક હોલ ફિઝિક્સ સુધીની દરેક વસ્તુના જવાબો શોધી કાઢે છે - જાણે તેની અંદર કોઈ તળિયા વગરનું ફાઇલિંગ કેબિનેટ હોય. વાસ્તવિકતા વધુ વિચિત્ર છે, અને કદાચ તમે ધારો છો તેના કરતાં વધુ રસપ્રદ છે. ચાલો તેને થોડું ખોલીએ (અને હા, કદાચ રસ્તામાં કેટલીક દંતકથાઓનો નાશ કરીએ).


શું આ જાદુ છે? 🌐

તે જાદુટોણા નથી, જોકે ક્યારેક એવું લાગે છે. ગુપ્ત રીતે જે થઈ રહ્યું છે તે મૂળભૂત રીતે પેટર્ન આગાહી તથ્યો સંગ્રહિત કરતા નથી ; તેના બદલે, તેઓ પહેલા શું આવ્યું તેના આધારે આગામી શબ્દ (ટોકન) અનુમાન કરવા માટે તાલીમ પામેલા હોય છે [2]. વ્યવહારમાં, તેનો અર્થ એ છે કે તેઓ સંબંધોને જોડે છે: કયા શબ્દો એકસાથે રહે છે, વાક્યો સામાન્ય રીતે કેવી રીતે આકાર લે છે, સંપૂર્ણ વિચારો કેવી રીતે પાલખની જેમ બનાવવામાં આવે છે. તેથી જ આઉટપુટ લાગે છે , ભલે - સંપૂર્ણ પ્રામાણિકતા - તે આંકડાકીય નકલ છે, સમજણ નથી [4].

તો ખરેખર AI-જનરેટેડ માહિતી શું ઉપયોગી ? થોડીક બાબતો:

  • ડેટા વિવિધતા - એક સાંકડી પ્રવાહમાંથી નહીં, પણ અસંખ્ય સ્ત્રોતોમાંથી મેળવવી.

  • અપડેટ્સ - રિફ્રેશ ચક્ર વિના, તે ઝડપથી જૂનું થઈ જાય છે.

  • ફિલ્ટરિંગ - આદર્શ રીતે કચરો અંદર ઘૂસે તે પહેલાં તેને પકડી લેવું (જોકે, ચાલો વાસ્તવિક બનીએ, તે જાળીમાં છિદ્રો હોય છે).

  • ક્રોસ-ચેકિંગ - સત્તાવાળા સ્ત્રોતો (નાસા, WHO, મુખ્ય યુનિવર્સિટીઓ વિશે વિચારો) પર આધાર રાખવો, જે મોટાભાગની AI ગવર્નન્સ પ્લેબુકમાં હોવું આવશ્યક છે [3].

છતાં, ક્યારેક તે આત્મવિશ્વાસથી બનાવટી બનાવે છે. તે કહેવાતા આભાસ ? મૂળભૂત રીતે પોલિશ્ડ બકવાસ સીધા ચહેરા સાથે રજૂ કરવામાં આવે છે [2][3].

આ પછી તમને વાંચવા ગમશે તેવા લેખો:

🔗 શું AI લોટરી નંબરોની આગાહી કરી શકે છે?
AI લોટરી આગાહીઓ વિશેની દંતકથાઓ અને તથ્યોનું અન્વેષણ કરવું.

🔗 AI પ્રત્યે સર્વાંગી અભિગમ અપનાવવાનો અર્થ શું છે?
નૈતિકતા અને અસર પર સંતુલિત દ્રષ્ટિકોણ સાથે AI ને સમજવું.

🔗 બાઇબલ કૃત્રિમ બુદ્ધિ વિશે શું કહે છે?
ટેકનોલોજી અને માનવ સર્જન પર બાઈબલના દ્રષ્ટિકોણની તપાસ કરવી.


ઝડપી સરખામણી: AI ક્યાંથી આગળ વધે છે 📊

દરેક સ્ત્રોત સમાન નથી હોતો, પરંતુ દરેક પોતાનો ભાગ ભજવે છે. અહીં એક સ્નેપશોટ દૃશ્ય છે.

સ્રોત પ્રકાર કોણ તેનો ઉપયોગ કરે છે (AI) કિંમત/મૂલ્ય તે કેમ કામ કરે છે (અથવા નથી...)
પુસ્તકો અને લેખો મોટા ભાષા મોડેલો અમૂલ્ય (ઇશ) ગાઢ, માળખાગત જ્ઞાન - ફક્ત ઝડપથી જૂનું થઈ જાય છે.
વેબસાઇટ્સ અને બ્લોગ્સ લગભગ બધા જ AI મફત (અવાજ સાથે) જંગલી વિવિધતા; તેજસ્વીતા અને સંપૂર્ણ કચરાનું મિશ્રણ.
શૈક્ષણિક પેપર્સ સંશોધન-ભારે AIs ક્યારેક પેવોલ્ડ કઠોરતા + વિશ્વસનીયતા, પણ ભારે શબ્દભંડોળમાં સંલગ્ન.
વપરાશકર્તા ડેટા વ્યક્તિગત AIs અત્યંત સંવેદનશીલ ⚠️ ચપળ ટેલરિંગ, પણ ગોપનીયતાનો માથાનો દુખાવો ઘણો વધારે છે.
રીઅલ-ટાઇમ વેબ શોધ-લિંક્ડ AIs મફત (જો ઓનલાઈન હોય તો) માહિતી તાજી રાખે છે; ગેરલાભ એ અફવા ફેલાવવાનું જોખમ છે.

તાલીમ ડેટા બ્રહ્માંડ 🌌

આ "બાળપણનું શિક્ષણ" તબક્કો છે. કલ્પના કરો કે તમે એક બાળકને લાખો સ્ટોરીબુક્સ, ન્યૂઝ ક્લિપિંગ્સ અને વિકિપીડિયા રેબિટ હોલ એકસાથે આપી રહ્યા છો. પ્રીટર્નિંગ આવું જ દેખાય છે. વાસ્તવિક દુનિયામાં, પ્રદાતાઓ જાહેરમાં ઉપલબ્ધ ડેટા, લાઇસન્સ પ્રાપ્ત સ્ત્રોતો અને ટ્રેનર દ્વારા જનરેટ કરાયેલ ટેક્સ્ટ [2] ને એકસાથે ભેગા કરે છે.

ટોચ પર સ્તરવાળી: ક્યુરેટેડ માનવ ઉદાહરણો - સારા જવાબો, ખરાબ જવાબો, યોગ્ય દિશામાં ધક્કો - મજબૂતીકરણ શરૂ થાય તે પહેલાં [1].

પારદર્શિતાની ચેતવણી: કંપનીઓ દરેક વિગતો જાહેર કરતી નથી. કેટલાક ગાર્ડરેલ્સ ગુપ્તતા (IP, સલામતીની ચિંતાઓ) ધરાવે છે, તેથી તમને વાસ્તવિક મિશ્રણમાં ફક્ત આંશિક વિન્ડો મળે છે [2].


રીઅલ-ટાઇમ શોધ: વધારાની ટોપિંગ 🍒

કેટલાક મોડેલો હવે તેમના તાલીમ બબલની બહાર ડોકિયું કરી શકે છે. તે રીટ્રીવલ-ઓગમેન્ટેડ જનરેશન (RAG) - મૂળભૂત રીતે લાઇવ ઇન્ડેક્સ અથવા ડોક સ્ટોરમાંથી હિસ્સા ખેંચીને, પછી તેને જવાબમાં વણાવીને [5]. સમાચાર હેડલાઇન્સ અથવા શેરના ભાવ જેવી ઝડપથી બદલાતી વસ્તુઓ માટે યોગ્ય.

શું ખરાબ છે? ઇન્ટરનેટ એ પ્રતિભા અને કચરાની આગ સમાન છે. જો ફિલ્ટર્સ અથવા ઉત્પત્તિ તપાસ નબળી હોય, તો તમે જંક ડેટાને ફરીથી અંદર જવાનું જોખમ લો છો - જે જોખમ ફ્રેમવર્ક ચેતવણી આપે છે [3].

એક સામાન્ય ઉપાય: કંપનીઓ મોડેલોને તેમના પોતાના આંતરિક ડેટાબેઝ સાથે જોડે છે, તેથી જવાબો વર્તમાન HR નીતિ અથવા અપડેટેડ પ્રોડક્ટ દસ્તાવેજનો ઉલ્લેખ કરે છે, તેને પાંખ મારવાને બદલે. વિચારો: ઓછા "ઉહ-ઓહ" ક્ષણો, વધુ વિશ્વસનીય જવાબો.


ફાઇન-ટ્યુનિંગ: AI નું પોલિશિંગ પગલું 🧪

કાચા પૂર્વ-પ્રશિક્ષિત મોડેલો અણઘડ હોય છે. તેથી તેઓ સુવ્યવસ્થિત :

  • મદદરૂપ, હાનિકારક, પ્રામાણિક બનવાનું શીખવવું (માનવ પ્રતિસાદ, RLHF માંથી મજબૂતીકરણ શિક્ષણ દ્વારા) [1].

  • અસુરક્ષિત અથવા ઝેરી ધારને રેતીથી ઢાંકવી (સંરેખણ) [1].

  • સ્વર પ્રમાણે ગોઠવણ કરવી - પછી ભલે તે મૈત્રીપૂર્ણ હોય, ઔપચારિક હોય કે રમતિયાળ કટાક્ષભર્યું હોય.

તે હીરાને એટલું પોલિશ કરવાનું નથી જેટલું કે આંકડાકીય હિમપ્રપાતને વાતચીત ભાગીદારની જેમ વર્તવા માટે ઉશ્કેરવાનું છે.


મુશ્કેલીઓ અને નિષ્ફળતાઓ 🚧

ચાલો એવું ન કહીએ કે તે દોષરહિત છે:

  • ભ્રમ - સ્પષ્ટ જવાબો જે એકદમ ખોટા છે [2][3].

  • પૂર્વગ્રહ - તે ડેટામાં બેક કરેલા પેટર્નને પ્રતિબિંબિત કરે છે; જો અનચેક કરવામાં આવે તો તેને વિસ્તૃત પણ કરી શકે છે [3][4].

  • કોઈ પ્રત્યક્ષ અનુભવ નથી - તે વાત કરી પણ ક્યારેય તેનો સ્વાદ ચાખ્યો નથી [4].

  • અતિશય આત્મવિશ્વાસ - ગદ્ય જાણે છે તેમ વહે છે, ભલે તે વહેતું ન હોય. જોખમ માળખા ધારણાઓને ફ્લેગ કરવા પર ભાર મૂકે છે [3].


કેમ લાગે છે 🧠

તેમાં કોઈ માન્યતા નથી, માનવીય અર્થમાં કોઈ યાદશક્તિ નથી, અને ચોક્કસપણે કોઈ સ્વ નથી. છતાં તે વાક્યોને સરળતાથી જોડે છે, તેથી તમારું મગજ તેને એવી રીતે વાંચે છે જાણે તે સમજે છે . જે થઈ રહ્યું છે તે ફક્ત મોટા પાયે આગામી આગાહી : સ્પ્લિટ-સેકન્ડમાં ટ્રિલિયન સંભાવનાઓને ક્રંચ કરી દે છે [2].

"બુદ્ધિ" ની ભાવના એ ઉભરતી વર્તણૂક છે - સંશોધકો તેને, થોડી જીભમાં, "સ્ટોકાસ્ટિક પોપટ" અસર [4] કહે છે.


બાળકો માટે અનુકૂળ સામ્યતા 🎨

એક પોપટની કલ્પના કરો જે લાઇબ્રેરીમાં દરેક પુસ્તક વાંચે છે. તેને સમજાતી પણ શબ્દોને ફરીથી એવી રીતે જોડી દે છે જે સમજદાર લાગે છે. ક્યારેક તે એકદમ સચોટ હોય છે; ક્યારેક તે બકવાસ હોય છે - પરંતુ પૂરતી પ્રતિભા હોવા છતાં, તમે હંમેશા તફાવત જોઈ શકતા નથી.


સમાપન: AI ની માહિતી ક્યાંથી આવે છે 📌

સ્પષ્ટ શબ્દોમાં:

  • વિશાળ તાલીમ ડેટા (જાહેર + લાઇસન્સ પ્રાપ્ત + ટ્રેનર-જનરેટેડ) [2].

  • ફાઇન-ટ્યુનિંગ [1].

  • લાઇવ ડેટા સ્ટ્રીમ્સ સાથે જોડાયેલ હોય ત્યારે પુનઃપ્રાપ્તિ સિસ્ટમ્સ

AI કંઈપણ "જાણતું" નથી - તે ટેક્સ્ટની આગાહી કરે છે . તે તેની સુપરપાવર અને તેની એચિલીસ હીલ બંને છે. મુખ્ય વાત? હંમેશા વિશ્વસનીય સ્ત્રોત [3] સામે મહત્વપૂર્ણ બાબતોની ક્રોસ-ચેક કરો.


સંદર્ભ

  1. ઓયાંગ, એલ. એટ અલ. (2022). માનવ પ્રતિસાદ (InstructGPT) સાથે સૂચનાઓનું પાલન કરવા માટે ભાષા મોડેલોને તાલીમ આપવી . arXiv .

  2. ઓપનએઆઈ (2023). GPT-4 ટેકનિકલ રિપોર્ટ - લાઇસન્સ પ્રાપ્ત, જાહેર અને માનવ-નિર્મિત ડેટાનું મિશ્રણ; આગામી-ટોકન આગાહી ઉદ્દેશ્ય અને મર્યાદાઓ. arXiv .

  3. NIST (2023). AI રિસ્ક મેનેજમેન્ટ ફ્રેમવર્ક (AI RMF 1.0) - ઉદ્ભવસ્થાન, વિશ્વસનીયતા અને જોખમ નિયંત્રણો. PDF .

  4. બેન્ડર, ઇએમ, ગેબ્રુ, ટી., મેકમિલન-મેજર, એ., મિશેલ, એસ. (2021). સ્ટોકેસ્ટિક પોપટના જોખમો પર: શું ભાષા મોડેલ ખૂબ મોટા હોઈ શકે છે? પીડીએફ .

  5. લેવિસ, પી. એટ અલ. (2020). જ્ઞાન-સઘન NLP માટે પુનઃપ્રાપ્તિ-સંવર્ધિત પેઢી . arXiv .


અધિકૃત AI સહાયક સ્ટોર પર નવીનતમ AI શોધો

અમારા વિશે

બ્લોગ પર પાછા