NLP ടാസ്കുകൾ പരിഹരിക്കുന്നതിന് ട്രാൻസ്ഫോർമർ മോഡലുകളുടെ വിജയം കഴിഞ്ഞ്, സമാനമായ ആർക്കിടെക്ചറുകൾ കമ്പ്യൂട്ടർ വിചൻ ടാസ്കുകൾക്കും പ്രയോഗിക്കപ്പെട്ടു. കാഴ്ചയും സ്വാഭാവിക ഭാഷാ കഴിവുകളും കേർത്ത് മോഡലുകൾ നിർമ്മിക്കാനുള്ള താൽപര്യം വർധിക്കുകയാണ്. OpenAI നടത്തിയ ഒരു ശ്രമമാണ് CLIP, DALL.E എന്ന പേരിൽ അറിയപ്പെടുന്നത്.
CLIP-ന്റെ പ്രധാന ആശയം ഒരു ടെക്സ്റ്റ് പ്രോംപ്റ്റും ഒരു ചിത്രവും താരതമ്യം ചെയ്ത് ചിത്രം പ്രോംപ്റ്റിനോട് എത്രത്തോളം പൊരുത്തപ്പെടുന്നു എന്ന് നിർണ്ണയിക്കാനാകുക എന്നതാണ്.
ഈ ചിത്രം ഈ ബ്ലോഗ് പോസ്റ്റിൽ നിന്നാണ്
മോഡൽ ഇന്റർനെറ്റിൽ നിന്നുള്ള ചിത്രങ്ങളും അവയുടെ ക്യാപ്ഷനുകളും ഉപയോഗിച്ച് പരിശീലിപ്പിക്കുന്നു. ഓരോ ബാച്ചിലും N (ചിത്രം, ടെക്സ്റ്റ്) ജോഡികൾ എടുത്ത് അവ I1,..., IN / T1, ..., TN എന്ന വെക്ടർ പ്രതിനിധാനങ്ങളായി മാറ്റുന്നു. ആ പ്രതിനിധാനങ്ങൾ തമ്മിൽ പൊരുത്തപ്പെടുത്തുന്നു. ഒരു ജോഡിക്കുള്ള (ഉദാ. Ii , Ti) വെക്ടറുകൾക്കിടയിലെ കോസൈൻ സമാനത പരമാവധി ആക്കുകയും മറ്റു ജോഡികളുടെ കോസൈൻ സമാനത കുറയ്ക്കുകയും ചെയ്യുന്നതാണ് ലോസ് ഫംഗ്ഷൻ. അതുകൊണ്ടാണ് ഈ സമീപനം കോൺട്രാസ്റ്റീവ് എന്ന് വിളിക്കുന്നത്.
CLIP മോഡൽ/ലൈബ്രറി OpenAI GitHub ൽ ലഭ്യമാണ്. ഈ സമീപനം ഈ ബ്ലോഗ് പോസ്റ്റിൽ വിശദീകരിച്ചിരിക്കുന്നു, കൂടുതൽ വിശദമായി ഈ പേപ്പറിൽ കാണാം.
ഈ മോഡൽ പ്രീ-ട്രെയിൻ ചെയ്ത ശേഷം, ചിത്രങ്ങളുടെ ഒരു ബാച്ചും ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളുടെ ഒരു ബാച്ചും നൽകുമ്പോൾ, പ്രോബബിലിറ്റികളുള്ള ടെൻസർ ലഭിക്കും. CLIP പല ടാസ്കുകൾക്കും ഉപയോഗിക്കാം:
ചിത്ര വർഗ്ഗീകരണം
ഉദാഹരണത്തിന്, പൂച്ചകൾ, നായകൾ, മനുഷ്യർ എന്നിങ്ങനെ ചിത്രങ്ങൾ വർഗ്ഗീകരിക്കേണ്ടതുണ്ടെങ്കിൽ, മോഡലിന് ഒരു ചിത്രം നൽകുകയും, "ഒരു പൂച്ചയുടെ ചിത്രം", "ഒരു നായയുടെ ചിത്രം", "ഒരു മനുഷ്യന്റെ ചിത്രം" എന്നിങ്ങനെ ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ നൽകുകയും ചെയ്യാം. 3 പ്രോബബിലിറ്റികളുള്ള വെക്ടറിൽ ഏറ്റവും ഉയർന്ന മൂല്യമുള്ള ഇൻഡക്സ് തിരഞ്ഞെടുക്കുക മതി.
ഈ ചിത്രം ഈ ബ്ലോഗ് പോസ്റ്റിൽ നിന്നാണ്
ടെക്സ്റ്റ് അടിസ്ഥാനമാക്കിയുള്ള ചിത്രം തിരയൽ
ഇതിന്റെ മറുവശം, ചിത്രങ്ങളുടെ ഒരു ശേഖരം ഉണ്ടെങ്കിൽ, ആ ശേഖരം മോഡലിന് നൽകുകയും, ഒരു ടെക്സ്റ്റ് പ്രോംപ്റ്റ് നൽകുകയും ചെയ്താൽ, ആ പ്രോംപ്റ്റിനോട് ഏറ്റവും സാമ്യമുള്ള ചിത്രം ലഭിക്കും.
CLIP പ്രവർത്തനത്തിൽ കാണാൻ Clip.ipynb നോട്ട്ബുക്ക് തുറക്കുക.
CLIP ടെക്സ്റ്റ് പ്രോംപ്റ്റിൽ നിന്നുള്ള ചിത്ര സൃഷ്ടിക്കലിനും ഉപയോഗിക്കാം. ഇതിന്, ഒരു ജനറേറ്റർ മോഡൽ വേണം, അത് ചില വെക്ടർ ഇൻപുട്ട് അടിസ്ഥാനമാക്കി ചിത്രങ്ങൾ സൃഷ്ടിക്കാനാകും. അത്തരത്തിലുള്ള മോഡലുകളിൽ ഒന്ന് VQGAN (വെക്ടർ-ക്വാണ്ടൈസ്ഡ് GAN) ആണ്.
VQGAN-നെ സാധാരണ GAN മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമാക്കുന്ന പ്രധാന ആശയങ്ങൾ:
- ഓട്ടോറെഗ്രസീവ് ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ ഉപയോഗിച്ച് ചിത്രത്തെ രൂപപ്പെടുത്തുന്ന സമ്പൂർണമായ കാഴ്ചാ ഭാഗങ്ങളുടെ സീക്വൻസ് സൃഷ്ടിക്കൽ. ആ കാഴ്ചാ ഭാഗങ്ങൾ CNN ഉപയോഗിച്ച് പഠിപ്പിക്കുന്നു.
- ചിത്രത്തിന്റെ ഭാഗങ്ങൾ "യഥാർത്ഥമാണോ" "കൃത്രിമമാണോ" എന്ന് കണ്ടെത്തുന്ന സബ്-ഇമേജ് ഡിസ്ക്രിമിനേറ്റർ ഉപയോഗിക്കൽ (പരമ്പരാഗത GAN-ലെ "എല്ലാം അല്ലെങ്കിൽ ഒന്നുമില്ല" സമീപനത്തിന് പകരം).
VQGAN-നെ കുറിച്ച് കൂടുതൽ അറിയാൻ Taming Transformers വെബ്സൈറ്റ് സന്ദർശിക്കുക.
VQGAN-നും പരമ്പരാഗത GAN-നും ഇടയിലെ പ്രധാന വ്യത്യാസം, GAN ഏതെങ്കിലും ഇൻപുട്ട് വെക്ടറിൽ നിന്ന് നല്ല ചിത്രം സൃഷ്ടിക്കാമെങ്കിലും, VQGAN സൃഷ്ടിക്കുന്ന ചിത്രം സുസംയോജിതമല്ലായിരിക്കാം. അതിനാൽ, ചിത്രം സൃഷ്ടിക്കൽ പ്രക്രിയ കൂടുതൽ മാർഗ്ഗനിർദ്ദേശം ആവശ്യമാണ്, അത് CLIP ഉപയോഗിച്ച് സാധ്യമാക്കാം.
ഒരു ടെക്സ്റ്റ് പ്രോംപ്റ്റിനോട് പൊരുത്തമുള്ള ചിത്രം സൃഷ്ടിക്കാൻ, ആദ്യം ഒരു യാദൃച്ഛിക എൻകോഡിംഗ് വെക്ടർ എടുത്ത് VQGAN വഴി ചിത്രം സൃഷ്ടിക്കുന്നു. തുടർന്ന് CLIP ഉപയോഗിച്ച് ചിത്രം പ്രോംപ്റ്റിനോട് എത്രത്തോളം പൊരുത്തപ്പെടുന്നു എന്ന് കാണിക്കുന്ന ലോസ് ഫംഗ്ഷൻ നിർമ്മിക്കുന്നു. ഈ ലോസ് കുറയ്ക്കാൻ ബാക്ക് പ്രൊപ്പഗേഷൻ ഉപയോഗിച്ച് ഇൻപുട്ട് വെക്ടർ പാരാമീറ്ററുകൾ ക്രമീകരിക്കുന്നു.
VQGAN+CLIP നടപ്പിലാക്കുന്ന മികച്ച ലൈബ്രറിയാണ് Pixray
ചിത്രങ്ങൾ Artificial Teachers ശേഖരത്തിൽ നിന്നുള്ളവ, Dmitry Soshnikov
DALL-E GPT-3-ന്റെ ഒരു പതിപ്പാണ്, പ്രോംപ്റ്റുകളിൽ നിന്നുള്ള ചിത്രങ്ങൾ സൃഷ്ടിക്കാൻ പരിശീലിപ്പിച്ചിരിക്കുന്നു. ഇതിന് 12 ബില്യൺ പാരാമീറ്ററുകൾ ഉണ്ട്.
CLIP-നോട് വ്യത്യസ്തമായി, DALL-E ടെക്സ്റ്റും ചിത്രവും ഒരേ ടോക്കൺ സ്ട്രീമിൽ സ്വീകരിക്കുന്നു. അതിനാൽ, പല പ്രോംപ്റ്റുകളിൽ നിന്നുമുള്ള ചിത്രങ്ങൾ ടെക്സ്റ്റ് അടിസ്ഥാനമാക്കി സൃഷ്ടിക്കാം.
DALL.E 1-നും 2-നും ഇടയിലെ പ്രധാന വ്യത്യാസം, 2-ാം പതിപ്പ് കൂടുതൽ യാഥാർത്ഥ്യസമൃദ്ധമായ ചിത്രങ്ങളും കലാസൃഷ്ടികളും സൃഷ്ടിക്കുന്നു എന്നതാണ്.
DALL-E ഉപയോഗിച്ച് സൃഷ്ടിച്ച ചിത്രങ്ങളുടെ ഉദാഹരണങ്ങൾ:
- VQGAN പേപ്പർ: Taming Transformers for High-Resolution Image Synthesis
- CLIP പേപ്പർ: Learning Transferable Visual Models From Natural Language Supervision
അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, യന്ത്രം ചെയ്ത വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ വ്യാഖ്യാനക്കേടുകൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.








