செயற்கை நுண்ணறிவு

கூகிளின் LipSync3D மேம்படுத்தப்பட்ட 'டீப்ஃபேக்டு' வாய் இயக்கம் ஒத்திசைவை வழங்குகிறது

புதுப்பிக்கப்பட்ட on டிசம்பர் 9, 2022

A இணைந்து கூகுள் AI ஆராய்ச்சியாளர்கள் மற்றும் இந்திய தொழில்நுட்ப நிறுவனம் காரக்பூர் இடையே ஆடியோ உள்ளடக்கத்தில் இருந்து பேசும் தலைகளை ஒருங்கிணைக்க புதிய கட்டமைப்பை வழங்குகிறது. ஆடியோவில் இருந்து 'பேசும் தலை' வீடியோ உள்ளடக்கத்தை உருவாக்குவதற்கான உகந்த மற்றும் நியாயமான ஆதார வழிகளை உருவாக்குவதை நோக்கமாகக் கொண்டது, உதட்டு அசைவுகளை டப்பிங் செய்யப்பட்ட அல்லது இயந்திரம் மொழிபெயர்த்த ஆடியோவுடன் ஒத்திசைக்கும் நோக்கங்களுக்காகவும், அவதாரங்களில் பயன்படுத்துவதற்கும், ஊடாடும் பயன்பாடுகள் மற்றும் பிறவற்றில் பயன்படுத்தவும். நிகழ் நேர சூழல்கள்.

ஆதாரம்: https://www.youtube.com/watch?v=L1StbX9OznY

LipSync3D எனப்படும் - செயல்முறையில் பயிற்றுவிக்கப்பட்ட இயந்திர கற்றல் மாதிரிகளுக்கு, இலக்கு முக அடையாளத்தின் உள்ளீட்டுத் தரவின் ஒரு வீடியோ மட்டுமே தேவைப்படுகிறது. தரவுத் தயாரிப்பு பைப்லைன் ஒளியமைப்பு மற்றும் உள்ளீட்டு வீடியோவின் மற்ற அம்சங்களை மதிப்பீடு செய்வதிலிருந்து முக வடிவவியலைப் பிரித்தெடுக்கிறது, மேலும் சிக்கனமான மற்றும் கவனம் செலுத்தும் பயிற்சியை அனுமதிக்கிறது.

LipSync3D இன் இரண்டு-நிலை வேலை ஓட்டம். மேலே, 'டார்கெட்' ஆடியோவில் இருந்து டைனமிகல் டெக்ஸ்சர்டு 3D முகத்தின் உருவாக்கம்; கீழே, இலக்கு வீடியோவில் உருவாக்கப்பட்ட கண்ணி செருகல்.

உண்மையில், LipSync3D இன் மிகவும் குறிப்பிடத்தக்க பங்களிப்பானது இந்த பகுதியில் ஆராய்ச்சி முயற்சியின் அமைப்பில் அதன் லைட்டிங் இயல்பாக்குதல் அல்காரிதம் ஆகும், இது பயிற்சி மற்றும் அனுமான வெளிச்சத்தை துண்டிக்கிறது.

பொதுவான வடிவவியலில் இருந்து வெளிச்சம் தரவை துண்டித்தல், சவாலான சூழ்நிலையில் மிகவும் யதார்த்தமான உதடு இயக்க வெளியீட்டை உருவாக்க LipSync3D உதவுகிறது. சமீபத்திய ஆண்டுகளில் பிற அணுகுமுறைகள் தங்களை 'நிலையான' லைட்டிங் நிலைமைகளுக்கு மட்டுப்படுத்திக் கொண்டன, இது இந்த வகையில் அவற்றின் குறைந்த திறனை வெளிப்படுத்தாது.

பொதுவான வடிவவியலில் இருந்து வெளிச்சம் தரவை துண்டிப்பது சவாலான சூழ்நிலையில் மிகவும் யதார்த்தமான உதடு இயக்க வெளியீட்டை உருவாக்க LipSync3D க்கு உதவுகிறது. சமீபத்திய ஆண்டுகளில் பிற அணுகுமுறைகள் தங்களை 'நிலையான' லைட்டிங் நிலைமைகளுக்கு மட்டுப்படுத்திக் கொண்டன, இது இந்த வகையில் அவற்றின் குறைந்த திறனை வெளிப்படுத்தாது.

உள்ளீட்டு தரவு பிரேம்களின் முன்-செயலாக்கத்தின் போது, கணினி ஸ்பெகுலர் புள்ளிகளைக் கண்டறிந்து அகற்ற வேண்டும், ஏனெனில் இவை வீடியோ எடுக்கப்பட்ட லைட்டிங் நிலைமைகளுக்கு குறிப்பிட்டவை, இல்லையெனில் ரீலைட்டிங் செயல்முறையில் தலையிடும்.

LipSync3D, அதன் பெயர் குறிப்பிடுவது போல, அது மதிப்பிடும் முகங்களில் வெறும் பிக்சல் பகுப்பாய்வைச் செய்வதில்லை, ஆனால் அடையாளம் காணப்பட்ட முக அடையாளங்களைத் தீவிரமாகப் பயன்படுத்தி, மரபுவழி CGI-ல் சுற்றியிருக்கும் 'அவிழ்க்கப்பட்ட' அமைப்புகளுடன், அசையும் CGI-பாணி மெஷ்களை உருவாக்குகிறது. குழாய்.

LipSync3D இல் இயல்பாக்கத்தை போஸ். இடதுபுறத்தில் உள்ளீடு சட்டங்கள் மற்றும் கண்டறியப்பட்ட அம்சங்கள் உள்ளன; நடுவில், உருவாக்கப்பட்ட கண்ணி மதிப்பீட்டின் இயல்பாக்கப்பட்ட முனைகள்; மற்றும் வலதுபுறத்தில், தொடர்புடைய அமைப்பு அட்லஸ், இது அமைப்புக் கணிப்புக்கான அடிப்படை உண்மையை வழங்குகிறது. ஆதாரம்: https://arxiv.org/pdf/2106.04185.pdf

நாவல் ரீலைட்டிங் முறையைத் தவிர, முந்தைய வேலைகளில் LipSync3D மூன்று முக்கிய கண்டுபிடிப்புகளை வழங்குகிறது என்று ஆராய்ச்சியாளர்கள் கூறுகின்றனர்: வடிவவியல், ஒளியமைப்பு, போஸ் மற்றும் அமைப்பு ஆகியவற்றை இயல்பாக்கப்பட்ட இடத்தில் தனித்தனி தரவு ஸ்ட்ரீம்களாகப் பிரித்தல்; தற்காலிகமாக சீரான வீடியோ தொகுப்பை உருவாக்கும் எளிதில் பயிற்சியளிக்கக்கூடிய தன்னியக்க-பின்னடைவு அமைப்பு முன்கணிப்பு மாதிரி; மனித மதிப்பீடுகள் மற்றும் புறநிலை அளவீடுகளால் மதிப்பிடப்பட்டபடி, அதிகரித்த யதார்த்தவாதம்.

வீடியோ முகப் படங்களின் பல்வேறு அம்சங்களைப் பிரிப்பது வீடியோ தொகுப்பில் அதிகக் கட்டுப்பாட்டை அனுமதிக்கிறது.

LipSync3D ஆனது ஒலிப்பதிவுகள் மற்றும் பேச்சின் பிற அம்சங்களைப் பகுப்பாய்வு செய்வதன் மூலம் பொருத்தமான உதடு வடிவியல் இயக்கத்தை நேரடியாக ஆடியோவிலிருந்து பெறலாம், மேலும் அவற்றை வாய்ப் பகுதியைச் சுற்றி தெரிந்த தொடர்புடைய தசை போஸ்களாக மொழிபெயர்க்கலாம்.

இந்த செயல்முறையானது கூட்டு-கணிப்பு பைப்லைனைப் பயன்படுத்துகிறது, இதில் ஊகிக்கப்பட்ட வடிவியல் மற்றும் அமைப்பு ஒரு தன்னியக்க குறியாக்கி அமைப்பில் பிரத்யேக குறியாக்கிகளைக் கொண்டுள்ளது, ஆனால் மாதிரியின் மீது திணிக்கப்படும் பேச்சுடன் ஆடியோ குறியாக்கியைப் பகிர்ந்து கொள்கிறது:

LipSync3D இன் லேபிள் இயக்கத் தொகுப்பு, பகட்டான CGI அவதாரங்களைச் செயல்படுத்தும் நோக்கத்துடன் உள்ளது, இது நிஜ-உலகப் படங்களின் அதே வகையான கண்ணி மற்றும் அமைப்புத் தகவல் மட்டுமே:

ஒரு பகட்டான 3D அவதார் அதன் உதடு அசைவுகளை நிகழ்நேரத்தில் மூல ஸ்பீக்கர் வீடியோ மூலம் இயக்குகிறது. அத்தகைய சூழ்நிலையில், தனிப்பயனாக்கப்பட்ட முன் பயிற்சி மூலம் சிறந்த முடிவுகளைப் பெறலாம்.

சற்று யதார்த்தமான உணர்வுடன் அவதாரங்களைப் பயன்படுத்துவதையும் ஆராய்ச்சியாளர்கள் எதிர்பார்க்கின்றனர்:

ஜியிபோர்ஸ் GTX 3 இல் TensorFlow, Python மற்றும் C++ ஆகியவற்றைப் பயன்படுத்தும் ஒரு பைப்லைனில், 5-2 நிமிட வீடியோவிற்கு, வீடியோக்களுக்கான மாதிரி பயிற்சி நேரம் 5-1080 மணிநேரம் வரை இருக்கும். பயிற்சி அமர்வுகள் 128-500 க்கு மேல் 1000 பிரேம்களின் தொகுதி அளவைப் பயன்படுத்தியது. சகாப்தங்கள், ஒவ்வொரு சகாப்தமும் வீடியோவின் முழுமையான மதிப்பீட்டைக் குறிக்கும்.

LipSync3D: போஸ் மற்றும் லைட்டிங் இயல்பாக்கத்தைப் பயன்படுத்தி வீடியோவிலிருந்து தனிப்பயனாக்கப்பட்ட 3D பேசும் முகங்கள்

LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

Watch this video on YouTube

உதடு இயக்கத்தின் மாறும் மறு ஒத்திசைவை நோக்கி

புதிய ஆடியோ டிராக்கிற்கு இடமளிக்கும் வகையில் உதடுகளை மீண்டும் ஒத்திசைக்கும் துறை கடந்த சில ஆண்டுகளில் கணினி பார்வை ஆராய்ச்சியில் பெரும் கவனத்தைப் பெற்றுள்ளது (கீழே காண்க), இது சர்ச்சைக்குரிய ஒரு துணை தயாரிப்பு என்பதால் அல்ல. ஆழமான தொழில்நுட்பம்.

2017 இல் வாஷிங்டன் பல்கலைக்கழகம் ஆய்வுகளை முன்வைத்தார் அப்போதைய அதிபர் ஒபாமாவின் உதடு அசைவுகளை மாற்ற, ஆடியோவில் இருந்து உதட்டு ஒத்திசைவைக் கற்றுக் கொள்ளும் திறன் கொண்டது. 2018 இல்; மேக்ஸ் பிளாங்க் இன்ஸ்டிடியூட் ஃபார் இன்ஃபர்மேட்டிக்ஸ் தலைமையில் மற்றொரு ஆராய்ச்சி முயற்சி அடையாளம்>அடையாள வீடியோ பரிமாற்றத்தை இயக்க, உதட்டு ஒத்திசைவு a செயல்முறையின் துணை தயாரிப்பு; மே 2021 இல் AI ஸ்டார்ட்அப் FlawlessAI அதன் தனியுரிம லிப்-ஒத்திசைவு தொழில்நுட்பமான TrueSync ஐ பரவலாக வெளிப்படுத்தியது. பெற்றார் அனைத்து மொழிகளிலும் பெரிய திரைப்பட வெளியீடுகளுக்கு மேம்படுத்தப்பட்ட டப்பிங் தொழில்நுட்பங்களை செயல்படுத்தும் வகையில் பத்திரிகைகளில்.

மற்றும், நிச்சயமாக, டீப்ஃபேக் ஓப்பன் சோர்ஸ் களஞ்சியங்களின் தற்போதைய வளர்ச்சியானது, முகப் படத் தொகுப்பின் இந்த கோளத்தில் செயலில் உள்ள பயனர் பங்களிக்கும் ஆராய்ச்சியின் மற்றொரு கிளையை வழங்குகிறது.

தொடர்புடைய தலைப்புகள்:deepfake டீப்ஃபேக்ஸ்போலி பேச்சு Google பட தொகுப்பு ஆராய்ச்சி பேச்சு

அடுத்து

செயற்கை நரம்பணுக்களிலிருந்து உருவாக்கப்பட்ட ஆற்றல் திறன் கொண்ட சாதனம் மூளை அலைகளை டிகோட் செய்ய முடியும்

மிஸ் பண்ணாதே

குயில்டிங் வடிவமைப்பிற்காக உருவாக்கப்பட்ட புதிய முன்மாதிரி மென்பொருள்

மார்ட்டின் ஆண்டர்சன்

இயந்திர கற்றல், செயற்கை நுண்ணறிவு மற்றும் பெரிய தரவு பற்றிய எழுத்தாளர்.
தனிப்பட்ட தளம்: மார்டினாண்டர்சன்.ஐ
தொடர்பு: [மின்னஞ்சல் பாதுகாக்கப்பட்டது]
Twitter: @manders_ai

Unite.AI

கூகிளின் LipSync3D மேம்படுத்தப்பட்ட 'டீப்ஃபேக்டு' வாய் இயக்கம் ஒத்திசைவை வழங்குகிறது

செயற்கை நுண்ணறிவு

கூகிளின் LipSync3D மேம்படுத்தப்பட்ட 'டீப்ஃபேக்டு' வாய் இயக்கம் ஒத்திசைவை வழங்குகிறது

பொருளடக்கம்

உதடு இயக்கத்தின் மாறும் மறு ஒத்திசைவை நோக்கி

Unite.AI

கூகிளின் LipSync3D மேம்படுத்தப்பட்ட 'டீப்ஃபேக்டு' வாய் இயக்கம் ஒத்திசைவை வழங்குகிறது

பொருளடக்கம்

உதடு இயக்கத்தின் மாறும் மறு ஒத்திசைவை நோக்கி

நீங்கள் விரும்பலாம்