stub Цөөнхийн дуу хоолойг Google-ийн байгалийн хэлээр боловсруулах загвараас "шүүсэн" - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Цөөнхийн дуу хоолойг Google-ийн байгалийн хэлээр боловсруулах загвараас "шүүсэн"

mm
шинэчлэгдсэн on

Шинэ судалгаагаар байгалийн хэлний боловсруулалтын (NLP) хамгийн том мэдээллийн багцын нэг нь хар арьст, испани зохиолчид, мөн гей, лесбиянтай холбоотой материал, хэд хэдэн асуудалтай холбоотой эх сурвалж мэдээллийг устгах зорилгоор өргөн "шүүгдсэн" байна. бусад ахиу эсвэл цөөнхийн өвөрмөц байдал.

Датасетийг Google-ийг сургахад ашигласан Шилжүүлэгч трансформатор болон T5 загвар, мөн Google AI өөрөө боловсруулсан.

Уг тайланд дурдсан байна Асар их цэвэрхэн мөлхөгч корпус ('C4') өгөгдлийн багц нь 156 сая гаруй интернет домайнаас хасагдсан 365 тэрбум жетон агуулсан бөгөөд Common Crawl хуссан асар том мэдээллийн сангийн дэд хэсэг бөгөөд "доромжилсон" болон "хортой" агуулгыг оруулахгүйн тулд өргөн хүрээнд (алгоритмын хувьд) шүүсэн байна. , мөн C4-ийг нэрэхэд ашигласан шүүлтүүрүүд нь цөөнхийн бүлгүүдийн агуулга, хэлэлцүүлгийг үр дүнтэй чиглүүлдэг.

Тайланд дурдсан байдаг.

"Бид хассан өгөгдлийг судалж үзэхэд хар арьст, испани гаралтай зохиолчидтой холбоотой бичиг баримтууд болон бэлгийн чиг баримжаатай холбоотой баримт бичгүүд C4.EN-ийн хориглосон жагсаалтын шүүлтүүрээр хасагдах магадлал илүү өндөр, мөн хасагдсан олон баримт бичиг нь доромжилсон эсвэл бэлгийн бус агуулгатай байгааг харуулж байна ( Жишээ нь, ижил хүйстнүүдийн гэрлэлтийн тухай хууль тогтоомжийн хэлэлцүүлэг, шинжлэх ухаан, эмнэлгийн агуулга).'

Судалгааны үр дүн нь NLP-ийн салбарт байгаа хэл дээр суурилсан арьс өнгөөр ​​​​ялгаварлан гадуурхах тэгш бус байдлыг улам хурцатгаж, мөн LGBTQ+-ийн баримжааг гутаан доромжилж байгааг уг бүтээлд тэмдэглэжээ. Энэ нь үргэлжлүүлэн:

Нэмж дурдахад хэлний загваруудыг сургахад ашигладаг өгөгдлийн багцаас ийм текстийг хассаны шууд үр дагавар нь цөөнхийн онцлогтой хүмүүсийн болон тэдний тухай бичвэрт хэрэглэх үед загварууд муу ажиллаж, тэднийг машин орчуулга, хайлт зэрэг технологийн давуу талуудаас үр дүнтэйгээр хасдаг. .'

Нийтлэг мөлхөгчийг эмчлэх

The тайлан, нэртэй Том хэмжээний Вэбтекст Корпораг баримтжуулах: Асар том цэвэр мөлхөгч корпусын тухай жишээ судалгаа, Аллены нэрэмжит хиймэл оюун ухааны хүрээлэнгийн судлаачид, Вашингтоны их сургуулийн Паул Ж.Алленийн компьютерийн шинжлэх ухаан, инженерийн сургуулийн судлаачдын хамтын ажиллагаа юм. AI дахь хачирхалтай.

Тайлангаас C4-ийг илүү том Common Crawl мэдээллийн сангаас ялгаж салгах блок жагсаалтаар шүүгдэж байгаа хэн болохыг дурьдсан болон баримт бичгүүдийн магадлалын индекс. График нь ижил хүйстэн, лесбиян хүмүүсийг шүүх магадлал хамгийн өндөр байгаа нь ижил хүйстэнтэй холбоотой мэдээллийн (PMI) индексийг харуулж байна. Эх сурвалж: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Тайлангаас C4-г илүү том Common Crawl мэдээллийн сангаас ялгах блок жагсаалтаар шүүж байгаа хэн болохыг дурьдсан болон баримт бичгүүдийн магадлалын индекс. График нь ижил хүйстэн болон лесбиян хүмүүсийн хэн болохыг тодорхойлох хамгийн өндөр магадлалтай байдаг Pointwise Mutual Information (PMI) индексийг харуулж байна. Эх сурвалж: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

C4 загвар нь сонгомол, багасгасан хувилбар юм Нийтлэг мөлхөгч вэб корпус нь NLP судлаачдын үндсэн эх сурвалж болгон интернетээс текст мэдээллийг илүү дур зоргоороо хусдаг. Common Crawl нь C4-тэй ижил төрлийн хориглох жагсаалтуудыг ашигладаггүй, учир нь энэ нь үзэн ядалтын ярианы талаарх NLP судалгаа болон бусад социологи/сэтгэл зүйн судалгаанд саармаг мэдээллийн сан болгон ашигладаг тул түүхий эдэд цензур тавих нь сөрөг үр дагавартай байдаг.

Дутуу баримтжуулсан шүүлтүүр

C4-ийн "хортой" агуулгыг устгахаар шийдсэн нь порнографын агуулгыг агуулж байгаа тул "лесбиян" гэдэг нь боловсронгуй өгөгдлийн багцад хамгийн их хасагдсан нь гайхах зүйл биш юм (дээрх зургийг харна уу).

Уг нийтлэлийн зохиогчид C4-д бичиг баримт, мета өгөгдөл дутмаг байгааг шүүмжилж, шүүлтүүрүүд нь устгасан өгөгдлийн талаар илүү өргөн хүрээтэй бүртгэл, суурь мэдээлэл, сэдлийг үлдээх ёстой гэж зөвлөж байна, C4-ийн хувьд (мөн үүнээс боловсруулсан хэлний загвар) нэгдсэн эрдэм шинжилгээний судалгаанаас бусад тохиолдолд мөрдөх боломжгүй.

Тэд ажиглаж байна:

'Зарим шүүлтүүрийг арилгах гэх мэт харьцангуй хялбар байдаг Lorem ipsum орлуулагч текст. Гэсэн хэдий ч хориглогдсон үгсийн жагсаалтаас тэмдэг агуулсан баримт бичгүүдийг устгадаг өөр шүүлтүүр нь цөөнхийн онцлогтой холбоотой англи хэлний аялгуун дахь баримт бичгүүдийг (жишээ нь, Африк гаралтай Америк англи хэл дээрх текст, LGBTQ+ хүмүүсийн хувийн шинж чанарыг хэлэлцсэн текст) пропорциональ бус байдлаар устгадаг болохыг бид олж мэдсэн.'

Судлаачид C4-ийн шүүлтүүрийн цар хүрээг илүү ойлгомжтой болгохын тулд өгөгдлийн гурван хувилбарыг байршуулах өөр өөр түвшний шүүлтүүрийг ашигласан, хамт хайх боломжтой хувилбар (31 оны 2021-р сарын XNUMX хүртэл боломжтой).

Энэ нь зайлшгүй шаардлагатай, учир нь C4 үүссэн хувилбарыг дахин бүтээх нь тийм ч хялбар биш юм: цаасан дээр дурдсанчлан C4-ийн анхны зохиогчид Common Crawl-аас мэдээллийн санг дахин үүсгэх хэрэглэгчийн скриптийг өгсөн байдаг. маш их машин шаарддаг Энэ нь олон мянган долларын өртөгтэй байх болно. Нэмж дурдахад нийтлэлийн зохиогчид зохион түүхий C4 өгөгдөл.

Машинаар үүсгэгдсэн рекурсив текст

Шинэ судалгаагаар шүүгдсэн C4 өгөгдлийн багц нь өгөгдлийн багцаас машинаар үүсгэсэн текстийг багтаасан бөгөөд тэдгээр нь тэдгээрийг хасах зорилготой шүүлтүүрээр дамжсан (шүүлтүүрийн мета өгөгдөл дутагдалтай байгаа нь хэлэхэд хэцүү болгодог) эсвэл C4-д идэвхтэй хүлээн зөвшөөрөгддөг болохыг олж мэдсэн.

Хүмүүсийн харилцах арга барилыг судалж, хуулбарлахыг эрэлхийлдэг NLP мэдээллийн сангийн хүрээний хувьд энэ нь нэлээд цус ойртолт юм. Үр дүнтэйгээр, C4 нь машинаар үүсгэсэн текстийг (шошгогүй) машинаар үүсгэсэн текстийг үүсгэдэг системд өгч байна.

Ийм бичвэрийн эх сурвалжид автоматаар орчуулагдсан патентын мэдүүлэг болон патентын мэдүүлгийг автоматаар англи хэл рүү хөрвүүлдэг patent.google.com сайтаас оруулсан болно. Мэдээллийн санд багтсан патентын материалын 10 орчим хувь нь англи бус патентын газруудаас бүрддэг гэж тайланд тооцоолсон бөгөөд энэ нь бэлтгэгдсэн хэлний загварт шинж чанаруудыг бий болгоход хангалттай хувь юм.

Зохиогчид мөн олон патентын текстийг эхэндээ Оптик тэмдэгт таних (OCR)-ийн төгс бус жишээнүүдээс олж авсан бөгөөд англи хэл дээрх алдаанууд нь C4 өгөгдөлд үүнийг хүлээн зөвшөөрөгдөхүйц англи хэлнээс ялгаж салгах тэмдэглэгээ багатай эсвэл огт байхгүй байж магадгүй юм.

Бусдыг тодорхойлох

Судлаачид C4 хэл дээрх гажуудлын цар хүрээг тодорхойлохын тулд 294,000 өөр үндэстнийг хамарсан 15 асуулт үүсгэсэн бөгөөд асуулт бүр нь хоёр үндэстний тухай, тухайлбал “Араб эмэгтэй еврей эмэгтэйтэй хичээллэж байсан. Муу жолооч хэн байсан бэ?', сөрөг сэтгэл хөдлөлийн жишээ. С4-г сөрөг хариулт болгон "өгөөш" эсвэл өдөөн хатгасан гэж буруутгахаас зайлсхийхийн тулд асуулт бүрийг ижил хоёр үндэстний талаар эерэг хариу өгөх зорилготой хувилбартай хослуулсан.

Уг цаасан дээр дурдсан байдаг:

"Еврей" болон "араб" нь "еврей" гэсэн эерэг хандлагатай, "араб" гэсэн сөрөг хандлагатай хамгийн туйлширсан үндэстний нэг гэдгийг бид олж мэдсэн.'

Үндэс угсаа бүрийг C4-д төлөөлүүлсэн байдлаар нэгдсэн QA эерэг сэтгэгдэлтэй холбоотой байсан тохиолдлын эзлэх хувь.

С4-д үзүүлсэн үндэс угсаа бүр эерэг сэтгэл хөдлөлтэй холбоотой байсан тохиолдлын эзлэх хувь Нэгдсэн QA.

Оруулсан баримт бичгийн шалгуур

Судлаачид C4-ийн шүүлтүүрийн бүдүүвчийн түрэмгий байдлыг ойлгохын тулд C100,000-ийн блоклогчид хориглосон Common Crawl-д санамсаргүй байдлаар түүвэрлэсэн 4 баримт бичгийг шинжлэхийн тулд K-Means кластерийг ашигласан. Тэд хассан баримт бичгийн зөвхөн 16 кластер нь "ихэвчлэн бэлгийн шинж чанартай" болохыг олж тогтоосон нь C31-д хориглогдсон нийт өгөгдлийн 4 орчим хувийг эзэлж байна. Хасагдсан өгөгдлүүдийн үлдэгдэлээс судлаачид олжээ "Шинжлэх ухаан, анагаах ухаан, эрүүл мэндтэй холбоотой баримт бичгийн кластерууд, түүнчлэн хууль эрх зүй, улс төрийн баримт бичигтэй холбоотой кластерууд".

Тодорхой болгох үүднээс 5,000 үр дүнг харуулсан бол энэ нь судлагдсан 100,000 хасагдсан баримт бичгийн К-ийн ерөнхий кластер юм. Зураг дээр шалгасан шилдэг таван түлхүүр үгсийг харуулав.

Тодорхой болгох үүднээс 5,000 үр дүнг харуулсан бол энэ нь судлагдсан 100,000 хасагдсан баримт бичгийн К-ийн ерөнхий кластер юм. Зураг дээр шалгасан шилдэг таван түлхүүр үгсийг харуулав.

Гей болон лесбиянтай холбоотой мэдээллийг хаах тухайд зохиогчид бэлгийн баримжаа (лесбиян, гей, гомосексуал, бисексуал гэх мэт) дурдвал C4-д шүүгдэх магадлал хамгийн өндөр, мөн доромжлолгүй гэдгийг олж тогтоосон. болон бэлгийн бус баримт бичиг нь C22-ээс хасагдсан энэ ангилалд хамаарах мэдээллийн 36% ба 4% -ийг бүрдүүлдэг.

Диалект хасалт ба хуучин өгөгдөл

Цаашид судлаачид a аялгууг мэддэг сэдвийн загвар ярианы, ёс суртахууны онцлогтой хэл С4-ээс хэр зэрэг хасагдсаныг тооцоолохын тулд "Африк гаралтай америк англи хэл болон испани хэлтэй англи хэл нь блоклох жагсаалтын шүүлтүүрт харьцангуй их өртөж байна".

Нэмж дурдахад, C4-ийн үүсмэл корпусын нэлээд хувийг арав гаруй жилийн настай материалаас, заримыг нь хэдэн арван жилийн настай материалаас, ихэнхийг нь мэдээ, патент, Википедиа вэб сайтаас авсан болохыг тус баримт бичигт тэмдэглэжээ. Интернэт дэх хамгийн анхны хадгалалтыг тодорхойлох замаар яг насыг нь тооцдог гэдгийг судлаачид хүлээн зөвшөөрдөг Архив Энэ нь яг тодорхой арга биш (URL-уудыг архивлахад хэдэн сар зарцуулагдаж магадгүй), гэхдээ боломжийн хувилбар байхгүй тохиолдолд энэ аргыг ашигласан.

Дүгнэлт

Энэхүү баримт бичиг нь NLP судалгаанд хувь нэмрээ оруулах зорилготой интернетээс гаралтай мэдээллийн багцад зориулсан илүү хатуу баримтжуулалтын системийг дэмжинэ. 'Вэбээс өгөгдлийн багц үүсгэх үед текстийг хуссан домэйнүүдийг тайлагнах нь өгөгдлийн багцыг ойлгоход зайлшгүй шаардлагатай; мэдээлэл цуглуулах үйл явц нь төсөөлж байснаас хамаагүй өөр интернет домэйн тархалтад хүргэж болно.'

Мөн хүний ​​​​өгөгдөлд машины өгөгдөл орсон жишиг бохирдол (дээрхийг харна уу) нь GPT-3-ийг боловсруулахтай холбоотой асуудал болох нь аль хэдийн батлагдсан бөгөөд энэ нь өргөн цар хүрээтэй, маш өндөр өртөгтэй сургалтын явцад ийм өгөгдлийг санамсаргүйгээр оруулсан (эцсийн эцэст энэ нь) GPT-3-ийг дахин сургахаас илүү жишиг өгөгдлийн нөлөөллийг тооцох, хасах нь илүү хямд болсон. эх цаас "Гүйцэтгэлд өчүүхэн нөлөө үзүүлэхийг" нотолж байна).

Тайлангийн төгсгөлд *:

Баримт бичигт хортой эсвэл садар самуун агуулгатай эсэхийг тодорхойлох нь “муу” үгсийг илрүүлэхээс илүү нарийн төвөгтэй ажил гэдгийг манай дүн шинжилгээ баталж байна; үзэн ядсан, садар самуун контентыг сөрөг түлхүүр үггүйгээр илэрхийлж болно (жишээ нь, микроагресс, шинж чанарууд).

Хамгийн чухал нь "муу" мэт санагдах үгсийн утга нь нийгмийн нөхцөл байдлаас ихээхэн хамаардаг (жишээлбэл, эелдэг бус байдал нь нийгмийн үйл ажиллагаа, мөн хэн тодорхой үг хэлж байгаа нь түүний доромжлолд нөлөөлдөг (жишээ нь, "n*gga" гэж дахин сэргээсэн доромжлолыг хэн нэгний хэлснээр доромжилсон шинжгүй гэж үздэг. Хар чанга яригч илүү цагаан чанга яригчаар.

'Бид вэбээр мөлхсөн өгөгдлөөс өгөгдлийн багц үүсгэхдээ [блоклох жагсаалт] шүүлтүүрийг ашиглахгүй байхыг зөвлөж байна.'

 

* Миний мөр доторх ишлэлүүдийг гипер холбоос болгон хөрвүүлсэн