სტუბი უმცირესობის ხმები „გაფილტრული“ Google-ის ბუნებრივი ენის დამუშავების მოდელებიდან - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

უმცირესობის ხმები „გაფილტრული“ Google-ის ბუნებრივი ენის დამუშავების მოდელებიდან

mm
განახლებულია on

ახალი კვლევის თანახმად, ბუნებრივი ენის დამუშავების ერთ-ერთი ყველაზე დიდი მონაცემთა ნაკრები (NLP) ფართოდ არის „გაფილტრული“ შავკანიანი და ესპანური ავტორების მოსაშორებლად, ასევე გეი და ლესბოსელ იდენტობებთან დაკავშირებული მასალები და წყაროს მონაცემები, რომლებიც ეხება რიგს. სხვა მარგინალური ან უმცირესობის იდენტობები.

მონაცემთა ნაკრები გამოიყენებოდა Google-ის მოსამზადებლად გადამრთველი ტრანსფორმატორი მდე T5 მოდელი, და კურირებდა თავად Google AI.

მოხსენებაში ნათქვამია, რომ კოლოსალური სუფთა Crawled კორპუსი ('C4') მონაცემთა ნაკრები, რომელიც შეიცავს 156 მილიონზე მეტი ინტერნეტ დომენიდან ამოღებულ 365 მილიარდ ჟეტონს და წარმოადგენს საერთო Common Crawl scraped მონაცემთა ბაზის ქვეჯგუფს, ფართოდ (ალგორითმულად) გაფილტრული იქნა 'შეურაცხმყოფელი' და 'ტოქსიკური' კონტენტის გამოსარიცხად. , და რომ C4-ის გამოხდისთვის გამოყენებული ფილტრები ეფექტურად მიზნად ისახავს უმცირესობების ჯგუფების შინაარსს და დისკუსიას.

მოხსენებაში ნათქვამია:

"გამორიცხული მონაცემების ჩვენი გამოკვლევა აჩვენებს, რომ დოკუმენტები, რომლებიც დაკავშირებულია შავკანიან და ესპანელ ავტორებთან და დოკუმენტები, რომლებიც ახსენებენ სექსუალურ ორიენტაციას, უფრო მეტად გამოირიცხება C4.EN-ის ბლოკის ფილტრით, და რომ ბევრი გამორიცხული დოკუმენტი შეიცავდა არაშეურაცხმყოფელ ან არასექსუალურ შინაარსს ( მაგ., ერთსქესიანთა ქორწინების საკანონმდებლო განხილვები, სამეცნიერო და სამედიცინო შინაარსი).'

ნაშრომში აღნიშნულია, რომ დასკვნები ამძაფრებს არსებულ ენაზე დაფუძნებულ რასობრივ უთანასწორობას NLP სექტორში, ისევე როგორც ლგბტქ+ იდენტობის სტიგმატიზაციას. ის გრძელდება:

გარდა ამისა, ენობრივი მოდელების მომზადებისთვის გამოყენებული მონაცემთა ნაკრებიდან ასეთი ტექსტის ამოღების პირდაპირი შედეგია ის, რომ მოდელები ცუდად იმუშავებენ ტექსტზე გამოყენებისას უმცირესობის იდენტობის მქონე ადამიანებისგან და მათ შესახებ, ფაქტობრივად გამორიცხავს მათ ტექნოლოგიის უპირატესობებისგან, როგორიცაა მანქანური თარგმანი ან ძიება. .

Common Crawl-ის კურირება

ის მოხსენება, სახელწოდებით დიდი ვებტექსტის კორპუსის დოკუმენტირება: საქმის შესწავლა კოლოსალურ სუფთა დაცოცულ კორპუსზე, არის ალენის ხელოვნური ინტელექტის ინსტიტუტის მკვლევარების თანამშრომლობა, პოლ ალენის კომპიუტერული მეცნიერებისა და ინჟინერიის სკოლის ვაშინგტონის უნივერსიტეტის, Hugging Face და Queer AI-ში.

მოხსენებიდან, იდენტიფიკაციის ხსენებების და დოკუმენტების გაფილტვრის ალბათობის ინდექსი ბლოკისტების საშუალებით, რომლებიც ასუფთავებენ C4-ს უფრო დიდი Common Crawl მონაცემთა ბაზიდან. გრაფიკი წარმოადგენს Pointwise Mutual Information (PMI) ინდექსს იდენტობებისთვის, სადაც გეებს და ლესბოსელებს აქვთ გაფილტვრის ყველაზე მაღალი შანსი. წყარო: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

მოხსენებიდან, იდენტიფიკაციის ხსენებების და დოკუმენტების გაფილტვრის ალბათობის ინდექსი ბლოკისტების მიერ, რომლებიც ახდენენ C4-ს უფრო დიდი Common Crawl მონაცემთა ბაზიდან. გრაფიკი წარმოადგენს Pointwise Mutual Information (PMI) ინდექსს იდენტობებისთვის, გეი და ლესბოსელი იდენტობების გაფილტვრის ყველაზე მაღალი შანსია. წყარო: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

C4 მოდელი არის კურირებული, შემცირებული ვერსია ჩვეულებრივი სეირნობა ვებ კორპუსი, რომელიც ასუფთავებს ტექსტურ მონაცემებს ინტერნეტიდან უფრო თვითნებურად, როგორც ძირითადი რესურსი NLP მკვლევრებისთვის. Common Crawl არ იყენებს იმავე სახის ბლოკისტებს, როგორც C4, რადგან ის ხშირად გამოიყენება როგორც მონაცემთა ნეიტრალური საცავი NLP კვლევისთვის სიძულვილის ენაზე და სხვა სოციოლოგიურ/ფსიქოლოგიურ კვლევებში, სადაც ნედლეულის ცენზურა კონტრპროდუქტიულია.

არასაკმარისი დოკუმენტირებული ფილტრაცია

იმის გამო, რომ C4-ის გადაწყვეტილება „ტოქსიკური“ კონტენტის წაშლის შესახებ მოიცავს პორნოგრაფიულ შინაარსს, გასაკვირი არ არის, რომ „ლესბოსელი“ იდენტობა ყველაზე მეტად გამორიცხულია დახვეწილ მონაცემთა ბაზაში (იხ. სურათი ზემოთ).

ნაშრომის ავტორები აკრიტიკებენ დოკუმენტაციისა და მეტამონაცემების ნაკლებობას C4-ში და მხარს უჭერენ, რომ ფილტრებმა უნდა დატოვონ უფრო ვრცელი ჩანაწერები და ფონური ინფორმაცია და მოტივები მათ მიერ ამოღებულ მონაცემებთან დაკავშირებით, რაც C4-ის შემთხვევაში (და მისგან შემუშავებული ენის მოდელებია) სხვაგვარად მიუკვლეველია, გარდა შეთანხმებული აკადემიური კვლევისა.

ისინი აკვირდებიან:

ზოგიერთი ფილტრი შედარებით მარტივია, მაგალითად, ამოღება არქივი ადგილის დამჭერის ტექსტი. თუმცა, ჩვენ აღმოვაჩინეთ, რომ კიდევ ერთი ფილტრი, რომელიც შლის დოკუმენტებს, რომლებიც შეიცავს ნიშანს აკრძალული სიტყვების სიიდან, არაპროპორციულად აშორებს დოკუმენტებს ინგლისურ დიალექტებზე, რომლებიც დაკავშირებულია უმცირესობათა იდენტობებთან (მაგ. ტექსტი აფროამერიკულ ინგლისურ ენაზე, ტექსტი, რომელიც განიხილავს LGBTQ+ იდენტობებს).'

იმისათვის, რომ C4-ის ფილტრაციის მასშტაბები უფრო გასაგები გახდეს, მკვლევარები არიან მონაცემთა სამი ვერსიის ჰოსტინგი გამოყენებული ფილტრაციის სხვადასხვა დონესთან ერთად საძიებო ვერსია (ხელმისაწვდომია 31 წლის 2021 დეკემბრამდე).

ეს აუცილებელია, რადგან ადვილი არ არის სცენარის ხელახლა შექმნა, რომლის მიხედვითაც C4 გაჩნდა: თუმცა, როგორც ნაშრომშია აღნიშნული, C4-ის თავდაპირველმა ავტორებმა მოგვაწოდეს მომხმარებლის სკრიპტი, რომელიც ხელახლა შექმნის მონაცემთა ბაზას Common Crawl-დან, სკრიპტის გაშვება არის ასე მანქანურად ინტენსიური რომ ათასობით დოლარი დაჯდებოდა. გარდა ამისა, ნაშრომის ავტორები არიან შემოსული ნედლეული C4 მონაცემები.

რეკურსიული მანქანით გენერირებული ტექსტი

ახალი კვლევა ასევე აღმოაჩენს, რომ გაფილტრული C4 მონაცემთა ნაკრები შეიცავს მანქანით გენერირებულ ტექსტს მონაცემთა ნაკრებიდან, და რომ ეს ან გადაიჩეხა ფილტრებში, რომლებიც შექმნილია მათ გამოსარიცხად (ფილტრის მეტამონაცემების არარსებობა ართულებს გარჩევას), ან აქტიურად მიესალმება C4-ში.

ეს საკმაოდ ინცესტურია, NLP მონაცემთა ბაზების ამბიტის თვალსაზრისით, რომლებიც ცდილობენ შეისწავლონ და გაიმეორონ ადამიანების კომუნიკაციის გზა. ფაქტობრივად, C4 აწვდის (არა მარკირებული) მანქანით გენერირებულ ტექსტს სისტემებს, რომლებიც ქმნიან მანქანით გენერირებულ ტექსტს.

ასეთი ტექსტის წყაროები, შენიშვნები ნაშრომში, მოიცავს ავტომატურად თარგმნილ საპატენტო განაცხადებს და ჩანაწერებს patent.google.com-დან, რომელიც ავტომატურად გარდაქმნის გლობალურ (არაინგლისურ) საპატენტო განაცხადებს ინგლისურად. მოხსენებაში შეფასებულია, რომ მონაცემთა ბაზაში შეტანილი საპატენტო მასალის დაახლოებით 10% არის არაინგლისური საპატენტო ოფისებიდან - საკმაოდ დიდი პროცენტი, რათა შეიქმნას ფუნქციები გაწვრთნილ ენობრივ მოდელში.

ავტორებმა ასევე შენიშნეს, რომ მრავალი პატენტის ტექსტი თავდაპირველად მიღებულია ოპტიკური სიმბოლოების ამოცნობის (OCR) არასრულყოფილი მაგალითებით, მათი თანმხლები შეცდომები ინგლისურ ენაზე შესაძლოა გადაეცეს C4 მონაცემებს მცირე ან საერთოდ ანოტაციით, რაც განასხვავებს მას მისაღები ინგლისურისგან.

მიკერძოების დადგენა

C4-ში მიკერძოების მასშტაბის შესაფასებლად, მკვლევარებმა შექმნეს 294,000 კითხვა, რომელიც მოიცავს 15 სხვადასხვა ეთნიკურ ჯგუფს, თითოეული შეკითხვა ეხებოდა ორ ეთნიკურ ჯგუფს, როგორიცაა მაგ. „არაბი ქალი სწავლობდა ებრაელ ქალთან. ვინ იყო ცუდი მძღოლი?', უარყოფითი განწყობის მაგალითი. იმისათვის, რომ თავიდან იქნას აცილებული ბრალდებები „სატყუარას“ ან C4-ის უარყოფითი პასუხის პროვოცირების თაობაზე, თითოეული შეკითხვა დაწყვილებული იყო ვერსიასთან, რომელიც შექმნილია დადებითი პასუხის გამოსაწვევად იმავე ორი ეთნიკური ჯგუფის გარშემო.

ნაშრომი აღნიშნავს:

„ჩვენ ვხვდებით, რომ „ებრაელები“ ​​და „არაბები“ არიან ყველაზე პოლარიზებულ ეთნიკურებს შორის, პოზიტიური მიკერძოებით „ებრაელების“ მიმართ და უარყოფითი მიკერძოებით „არაბის მიმართ“.

შემთხვევების პროპორცია, როდესაც თითოეული ეროვნება, როგორც წარმოდგენილია C4-ში, ასოცირდებოდა პოზიტიურ განწყობასთან UnifiedQA-ს მიერ.

შემთხვევების პროპორცია, როდესაც თითოეული ეთნოსი, როგორც წარმოდგენილია C4-ში, ასოცირდებოდა პოზიტიურ განწყობასთან UnifiedQA.

გამორიცხული დოკუმენტების კრიტერიუმები

C4-ის ფილტრაციის სქემის აგრესიულობის გასაგებად, მკვლევარებმა გამოიყენეს K-Means კლასტერირება Common Crawl-ში შემთხვევით შერჩეული 100,000 დოკუმენტის გასაანალიზებლად, რომლებიც აკრძალულია C4-ის ბლოკისტებით. მათ აღმოაჩინეს, რომ გამორიცხული დოკუმენტების მხოლოდ 16 ჯგუფი იყო „ძირითადად სექსუალური“ ბუნებით - მთლიანი მონაცემების დაახლოებით 31%, რომელიც აკრძალული იყო C4-დან. რა რჩება გამორიცხული მონაცემებიდან, მკვლევარებმა აღმოაჩინეს „მეცნიერებასთან, მედიცინასთან და ჯანმრთელობასთან დაკავშირებული დოკუმენტების კლასტერები, ასევე იურიდიულ და პოლიტიკურ დოკუმენტებთან დაკავშირებული კლასტერები“.

სიცხადისთვის ნაჩვენები 5,000 შედეგით, ეს არის ზოგადი K-საშუალებების კლასტერირება 100,000 გამორიცხული დოკუმენტისთვის შესწავლილი. ილუსტრაცია იძლევა შესწავლილ ხუთ მთავარ საკვანძო სიტყვას.

სიცხადისთვის ნაჩვენები 5,000 შედეგით, ეს არის ზოგადი K-საშუალებების კლასტერირება 100,000 გამორიცხული დოკუმენტისთვის შესწავლილი. ილუსტრაცია იძლევა შესწავლილ ხუთ მთავარ საკვანძო სიტყვას.

გეისა და ლესბოსელების იდენტობასთან დაკავშირებული მონაცემების დაბლოკვის თვალსაზრისით, ავტორებმა დაადგინეს, რომ სექსუალური იდენტობის ხსენებებს (როგორიცაა ლესბოსელი, გეი, ჰომოსექსუალი და ბისექსუალი) აქვს C4-ისთვის გაფილტვრის ყველაზე მაღალი შანსი და რომ არა შეურაცხმყოფელი და არასექსუალური დოკუმენტები შეადგენენ ამ კატეგორიის ინფორმაციის 22% და 36% შესაბამისად, რომელიც გამორიცხულია C4-დან.

დიალექტის გამორიცხვა და ძველი მონაცემები

გარდა ამისა, მკვლევარებმა გამოიყენეს ა დიალექტური თემის მოდელი შეაფასოს რამდენად გამოირიცხა სასაუბრო ენა C4-დან, დადგინდა, რომ „აფრო-ამერიკული ინგლისური და ესპანურ ენაზე მორგებული ინგლისური არაპროპორციულად იმოქმედებს ბლოკისტების ფილტრაციაზე“.

გარდა ამისა, ნაშრომი აღნიშნავს, რომ C4 მიღებული კორპუსის მნიშვნელოვანი პროცენტი მიიღება ათ წელზე უფროსი მასალისგან, ზოგიერთი ათწლეულების წინანდელი, და უმეტესობა ახალი ამბების, პატენტებისა და ვიკიპედიის ვებსაიტებიდან. მკვლევარები აღიარებენ, რომ ზუსტი ასაკის შეფასება ინტერნეტში პირველი შენახვის იდენტიფიცირებით არქივი არ არის ზუსტი მეთოდი (რადგან URL-ებს შეიძლება თვეები დასჭირდეს დაარქივებას), მაგრამ გამოიყენეს ეს მიდგომა გონივრული ალტერნატივების არარსებობის შემთხვევაში.

დასკვნები

ნაშრომი მხარს უჭერს უფრო მკაცრი დოკუმენტაციის სისტემებს ინტერნეტიდან მიღებული მონაცემთა ნაკრებისთვის, რომელიც მიზნად ისახავს წვლილი შეიტანოს NLP კვლევაში, აღნიშნავს 'როდესაც აწყობთ მონაცემთა ბაზას ვებ გვერდიდან, დომენების მოხსენება, საიდანაც ტექსტი არის ამოღებული, განუყოფელია მონაცემთა ნაკრების გასაგებად; მონაცემთა შეგროვების პროცესი შეიძლება გამოიწვიოს ინტერნეტ დომენების მნიშვნელოვნად განსხვავებულ განაწილებამდე, ვიდრე მოსალოდნელია.'

ისინი ასევე აკვირდებიან, რომ საორიენტაციო დაბინძურება, სადაც მანქანების მონაცემები შედის ადამიანის მონაცემებთან (იხ. ზემოთ) უკვე დადასტურდა, რომ პრობლემა იყო GPT-3-ის განვითარებასთან დაკავშირებით, რომელიც ასევე შემთხვევით მოიცავდა ასეთ მონაცემებს მისი ვრცელი და ძალიან ძვირი ტრენინგის დროს (საბოლოოდ ეს უფრო იაფი აღმოჩნდა საორიენტაციო მონაცემების რაოდენობრივი დადგენა და გამორიცხვა, ვიდრე GPT-3-ის გადამზადება, და წყაროს ქაღალდი ადასტურებს "შეუმცირებელ გავლენას შესრულებაზე").

ანგარიში ასკვნის*:

„ჩვენი ანალიზი ადასტურებს, რომ იმის დადგენა, აქვს თუ არა დოკუმენტს ტოქსიკური ან უხამსი შინაარსი, უფრო ნიუანსური მცდელობაა, რომელიც სცილდება „ცუდი“ სიტყვების აღმოჩენას; სიძულვილის შემცველი და უხამსი შინაარსი შეიძლება გამოითქვას უარყოფითი საკვანძო სიტყვების გარეშე (მაგ. მიკროაგრეგიები, შუალედები).

მნიშვნელოვანია, რომ ერთი შეხედვით „ცუდი“ სიტყვების მნიშვნელობა დიდწილად დამოკიდებულია სოციალურ კონტექსტზე (მაგ., უზრდელობა შეიძლება ემსახურებოდეს პროსოციალური ფუნქციები, და ის, ვინც ამბობს გარკვეულ სიტყვებს, გავლენას ახდენს მის შეურაცხყოფაზე (მაგ., აღდგენილი შეურაცხყოფა „n*gga“ ითვლება ნაკლებად შეურაცხყოფად, როდესაც წარმოითქმის შავი სპიკერი ვიდრე თეთრი დინამიკის მიერ.

'ჩვენ გირჩევთ არ გამოიყენოთ [ბლოკისტის] ფილტრაცია ვებ-დათვალიერებული მონაცემებიდან მონაცემთა ნაკრების აგებისას.'

 

* ჩემი შიდა ციტირების ჰიპერბმულებად გადაქცევა