სტუბი ახალი კვლევის მცდელობები სიძულვილის ენის გამოვლენის ალგორითმების გასაუმჯობესებლად - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ახალი კვლევის მცდელობები სიძულვილის ენის გამოვლენის ალგორითმების გასაუმჯობესებლად

განახლებულია on

სოციალური მედიის კომპანიებს, განსაკუთრებით Twitter-ს, დიდი ხანია აკრიტიკებენ იმის გამო, თუ როგორ ასახელებენ სიტყვას და წყვეტენ რომელი ანგარიშების აკრძალვას. ძირითადი პრობლემა თითქმის ყოველთვის დაკავშირებულია ალგორითმებთან, რომლებსაც ისინი იყენებენ ონლაინ პოსტების მონიტორინგისთვის. ხელოვნური ინტელექტის სისტემები შორს არის სრულყოფილი, როდესაც საქმე ეხება ამ ამოცანას, მაგრამ მუდმივად მიმდინარეობს მუშაობა მათ გასაუმჯობესებლად. 

იმ ნაშრომში შედის ა ახალი სასწავლო გამოდის სამხრეთ კალიფორნიის უნივერსიტეტიდან, რომელიც ცდილობს შეამციროს გარკვეული შეცდომები, რამაც შეიძლება გამოიწვიოს რასობრივი მიკერძოება.

კონტექსტის ამოცნობა

ერთ-ერთი საკითხი, რომელსაც დიდი ყურადღება არ ექცევა, დაკავშირებულია ალგორითმებთან, რომლებიც მიზნად ისახავს შეაჩეროს სიძულვილის ენის გავრცელება, მაგრამ რეალურად გააძლიეროს რასობრივი მიკერძოება. ეს ხდება მაშინ, როდესაც ალგორითმები ვერ ცნობენ კონტექსტს და საბოლოოდ აფიქსირებენ ან ბლოკავენ ტვიტერებს უმცირესობის ჯგუფებისგან.

ალგორითმების ყველაზე დიდი პრობლემა კონტექსტთან დაკავშირებით არის ის, რომ ისინი ზედმეტად მგრძნობიარენი არიან გარკვეული ჯგუფის იდენტიფიკაციის ტერმინების მიმართ, როგორიცაა „შავკანიანი“, „გეი“ და „ტრანსგენდერი“. ალგორითმები ითვალისწინებენ სიძულვილის ენის ამ კლასიფიკატორებს, მაგრამ მათ ხშირად იყენებენ ამ ჯგუფების წევრები და პარამეტრი მნიშვნელოვანია.

კონტექსტური სიბრმავის ამ საკითხის გადაჭრის მცდელობისას მკვლევარებმა შექმნეს უფრო კონტექსტზე მგრძნობიარე სიძულვილის ენის კლასიფიკატორი. ახალი ალგორითმი ნაკლებად სავარაუდოა, რომ შეცდომით მიიჩნიოს პოსტი, როგორც სიძულვილის ენა.

ალგორითმი

მკვლევარებმა შეიმუშავეს ახალი ალგორითმები ორი ახალი ფაქტორის გათვალისწინებით: კონტექსტი ჯგუფის იდენტიფიკატორებთან დაკავშირებით და არის თუ არა პოსტში სიძულვილის ენის სხვა მახასიათებლები, როგორიცაა ენის დეჰუმანიზაცია.

ბრენდან კენედი არის კომპიუტერული მეცნიერების დოქტორი. სტუდენტი და კვლევის თანაწამყვანი ავტორი, რომელიც გამოქვეყნდა 6 ​​ივლისს ACL 2020-ზე.

„ჩვენ გვინდა, რომ სიძულვილის ენის გამოვლენა უფრო ახლოს მივიტანოთ რეალურ სამყაროში გამოყენებისთვის მზადყოფნასთან“, - თქვა კენედიმ.

„სიძულვილის ენის გამოვლენის მოდელები ხშირად „არღვევენ“ ან წარმოქმნიან ცუდ პროგნოზებს, როდესაც ეცნობიან რეალურ სამყაროში არსებულ მონაცემებს, როგორიცაა სოციალური მედია ან სხვა ონლაინ ტექსტური მონაცემები, რადგან ისინი მიკერძოებულნი არიან იმ მონაცემებით, რომლებზეც ისინი გაწვრთნილი არიან დაკავშირებულნი სოციალური იდენტიფიკაციის ტერმინები სიძულვილის ენასთან“.

მიზეზი, რის გამოც ალგორითმები ხშირად არაზუსტია, არის ის, რომ ისინი ივარჯიშებენ მონაცემთა გაუწონასწორებელ კომპონენტებზე სიძულვილის ენის უკიდურესად მაღალი მაჩვენებლით. ამის გამო, ალგორითმები ვერ სწავლობენ, როგორ გაუმკლავდნენ რეალურ სამყაროში სოციალური მედიის სახეს. 

პროფესორი Xiang არის ექსპერტი ბუნებრივი ენის დამუშავებაში.

”მოდელებისთვის მნიშვნელოვანია, რომ არ იგნორირება გაუკეთონ იდენტიფიკატორებს, არამედ შეესაბამებოდეს მათ სწორ კონტექსტს,” - თქვა რენმა.

„თუ მოდელს ასწავლით გაუწონასწორებელი მონაცემთა ბაზიდან, მოდელი იწყებს უცნაურ შაბლონებს და მომხმარებლების არასათანადოდ დაბლოკვას“.

ალგორითმის შესამოწმებლად მკვლევარებმა გამოიყენეს ტექსტის შემთხვევითი ნიმუში ორი სოციალური მედიის საიტიდან, რომლებსაც აქვთ სიძულვილის ენის მაღალი მაჩვენებელი. ტექსტი პირველად ადამიანებმა დაასახელეს, როგორც ცრურწმენა ან დეჰუმანური. ამის შემდეგ უახლესი მოდელი შეფასდა მკვლევარების საკუთარ მოდელთან მიმართებაში არასათანადოდ მონიშნული სიძულვილის ენის შესახებ, New York Times-ის 12,500 სტატიის გამოყენებით სიძულვილის ენის გარეშე. მიუხედავად იმისა, რომ თანამედროვე მოდელებმა შეძლეს მიაღწიონ 77% სიზუსტეს სიძულვილისა და არასიძულვილის იდენტიფიცირებისას, მკვლევარის მოდელი უფრო მაღალი იყო და 90%. 

”ეს სამუშაო თავისთავად არ ხდის სიძულვილის ენის გამოვლენას სრულყოფილს, ეს არის უზარმაზარი პროექტი, რომელზედაც ბევრი მუშაობს, მაგრამ ის თანდათან პროგრესირებს”, - თქვა კენედიმ.

„გარდა იმისა, რომ დაცული ჯგუფების წევრების მიერ სოციალური მედიის პოსტების არასათანადო ცენზურის თავიდან ასაცილებლად, ჩვენ ვიმედოვნებთ, რომ ჩვენი მუშაობა დაგვეხმარება იმის უზრუნველსაყოფად, რომ სიძულვილის ენის გამოვლენამ ზედმეტი ზიანი არ მოახდინოს სოციალურ ჯგუფებთან ცრურწმენისა და დეჰუმანიზაციის ცრუ ასოციაციების გაძლიერებით.

 

ალექს მაკფარლანდი არის ხელოვნური ინტელექტის ჟურნალისტი და მწერალი, რომელიც იკვლევს ხელოვნურ ინტელექტის უახლეს მოვლენებს. ის თანამშრომლობდა მრავალრიცხოვან AI სტარტაპთან და პუბლიკაციებთან მთელ მსოფლიოში.