인곡지λŠ₯

μƒˆλ‘œμš΄ AI λͺ¨λΈ, 더 λ‹€μ–‘ν•œ 인간 언어와 ν˜‘λ ₯

mm

워터루 대학교의 연구자들은 컴퓨터가 더 다양한 인간 언어를 처리할 수 있는 AI 모델을 개발했습니다. 이는 많은 언어가 프로그래밍 과정에서 뒤처지는 현실을 고려할 때 중요한 발전입니다. 아프리카 언어는 종종 컴퓨터 과학자들의 주목을 받지 못하여 자연어 처리(NLP) 기능이 대륙에서 제한적입니다.

新的 언어 모델은 워터루 대학교의 David R. Cheriton School of Computer Science의 연구팀에 의해 개발되었습니다.

연구는 2021년 Empirical Methods in Natural Language Processing 컨퍼런스의 Multilingual Representation Learning Workshop에서 발표되었습니다.

이 모델은 컴퓨터가 아프리카 언어의 텍스트를 분석하여 여러 유용한 작업을 수행하는 데 중요한 역할을 하고 있으며, AfriBERTa라고 불립니다. 깊은 학습 기법을 사용하여 저자원 언어에 대한 인상적인 결과를 달성합니다.

11개의 아프리카 언어로 작업

AfriBERTa는 현재 아마라어, 하우사어, 스와힐리어 등 11개의 아프리카 언어를 지원하며, 이는 4억 명 이상의 사람들이 사용하는 언어입니다. 이 모델은 기존의 최고 모델과 비교할 수 있는 출력 품질을 보여주었으며, 1GB의 텍스트만으로 학습했습니다. 다른 유사한 모델은 일반적으로 훨씬 더 많은 데이터가 필요합니다.

Kelechi Ogueji는 워터루 대학교의 컴퓨터 과학 석사 과정 학생입니다.

“사전 학습 언어 모델은 기계 번역부터 질문 답변까지 다양한 작업을 위해 컴퓨터가 텍스트 데이터를 처리하고 분석하는 방식을変革했습니다.”라고 Ogueji는 말했습니다. “아프리카 언어는 연구 커뮤니티의 주목을 거의 받지 못했습니다.”

“한 가지 도전은 신경망이 텍스트와 컴퓨터를 많이 사용하여 구축해야 한다는 것입니다. 그리고 영어와는 달리, 전 세계에서 사용되는 7,000개 이상의 언어 대부분은 저자원 언어로 분류되며, 이는 신경망에 데이터를 공급하기 위한 충분한 데이터가 없다는 것을 의미합니다.”

사전 학습 기법

이러한 모델 대부분은 사전 학습 기법을 사용합니다. 이는 연구자가 모델에 일부 단어가 숨겨진 또는 마스킹된 텍스트를 제공하는 것을 포함합니다. 모델은 숨겨진 단어를 추측해야 하며, 이 과정을 수십억 번 반복합니다. 결국 모델은 단어 사이의 통계적 연관성을 학습하며, 이는 인간의 언어 지식과 유사합니다.

Jimmy Lin은 Cheriton Chair in Computer Science이며 Ogueji의 지도교수입니다.

“일부 하위 작업에 대해 거의 동일한 정확도를 갖는 모델을 사전 학습할 수 있지만, 훨씬 더 적은 양의 데이터를 사용하는 것은 많은 이점이 있습니다.”라고 Lin은 말했습니다. “언어 모델을 학습하는 데 필요한 데이터가 적다는 것은 컴퓨팅이 줄어들고, 따라서 대규모 데이터 센터를 운영할 때 발생하는 탄소 배출량이 줄어든다는 것을 의미합니다. 더 작은 데이터 세트는 또한 데이터 큐레이션이 더 실용적이게 되며, 이는 모델에 존재하는 편향을 줄이는 한 가지 접근 방식입니다.”

“이 연구는 1.3억 명 이상의 아프리카 대륙 사람들에게 자연어 처리 기능을 제공하는 데 작은 nhưng 중요한 발걸음을 내디딜 수 있습니다.”

이 연구에는 최근 워터루 대학교에서 컴퓨터 과학 학위를 취득한 Yuxin Zhu도 참여했습니다.

Alex McFarland은 인곡 μ§€λŠ₯의 μ΅œμ‹  κ°œλ°œμ„ νƒκ΅¬ν•˜λŠ” AI μ €λ„λ¦¬μŠ€νŠΈμ΄μž μž‘κ°€μž…λ‹ˆλ‹€. κ·ΈλŠ” μ „ μ„Έκ³„μ˜ μˆ˜λ§Žμ€ AI μŠ€νƒ€νŠΈμ—…κ³Ό μΆœνŒλ¬Όλ“€κ³Ό ν˜‘λ ₯ν–ˆμŠ΅λ‹ˆλ‹€.