sơ khai NLP (Xử lý ngôn ngữ tự nhiên) là gì? - Đoàn kết.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

NLP (Xử lý ngôn ngữ tự nhiên) là gì?

mm
cập nhật on

Xử lý ngôn ngữ tự nhiên (NLP) là nghiên cứu và ứng dụng các kỹ thuật và công cụ cho phép máy tính xử lý, phân tích, giải thích và suy luận về ngôn ngữ của con người. NLP là một lĩnh vực liên ngành và nó kết hợp các kỹ thuật được thiết lập trong các lĩnh vực như ngôn ngữ học và khoa học máy tính. Những kỹ thuật này được sử dụng cùng với AI để tạo chatbot và trợ lý kỹ thuật số như Trợ lý Google và Alexa của Amazon.

Chúng ta hãy dành chút thời gian để khám phá cơ sở lý luận đằng sau Xử lý ngôn ngữ tự nhiên, một số kỹ thuật được sử dụng trong NLP và một số trường hợp sử dụng phổ biến cho NLP.

Tại sao xử lý ngôn ngữ tự nhiên (NLP) lại quan trọng

Để máy tính có thể giải thích ngôn ngữ của con người, chúng phải được chuyển đổi thành dạng mà máy tính có thể thao tác. Tuy nhiên, điều này không đơn giản như chuyển đổi dữ liệu văn bản thành số. Để rút ra ý nghĩa từ ngôn ngữ của con người, các mẫu phải được trích xuất từ ​​​​hàng trăm hoặc hàng nghìn từ tạo nên một tài liệu văn bản. Đây là nhiệm vụ không dễ dàng. Có rất ít quy tắc khó và nhanh có thể được áp dụng để giải thích ngôn ngữ của con người. Chẳng hạn, cùng một nhóm từ có thể có nghĩa khác nhau tùy thuộc vào ngữ cảnh. Ngôn ngữ của con người là một thứ phức tạp và thường mơ hồ, và một câu nói có thể được thốt ra với sự chân thành hoặc mỉa mai.

Mặc dù vậy, có một số nguyên tắc chung có thể được sử dụng khi diễn giải các từ và ký tự, chẳng hạn như ký tự “s” được sử dụng để biểu thị rằng một mục là số nhiều. Những nguyên tắc chung này phải được sử dụng phối hợp với nhau để rút ra ý nghĩa từ văn bản, nhằm tạo ra các tính năng mà thuật toán học máy có thể diễn giải.

Xử lý ngôn ngữ tự nhiên liên quan đến việc áp dụng các thuật toán khác nhau có khả năng lấy dữ liệu phi cấu trúc và chuyển đổi nó thành dữ liệu có cấu trúc. Nếu các thuật toán này được áp dụng sai cách, máy tính thường sẽ không thể hiểu được ý nghĩa chính xác của văn bản. Điều này thường có thể được thấy trong việc dịch văn bản giữa các ngôn ngữ, nơi mà ý nghĩa chính xác của câu thường bị mất. Mặc dù dịch máy đã được cải thiện đáng kể trong vài năm qua nhưng lỗi dịch máy vẫn thường xuyên xảy ra.

Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP)

Ảnh: Tamur qua WikiMedia Commons, Miền công cộng (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Nhiều cái của kỹ thuật được sử dụng trong xử lý ngôn ngữ tự nhiên có thể được xếp vào một trong hai loại: cú pháp hoặc ngữ nghĩa. Các kỹ thuật cú pháp là những kỹ thuật liên quan đến thứ tự của các từ, trong khi các kỹ thuật ngữ nghĩa là các kỹ thuật liên quan đến ý nghĩa của các từ.

Cú pháp kỹ thuật NLP

Ví dụ về cú pháp bao gồm:

  • Bổ sung
  • Phân đoạn hình thái
  • Gắn thẻ một phần của bài phát biểu
  • Phân tích cú pháp
  • Phá vỡ câu
  • Xuất phát
  • Phân đoạn từ

Lemmatization đề cập đến việc chắt lọc các biến tố khác nhau của một từ thành một dạng duy nhất. Lemmatization lấy những thứ như thì và số nhiều và đơn giản hóa chúng, ví dụ: “feet” có thể trở thành “foot” và “stripes” có thể trở thành “stripe”. Dạng từ được đơn giản hóa này giúp thuật toán diễn giải các từ trong tài liệu dễ dàng hơn.

Phân đoạn hình thái là quá trình phân chia các từ thành các hình vị hoặc các đơn vị cơ sở của một từ. Các đơn vị này là những thứ như miễn phí hình thái (có thể đứng một mình như từ) và tiền tố hoặc hậu tố.

Gắn thẻ một phần của bài phát biểu chỉ đơn giản là quá trình xác định từng từ trong tài liệu đầu vào thuộc phần nào của bài phát biểu.

Phân tích cú pháp đề cập đến việc phân tích tất cả các từ trong một câu và liên hệ chúng với các nhãn ngữ pháp chính thức của chúng hoặc thực hiện phân tích ngữ pháp cho tất cả các từ.

Phá vỡ câu, hoặc phân đoạn ranh giới câu, đề cập đến việc quyết định nơi một câu bắt đầu và kết thúc.

Xuất phát là quá trình giảm các từ xuống dạng gốc của từ. Chẳng hạn, đã kết nối, kết nối và kết nối đều sẽ bắt nguồn từ "kết nối".

Phân đoạn từ là quá trình phân chia các đoạn văn bản lớn thành các đơn vị nhỏ, có thể là các từ hoặc các đơn vị gốc/từ vựng.

Kỹ thuật NLP ngữ nghĩa

Các kỹ thuật NLP ngữ nghĩa bao gồm các kỹ thuật như:

  • Nhận dạng đối tượng được đặt tên
  • Tạo ngôn ngữ tự nhiên
  • Định hướng Word-Sense

Được công nhận thực thể liên quan đến việc gắn thẻ các phần văn bản nhất định có thể được đặt vào một trong số các nhóm đặt trước khác nhau. Các danh mục được xác định trước bao gồm những thứ như ngày tháng, thành phố, địa điểm, công ty và cá nhân.

Thế hệ ngôn ngữ tự nhiên là quá trình sử dụng cơ sở dữ liệu để chuyển dữ liệu có cấu trúc sang ngôn ngữ tự nhiên. Chẳng hạn, số liệu thống kê về thời tiết, như nhiệt độ và tốc độ gió có thể được tóm tắt bằng ngôn ngữ tự nhiên.

Định hướng nghĩa của từ là quá trình gán nghĩa cho các từ trong văn bản dựa trên ngữ cảnh mà các từ đó xuất hiện.

Mô hình học sâu cho NLP

Các tri giác đa lớp thông thường không thể xử lý việc giải thích dữ liệu tuần tự, trong đó thứ tự của thông tin là quan trọng. Để giải quyết tầm quan trọng của thứ tự trong dữ liệu tuần tự, một loại mạng thần kinh được sử dụng để lưu giữ thông tin từ các bước thời gian trước đó trong quá trình đào tạo.

Mạng thần kinh tái diễn là các loại mạng thần kinh lặp lại dữ liệu từ các dấu thời gian trước đó, tính đến chúng khi tính trọng số của dấu thời gian hiện tại. Về cơ bản, RNN có ba tham số được sử dụng trong quá trình huấn luyện chuyển tiếp: ma trận dựa trên Trạng thái ẩn trước đó, ma trận dựa trên Đầu vào hiện tại và ma trận nằm giữa trạng thái ẩn và đầu ra. Vì RNN có thể tính đến thông tin từ các dấu thời gian trước đó nên chúng có thể trích xuất các mẫu có liên quan từ dữ liệu văn bản bằng cách tính đến các từ trước đó trong câu khi diễn giải nghĩa của một từ.

Một loại kiến ​​trúc học sâu khác được sử dụng để xử lý dữ liệu văn bản là mạng Bộ nhớ ngắn hạn dài (LSTM). Các mạng LSTM tương tự như RNN về cấu trúc, nhưng do có một số khác biệt trong kiến ​​trúc nên chúng có xu hướng hoạt động tốt hơn RNN. Chúng tránh được một vấn đề cụ thể thường xảy ra khi sử dụng RNN được gọi là vấn đề độ dốc bùng nổ.

Các mạng lưới thần kinh sâu này có thể là một chiều hoặc hai chiều. Các mạng hai chiều có khả năng tính đến không chỉ các từ đứng trước từ hiện tại mà cả các từ xuất hiện sau nó. Mặc dù điều này dẫn đến độ chính xác cao hơn, nhưng nó đắt hơn về mặt tính toán.

Các trường hợp sử dụng để xử lý ngôn ngữ tự nhiên (NLP)

Ảnh: mohammed_hassan qua Pixabay, Giấy phép Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Bởi vì Xử lý ngôn ngữ tự nhiên liên quan đến việc phân tích và thao tác với ngôn ngữ của con người, nên nó có phạm vi ứng dụng vô cùng rộng lớn. Các ứng dụng có thể có của NLP bao gồm chatbot, trợ lý kỹ thuật số, phân tích tình cảm, sắp xếp tài liệu, tuyển dụng nhân tài và chăm sóc sức khỏe.

Chatbot và các trợ lý kỹ thuật số như Alexa của Amazon và Trợ lý Google là những ví dụ về nền tảng tổng hợp và nhận dạng giọng nói sử dụng NLP để diễn giải và phản hồi các lệnh bằng giọng nói. Những trợ lý kỹ thuật số này giúp mọi người thực hiện nhiều nhiệm vụ khác nhau, cho phép họ chuyển một số nhiệm vụ nhận thức của mình sang một thiết bị khác và giải phóng một số năng lực trí tuệ của họ cho những việc khác quan trọng hơn. Thay vì tìm kiếm con đường tốt nhất đến ngân hàng vào một buổi sáng bận rộn, chúng ta có thể nhờ trợ lý kỹ thuật số của mình làm việc đó.

Phân tích tình cảm là việc sử dụng các kỹ thuật NLP để nghiên cứu phản ứng và cảm xúc của mọi người đối với một hiện tượng, được truyền đạt bằng cách sử dụng ngôn ngữ của họ. Nắm bắt được cảm xúc của một tuyên bố, chẳng hạn như diễn giải đánh giá sản phẩm là tốt hay xấu, có thể cung cấp cho các công ty thông tin quan trọng về cách sản phẩm của họ được đón nhận.

Tự động tổ chức tài liệu văn bản là một ứng dụng khác của NLP. Các công ty như Google và Yahoo sử dụng thuật toán NLP để phân loại các tài liệu email, đặt chúng vào các thùng thích hợp, chẳng hạn như “xã hội” hoặc “quảng cáo”. Họ cũng sử dụng các kỹ thuật này để xác định thư rác và ngăn nó đến hộp thư đến của bạn.

Các nhóm cũng đã phát triển các kỹ thuật NLP đang được sử dụng để xác định những người thuê công việc tiềm năng, tìm kiếm họ dựa trên các kỹ năng liên quan. Người quản lý tuyển dụng cũng đang sử dụng các kỹ thuật NLP để giúp họ sắp xếp danh sách ứng viên.

Các kỹ thuật NLP cũng đang được sử dụng để tăng cường chăm sóc sức khỏe. NLP có thể được sử dụng để cải thiện việc phát hiện bệnh. Hồ sơ sức khỏe có thể được phân tích và trích xuất các triệu chứng bằng thuật toán NLP, sau đó có thể được sử dụng để đề xuất các chẩn đoán có thể xảy ra. Một ví dụ về điều này là nền tảng Comprehend Medical của Amazon, phân tích hồ sơ sức khỏe và trích xuất các bệnh và phương pháp điều trị. Các ứng dụng chăm sóc sức khỏe của NLP cũng mở rộng đến sức khỏe tâm thần. Có ứng dụng chẳng hạn như WoeBot, hướng dẫn người dùng thông qua nhiều kỹ thuật quản lý lo lắng dựa trên Liệu pháp Hành vi Nhận thức.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.

Tin Mới Nhất