Trí tuệ nhân tạo

NLP (Xử lý Ngôn ngữ Tự nhiên) là gì?

Published November 7, 2019

Updated April 28, 2026

Daniel Nelson

Xử lý Ngôn ngữ Tự nhiên (NLP) là nghiên cứu và ứng dụng các kỹ thuật và công cụ cho phép máy tính xử lý, phân tích, giải thích và suy luận về ngôn ngữ của con người. NLP là một lĩnh vực liên ngành và nó kết hợp các kỹ thuật được thiết lập trong các lĩnh vực như ngôn ngữ học và khoa học máy tính. Các kỹ thuật này được sử dụng kết hợp với Trí tuệ nhân tạo (AI) để tạo ra các chương trình trò chuyện và trợ lý kỹ thuật số như Google Assistant và Amazon’s Alexa.

Hãy dành một chút thời gian để khám phá lý do đằng sau Xử lý Ngôn ngữ Tự nhiên, một số kỹ thuật được sử dụng trong NLP và một số trường hợp sử dụng phổ biến cho NLP.

Tại sao Xử lý Ngôn ngữ Tự nhiên (NLP) lại quan trọng

Để máy tính có thể giải thích ngôn ngữ của con người, chúng phải được chuyển đổi thành một dạng mà máy tính có thể thao tác. Tuy nhiên, điều này không đơn giản như chuyển đổi dữ liệu văn bản thành số. Để suy luận ý nghĩa từ ngôn ngữ của con người, các mẫu phải được trích xuất từ hàng trăm hoặc hàng nghìn từ tạo thành một tài liệu văn bản. Đây không phải là một nhiệm vụ dễ dàng. Có rất ít quy tắc cứng và nhanh có thể được áp dụng để giải thích ngôn ngữ của con người. Ví dụ, cùng một tập hợp từ có thể có nghĩa khác nhau tùy thuộc vào ngữ cảnh. Ngôn ngữ của con người là một thứ phức tạp và thường mơ hồ, và một câu lệnh có thể được phát biểu với sự chân thành hoặc sự讽刺.

Mặc dù vậy, có một số hướng dẫn chung có thể được sử dụng khi giải thích từ và ký tự, chẳng hạn như ký tự “s” được sử dụng để chỉ rằng một mục là số nhiều. Những hướng dẫn chung này phải được sử dụng cùng với nhau để trích xuất ý nghĩa từ văn bản, để tạo ra các tính năng mà một thuật toán học máy có thể giải thích.

Xử lý Ngôn ngữ Tự nhiên liên quan đến việc áp dụng các thuật toán khác nhau có khả năng lấy dữ liệu không có cấu trúc và chuyển đổi nó thành dữ liệu có cấu trúc. Nếu các thuật toán này được áp dụng một cách sai lầm, máy tính thường không thể suy luận ý nghĩa chính xác từ văn bản. Điều này thường được thấy trong việc dịch văn bản giữa các ngôn ngữ, nơi ý nghĩa chính xác của câu thường bị mất. Mặc dù dịch máy đã cải thiện đáng kể trong những năm qua, nhưng lỗi dịch máy vẫn xảy ra thường xuyên.

Kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP)

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Nhiều kỹ thuật được sử dụng trong xử lý ngôn ngữ tự nhiên có thể được đặt vào một trong hai loại: cú pháp hoặc ngữ nghĩa. Các kỹ thuật cú pháp là những kỹ thuật liên quan đến việc sắp xếp từ, trong khi các kỹ thuật ngữ nghĩa là những kỹ thuật liên quan đến ý nghĩa của từ.

Kỹ thuật Cú pháp NLP

Ví dụ về cú pháp bao gồm:

Lematization
Phân đoạn hình thái
Gán nhãn phần của câu
Phân tích
Chia câu
Cắt giảm
Phân đoạn từ

Lematization đề cập đến việc cô đặc các biến thể khác nhau của một từ xuống một dạng duy nhất. Lematization lấy những thứ như thì và số nhiều và đơn giản hóa chúng, ví dụ, “feet” có thể trở thành “foot” và “stripes” có thể trở thành “stripe”. Dạng từ đơn giản hóa này làm cho nó dễ dàng hơn cho một thuật toán để giải thích các từ trong một tài liệu.

Phân đoạn hình thái là quá trình chia từ thành các đơn vị cơ bản của từ. Những đơn vị này là những thứ như hình thái tự do (có thể đứng một mình như từ) và tiền tố hoặc hậu tố.

Gán nhãn phần của câu đơn giản là quá trình xác định phần của câu của mỗi từ trong tài liệu đầu vào.

Phân tích đề cập đến việc phân tích tất cả các từ trong một câu và liên kết chúng với các nhãn ngữ pháp chính thức hoặc thực hiện phân tích ngữ pháp cho tất cả các từ.

Chia câu, hoặc phân đoạn ranh giới câu, đề cập đến việc quyết định nơi một câu bắt đầu và kết thúc.

Cắt giảm là quá trình giảm từ xuống dạng cơ bản của từ. Ví dụ, “connected”, “connection” và “connections” đều sẽ được cắt giảm xuống “connect”.

Phân đoạn từ là quá trình chia các đoạn văn bản lớn xuống thành các đơn vị nhỏ, có thể là từ hoặc đơn vị đã được cắt giảm/lemitized.

Kỹ thuật Ngữ nghĩa NLP

Kỹ thuật ngữ nghĩa NLP bao gồm:

Nhận dạng thực thể được đặt tên
Thế hệ ngôn ngữ tự nhiên
Định nghĩa từ

Nhận dạng thực thể được đặt tên liên quan đến việc gắn thẻ các phần văn bản nhất định có thể được đặt vào một trong số các nhóm được định nghĩa trước. Các loại được định nghĩa trước bao gồm những thứ như ngày, thành phố, địa điểm, công ty và cá nhân.

Thế hệ ngôn ngữ tự nhiên là quá trình sử dụng cơ sở dữ liệu để chuyển đổi dữ liệu có cấu trúc thành ngôn ngữ tự nhiên. Ví dụ, thống kê về thời tiết, như nhiệt độ và tốc độ gió, có thể được tóm tắt bằng ngôn ngữ tự nhiên.

Định nghĩa từ là quá trình gán ý nghĩa cho từ trong một văn bản dựa trên ngữ cảnh mà từ xuất hiện.

Mô hình Học sâu cho NLP

Các mạng nơ-ron đa lớp thông thường không thể xử lý việc giải thích dữ liệu tuần tự, nơi thứ tự của thông tin là quan trọng. Để giải quyết vấn đề quan trọng của thứ tự trong dữ liệu tuần tự, một loại mạng nơ-ron được sử dụng để bảo tồn thông tin từ các bước thời gian trước đó trong quá trình đào tạo.

Mạng nơ-ron hồi quy là loại mạng nơ-ron lặp lại dữ liệu từ các bước thời gian trước, tính đến chúng khi tính toán trọng số của bước thời gian hiện tại. Về cơ bản, RNN có ba tham số được sử dụng trong quá trình đào tạo tiến: một ma trận dựa trên Trạng thái Ẩn trước, một ma trận dựa trên Đầu vào Hiện tại và một ma trận giữa trạng thái ẩn và đầu ra. Vì RNN có thể tính đến thông tin từ các bước thời gian trước, chúng có thể trích xuất các mẫu liên quan từ dữ liệu văn bản bằng cách tính đến các từ trước đó trong câu khi giải thích ý nghĩa của một từ.

Một loại kiến trúc học sâu khác được sử dụng để xử lý dữ liệu văn bản là mạng nơ-ron nhớ ngắn hạn (LSTM). Mạng nơ-ron LSTM tương tự như RNN về cấu trúc, nhưng do một số khác biệt trong kiến trúc của chúng, chúng thường hoạt động tốt hơn RNN. Chúng tránh được một vấn đề cụ thể thường xảy ra khi sử dụng RNN gọi là vấn đề gradient nổ.

Những mạng nơ-ron sâu này có thể là một chiều hoặc hai chiều. Mạng nơ-ron hai chiều có khả năng tính đến không chỉ các từ trước từ hiện tại mà còn các từ sau nó. Mặc dù điều này dẫn đến độ chính xác cao hơn, nhưng nó tốn nhiều tính toán hơn.

Trường hợp sử dụng cho Xử lý Ngôn ngữ Tự nhiên (NLP)

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Bởi vì Xử lý Ngôn ngữ Tự nhiên liên quan đến việc phân tích và thao tác ngôn ngữ của con người, nó có một loạt ứng dụng rộng lớn. Các ứng dụng có thể cho NLP bao gồm chương trình trò chuyện, trợ lý kỹ thuật số, phân tích cảm xúc, tổ chức tài liệu, tuyển dụng nhân tài và chăm sóc sức khỏe.

Chương trình trò chuyện và trợ lý kỹ thuật số như Amazon’s Alexa và Google Assistant là ví dụ về các nền tảng nhận dạng và tổng hợp giọng nói sử dụng NLP để giải thích và phản hồi các lệnh giọng nói. Những trợ lý kỹ thuật số này giúp mọi người thực hiện nhiều nhiệm vụ khác nhau, cho phép họ offload một số nhiệm vụ nhận thức của họ sang một thiết bị khác và giải phóng một số năng lượng não bộ của họ cho những việc quan trọng hơn. Thay vì tìm kiếm đường đi đến ngân hàng vào một buổi sáng bận rộn, chúng ta có thể yêu cầu trợ lý kỹ thuật số của mình thực hiện việc đó.

Phân tích cảm xúc là việc sử dụng các kỹ thuật NLP để nghiên cứu phản ứng và cảm xúc của mọi người đối với một hiện tượng, như được truyền đạt bởi việc sử dụng ngôn ngữ của họ. Việc nắm bắt cảm xúc của một câu lệnh, như giải thích xem một đánh giá sản phẩm là tốt hay xấu, có thể cung cấp cho các công ty thông tin đáng kể về cách sản phẩm của họ được đón nhận.

Tổ chức tự động các tài liệu văn bản là một ứng dụng khác của NLP. Các công ty như Google và Yahoo sử dụng các thuật toán NLP để phân loại tài liệu email, đặt chúng vào các hộp thư thích hợp như “xã hội” hoặc “quảng cáo”. Họ cũng sử dụng các kỹ thuật này để xác định thư rác và ngăn chặn nó đến hộp thư của bạn.

Các nhóm cũng đã phát triển các kỹ thuật NLP được sử dụng để xác định các ứng viên tuyển dụng tiềm năng, tìm kiếm họ dựa trên các kỹ năng liên quan. Các nhà quản lý tuyển dụng cũng sử dụng các kỹ thuật NLP để giúp họ sắp xếp danh sách các ứng viên.

Kỹ thuật NLP cũng đang được sử dụng để cải thiện chăm sóc sức khỏe. NLP có thể được sử dụng để cải thiện việc phát hiện bệnh. Hồ sơ sức khỏe có thể được phân tích và các triệu chứng được trích xuất bởi các thuật toán NLP, sau đó có thể được sử dụng để đề xuất các chẩn đoán có thể. Một ví dụ về điều này là nền tảng Y tế Comprehend của Amazon, phân tích hồ sơ sức khỏe và trích xuất bệnh và điều trị. Các ứng dụng chăm sóc sức khỏe của NLP cũng mở rộng đến sức khỏe tâm thần. Có các ứng dụng như WoeBot, trò chuyện với người dùng về nhiều kỹ thuật quản lý lo lắng dựa trên Liệu pháp Hành vi Nhận thức.

Related Topics:natural language processing nlp

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.