sơ khai Hồi quy tuyến tính là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Hồi quy tuyến tính là gì?

mm
cập nhật on

Hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một thuật toán được sử dụng để dự đoán hoặc trực quan hóa một mối quan hệ giữa hai tính năng/biến khác nhau. Trong các nhiệm vụ hồi quy tuyến tính, có hai loại biến được kiểm tra: biến phụ thuộc và biến độc lập. Biến độc lập là biến tự nó đứng, không chịu tác động của biến khác. Khi biến độc lập được điều chỉnh, mức độ của biến phụ thuộc sẽ dao động. Biến phụ thuộc là biến đang được nghiên cứu và là thứ mà mô hình hồi quy giải quyết/cố gắng dự đoán. Trong các tác vụ hồi quy tuyến tính, mọi quan sát/trường hợp bao gồm cả giá trị biến phụ thuộc và giá trị biến độc lập.

Đó là giải thích nhanh về hồi quy tuyến tính, nhưng hãy đảm bảo rằng chúng ta hiểu rõ hơn về hồi quy tuyến tính bằng cách xem xét một ví dụ về nó và kiểm tra công thức mà nó sử dụng.

Hiểu hồi quy tuyến tính

Giả sử rằng chúng ta có một tập dữ liệu về kích thước ổ cứng và giá của những ổ cứng đó.

Giả sử rằng tập dữ liệu chúng tôi có bao gồm hai tính năng khác nhau: dung lượng bộ nhớ và chi phí. Chúng ta càng mua nhiều bộ nhớ cho máy tính thì chi phí mua càng tăng. Nếu chúng ta vẽ các điểm dữ liệu riêng lẻ trên một biểu đồ phân tán, chúng ta có thể nhận được một biểu đồ trông giống như sau:

Tỷ lệ bộ nhớ trên chi phí chính xác có thể khác nhau giữa các nhà sản xuất và kiểu ổ cứng, nhưng nói chung, xu hướng của dữ liệu là xu hướng bắt đầu ở phía dưới bên trái (nơi ổ cứng vừa rẻ hơn vừa có dung lượng nhỏ hơn) và chuyển sang phía trên bên phải (nơi ổ đĩa đắt tiền hơn và có dung lượng cao hơn).

Nếu chúng ta có dung lượng bộ nhớ trên trục X và chi phí trên trục Y, thì một dòng thể hiện mối quan hệ giữa các biến X và Y sẽ bắt đầu ở góc dưới bên trái và chạy lên phía trên bên phải.

Chức năng của mô hình hồi quy là xác định hàm tuyến tính giữa các biến X và Y mô tả đúng nhất mối quan hệ giữa hai biến. Trong hồi quy tuyến tính, giả định rằng Y có thể được tính từ một số kết hợp của các biến đầu vào. Mối quan hệ giữa các biến đầu vào (X) và các biến mục tiêu (Y) có thể được mô tả bằng cách vẽ một đường thẳng qua các điểm trong biểu đồ. Đường biểu diễn hàm mô tả đúng nhất mối quan hệ giữa X và Y (ví dụ: cứ mỗi lần X tăng 3 thì Y tăng 2). Mục tiêu là tìm một “đường hồi quy” tối ưu, hoặc đường/hàm phù hợp nhất với dữ liệu.

Các đường thường được biểu thị bằng phương trình: Y = m*X + b. X đề cập đến biến phụ thuộc trong khi Y là biến độc lập. Trong khi đó, m là độ dốc của đường, được xác định bằng “độ cao” trên “đường chạy”. Những người thực hành học máy biểu diễn phương trình đường dốc nổi tiếng hơi khác một chút, thay vào đó sử dụng phương trình này:

y(x) = w0 + w1 * x

Trong phương trình trên, y là biến mục tiêu trong khi “w” là tham số của mô hình và đầu vào là “x”. Vì vậy, phương trình được đọc là: “Hàm cung cấp cho Y, tùy thuộc vào X, bằng các tham số của mô hình nhân với các tính năng”. Các tham số của mô hình được điều chỉnh trong quá trình đào tạo để có được đường hồi quy phù hợp nhất.

Hồi quy nhiều tuyến tính

Ảnh: Cbaf qua Wikimedia Commons, Miền công cộng (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Quy trình được mô tả ở trên áp dụng cho hồi quy tuyến tính đơn giản hoặc hồi quy trên các bộ dữ liệu chỉ có một tính năng/biến độc lập duy nhất. Tuy nhiên, hồi quy cũng có thể được thực hiện với nhiều tính năng. Trong trường hợp "hồi quy nhiều tuyến tính”, phương trình được mở rộng bằng số lượng biến được tìm thấy trong tập dữ liệu. Nói cách khác, trong khi phương trình hồi quy tuyến tính thông thường là y(x) = w0 + w1 * x, thì phương trình hồi quy tuyến tính bội sẽ là y(x) = w0 + w1x1 cộng với trọng số và đầu vào cho các tính năng khác nhau. Nếu chúng ta biểu thị tổng số trọng số và tính năng là w(n)x(n), thì chúng ta có thể biểu thị công thức như sau:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Sau khi thiết lập công thức cho hồi quy tuyến tính, mô hình học máy sẽ sử dụng các giá trị khác nhau cho trọng số, vẽ các đường phù hợp khác nhau. Hãy nhớ rằng mục tiêu là tìm đường phù hợp nhất với dữ liệu để xác định tổ hợp trọng số nào có thể (và do đó, đường nào có thể) phù hợp nhất với dữ liệu và giải thích mối quan hệ giữa các biến.

Một hàm chi phí được sử dụng để đo mức độ gần gũi của các giá trị Y giả định với các giá trị Y thực tế khi được cung cấp một giá trị trọng số cụ thể. hàm chi phí đối với hồi quy tuyến tính là lỗi bình phương trung bình, chỉ lấy lỗi trung bình (bình phương) giữa giá trị dự đoán và giá trị thực cho tất cả các điểm dữ liệu khác nhau trong tập dữ liệu. Hàm chi phí được sử dụng để tính toán chi phí, trong đó ghi lại sự khác biệt giữa giá trị mục tiêu được dự đoán và giá trị mục tiêu thực. Nếu đường phù hợp ở xa các điểm dữ liệu, chi phí sẽ cao hơn, trong khi chi phí sẽ trở nên nhỏ hơn khi đường gần nắm bắt được mối quan hệ thực sự giữa các biến. Các trọng số của mô hình sau đó được điều chỉnh cho đến khi tìm thấy cấu hình trọng số tạo ra lượng lỗi nhỏ nhất.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.