Connect with us

Từ Siri đến ReALM: Hành Trình Của Apple Đến Trợ Lý Giọng Nói Thông Minh

Trí tuệ nhân tạo

Từ Siri đến ReALM: Hành Trình Của Apple Đến Trợ Lý Giọng Nói Thông Minh

mm

Kể từ khi Siri được ra mắt vào năm 2011, Apple đã liên tục đứng ở vị trí tiên phong trong lĩnh vực đổi mới trợ lý giọng nói, thích nghi với nhu cầu của người dùng trên toàn cầu. Việc giới thiệu ReALM đánh dấu một điểm quan trọng trong hành trình này, cung cấp một cái nhìn về vai trò ngày càng phát triển của trợ lý giọng nói trong cách chúng ta tương tác với thiết bị. Bài viết này sẽ xem xét ảnh hưởng của ReALM đối với Siri và các hướng đi tiềm năng cho các trợ lý giọng nói trong tương lai.

Sự Phát Triển Của Trợ Lý Giọng Nói: Nguồn Gốc Của Siri

Hành trình bắt đầu khi Apple tích hợp Siri, một hệ thống trí tuệ nhân tạo tinh vi, vào các thiết bị của mình, thay đổi cách chúng ta tương tác với công nghệ. Xuất phát từ công nghệ được phát triển bởi SRI International, Siri đã trở thành tiêu chuẩn vàng cho các trợ lý kích hoạt bằng giọng nói. Người dùng có thể thực hiện các nhiệm vụ như tìm kiếm internet và lập lịch trình thông qua các lệnh giọng nói đơn giản, đẩy ranh giới của các giao diện đối thoại và tạo ra một cuộc đua cạnh tranh trong thị trường trợ lý giọng nói.

Siri 2.0: Một Kỷ Nguyên Mới Của Trợ Lý Giọng Nói

Khi Apple chuẩn bị cho việc phát hành iOS 18 tại Hội Nghị Phát Triển Toàn Cầu (WWDC) vào tháng 6 năm 2024, sự mong đợi đang tăng lên trong cộng đồng công nghệ về những gì được dự đoán là một sự tiến hóa đáng kể của Siri. Giai đoạn mới này, được gọi là Siri 2.0, hứa hẹn sẽ mang lại những tiến bộ về trí tuệ nhân tạo tạo sinh, có thể biến Siri thành một trợ lý ảo tinh vi hơn. Mặc dù các nâng cấp chính xác vẫn được giữ bí mật, thế giới công nghệ đang xôn xao với triển vọng Siri đạt được những tầm cao mới trong trí tuệ đối thoại và tương tác người dùng được cá nhân hóa, tận dụng các mô hình học ngôn ngữ tinh vi như được thấy trong công nghệ như ChatGPT. Trong bối cảnh này, việc giới thiệu ReALM, một mô hình ngôn ngữ compact, gợi ý về các nâng cấp có thể mà Siri 2.0 có thể giới thiệu cho người dùng. Các phần sau sẽ thảo luận về vai trò của ReALM và ảnh hưởng tiềm năng của nó như một bước quan trọng trong sự tiến bộ liên tục của Siri.

Giới Thiệu ReALM

ReALM, viết tắt của Reference Resolution As Language Modeling, là một mô hình ngôn ngữ chuyên dụng có khả năng giải mã các tham chiếu ngữ cảnh và mơ hồ trong cuộc trò chuyện, chẳng hạn như “điều đó” hoặc “cái này”. Nó nổi bật với khả năng xử lý các tham chiếu đối thoại và trực quan, chuyển đổi chúng thành định dạng văn bản. Khả năng này cho phép ReALM giải thích và tương tác với các bố cục màn hình và các yếu tố một cách mượt mà trong một cuộc trò chuyện, một tính năng quan trọng để xử lý chính xác các truy vấn trong các ngữ cảnh phụ thuộc vào trực quan.

Kiến trúc của ReALM, từ các phiên bản nhỏ như ReALM-80M đến các phiên bản lớn hơn như ReALM-3B, được tối ưu hóa để hiệu quả về mặt tính toán cho việc tích hợp vào các thiết bị di động. Hiệu quả này cho phép thực hiện đồng nhất với việc sử dụng năng lượng giảm và ít gây áp lực cho tài nguyên xử lý, quan trọng để kéo dài tuổi thọ pin và cung cấp thời gian phản hồi nhanh trên nhiều thiết bị.

Hơn nữa, thiết kế của ReALM hỗ trợ các bản cập nhật mô-đun, giúp cho việc tích hợp liền mạch các tiến bộ mới nhất trong giải quyết tham chiếu. Cách tiếp cận mô-đun này không chỉ tăng cường khả năng thích nghi và linh hoạt của mô hình mà còn đảm bảo tính bền vững và hiệu quả lâu dài, cho phép nó đáp ứng nhu cầu người dùng đang phát triển và các tiêu chuẩn công nghệ trên một loạt các thiết bị.

ReALM So Với Các Mô Hình Ngôn Ngữ

Trong khi các mô hình ngôn ngữ truyền thống như GPT-3.5 chủ yếu xử lý văn bản, ReALM đi theo con đường đa phương tiện, tương tự như các mô hình như Gemini, bằng cách làm việc với cả văn bản và hình ảnh. Không giống như các chức năng rộng lớn hơn của GPT-3.5 và Gemini, которые xử lý các nhiệm vụ như tạo văn bản, hiểu và tạo hình ảnh, ReALM đặc biệt nhằm mục đích giải mã các ngữ cảnh đối thoại và trực quan. Tuy nhiên, không giống như các mô hình đa phương tiện như Gemini, trực tiếp xử lý dữ liệu trực quan và văn bản, ReALM chuyển đổi nội dung trực quan của màn hình thành văn bản, chú thích các thực thể và chi tiết không gian của chúng. Việc chuyển đổi này cho phép ReALM giải thích nội dung màn hình theo cách văn bản, giúp cho việc xác định và hiểu các tham chiếu trên màn hình một cách chính xác hơn.

Làm Thế Nào ReALM Có Thể Chuyển Đổi Siri?

ReALM có thể nâng cao đáng kể khả năng của Siri, biến nó thành một trợ lý trực quan và nhận thức ngữ cảnh hơn. Dưới đây là cách nó có thể ảnh hưởng:

  • Hiểu Biết Ngữ Cảnh Tốt Hơn: ReALM chuyên về giải mã các tham chiếu mơ hồ trong cuộc trò chuyện, có thể cải thiện đáng kể khả năng của Siri trong việc hiểu các truy vấn phụ thuộc vào ngữ cảnh. Điều này cho phép người dùng tương tác với Siri một cách tự nhiên hơn, vì nó có thể nắm bắt các tham chiếu như “phát lại bài hát đó” hoặc “gọi cho cô ấy” mà không cần thêm chi tiết.
  • Tương Tác Màn Hình Cải Thiện: Với khả năng giải thích các bố cục màn hình và các yếu tố trong các cuộc trò chuyện, ReALM có thể cho phép Siri tích hợp mượt mà hơn với nội dung trực quan của thiết bị. Siri sau đó có thể thực hiện các lệnh liên quan đến các mục trên màn hình, chẳng hạn như “mở ứng dụng bên cạnh Mail” hoặc “cuộn xuống trang này”, mở rộng tiện ích của nó trong các nhiệm vụ khác nhau.
  • Cá Nhân Hóa: Bằng cách học hỏi từ các tương tác trước, ReALM có thể cải thiện khả năng của Siri trong việc cung cấp các phản hồi được cá nhân hóa và thích nghi. Theo thời gian, Siri có thể dự đoán nhu cầu và sở thích của người dùng, đề xuất hoặc khởi xướng các hành động dựa trên hành vi và hiểu biết ngữ cảnh trước đó, giống như một trợ lý cá nhân thông minh.
  • Tính Năng Trợ Năng Cải Thiện: Khả năng hiểu và tham chiếu của ReALM có thể mang lại lợi ích đáng kể cho tính năng trợ năng, giúp công nghệ trở nên bao gồm hơn. Siri, được hỗ trợ bởi ReALM, có thể giải thích chính xác các lệnh không rõ ràng hoặc không đầy đủ, giúp cho việc sử dụng thiết bị trở nên dễ dàng và tự nhiên hơn cho những người có khuyết tật về thể chất hoặc thị giác.

ReALM và Chiến Lược Trí Tuệ Nhân Tạo Của Apple

Việc ra mắt ReALM phản ánh một khía cạnh quan trọng của chiến lược trí tuệ nhân tạo của Apple, nhấn mạnh vào trí tuệ trên thiết bị. Sự phát triển này phù hợp với xu hướng công nghiệp rộng lớn hơn về tính toán biên, nơi dữ liệu được xử lý tại chỗ trên thiết bị, giảm độ trễ, tiết kiệm băng thông và bảo mật dữ liệu của người dùng trên chính thiết bị.

Dự án ReALM cũng thể hiện mục tiêu trí tuệ nhân tạo rộng lớn hơn của Apple, tập trung không chỉ vào việc thực hiện lệnh mà còn vào việc hiểu và dự đoán nhu cầu của người dùng. ReALM đại diện cho một bước tiến tới các đổi mới trong tương lai, nơi các thiết bị có thể cung cấp hỗ trợ dự đoán và cá nhân hóa hơn, được thông tin bởi sự hiểu biết sâu sắc về thói quen và sở thích của người dùng.

Kết Luận

Sự phát triển của Apple từ Siri đến ReALM nhấn mạnh sự tiến hóa liên tục trong công nghệ trợ lý giọng nói, tập trung vào việc cải thiện hiểu biết ngữ cảnh và tương tác người dùng. ReALM tượng trưng cho một bước ngoặt hướng tới hỗ trợ giọng nói thông minh hơn, cá nhân hóa và ý thức về quyền riêng tư, phù hợp với xu hướng công nghiệp về tính toán biên để tăng cường xử lý và bảo mật trên thiết bị.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.