Trí tuệ nhân tạo
Các nhà nghiên cứu khám phá các mạng con hiệu quả cao trong mạng lưới thần kinh học sâu

Mạng thần kinh học sâu thường rất lớn và đòi hỏi sức mạnh tính toán khổng lồ, nhưng một khám phá mới cho thấy cách có thể cắt giảm điều này để hoàn thành nhiệm vụ hiệu quả hơn. Jonathan Frankle và nhóm của anh ấy ở MIT đã đưa ra “giả thuyết về vé số”, cho thấy cách có các mạng con tinh gọn hơn trong các mạng thần kinh lớn hơn. Các mạng con này có thể hoàn thành nhiệm vụ một cách hiệu quả hơn với ít sức mạnh tính toán cần thiết hơn, với một trong những thách thức lớn nhất là tìm ra các mạng con đó hoặc trúng vé số khi nhóm đề cập đến chúng.
Nhóm đã phát hiện ra các mạng con này trong BERT, kỹ thuật học máy hàng đầu để xử lý ngôn ngữ tự nhiên (NLP). NLP, một trường con của trí tuệ nhân tạo (AI), chịu trách nhiệm giải mã và phân tích ngôn ngữ của con người, đồng thời nó được sử dụng cho các ứng dụng như tạo văn bản dự đoán và chatbot.
Tuy nhiên, BERT lớn và yêu cầu sức mạnh siêu máy tính, điều mà hầu hết người dùng không thể tiếp cận được. Với khám phá mới về các mạng con này, nó có thể mở ra quyền truy cập đó, cho phép nhiều người dùng hơn sử dụng công nghệ để phát triển các công cụ NLP.
Frankle nói: “Chúng tôi đang đi đến điểm mà chúng tôi sẽ phải làm cho những mô hình này trở nên gọn gàng và hiệu quả hơn.
Theo ông, sự phát triển này có thể “giảm bớt rào cản gia nhập” cho NLP.
BERT – “Đắt một cách khó hiểu”
BERT là nền tảng cho những thứ như công cụ tìm kiếm của Google và đã nhận được nhiều sự chú ý kể từ khi Google phát hành nó vào năm 2018. Đây là một phương pháp để tạo mạng thần kinh và được đào tạo bằng cách cố gắng nhiều lần điền vào đoạn văn còn trống. Một trong những tính năng ấn tượng nhất của BERT là tập dữ liệu đào tạo ban đầu khổng lồ của nó.
Sau đó, nó có thể được người dùng điều chỉnh cho các tác vụ cụ thể, chẳng hạn như chatbot dịch vụ khách hàng, nhưng một lần nữa, Nó yêu cầu lượng sức mạnh xử lý khổng lồ, với khả năng tham số lên tới 1 tỷ.
Frankle nói: “Một mô hình BERT tiêu chuẩn ngày nay – giống trong vườn – có 340 triệu thông số. “Cái này đắt kinh khủng. Điều này vượt quá khả năng tính toán của bạn hoặc tôi.”
Theo tác giả chính Tianlong Chen từ Đại học Texas ở Austin, các mô hình như BERT “chịu ảnh hưởng từ quy mô mạng khổng lồ”, nhưng nhờ nghiên cứu mới, “giả thuyết vé số dường như là một giải pháp”.
Mạng con hiệu quả
Chen và nhóm đã tìm kiếm một mô hình nhỏ hơn nằm trong BERT và họ so sánh hiệu suất của các mạng con được phát hiện với mô hình BERT ban đầu. Điều này đã được thử nghiệm trên nhiều nhiệm vụ NLP khác nhau, bao gồm trả lời câu hỏi và điền từ trống vào câu.
Nhóm đã phát hiện ra các mạng con thành công mỏng hơn một cách ấn tượng từ 40 đến 90% so với mô hình BERT ban đầu, với tỷ lệ phần trăm thực tế tùy thuộc vào nhiệm vụ. Trên hết, họ có thể xác định chúng trước khi tinh chỉnh theo nhiệm vụ cụ thể, dẫn đến chi phí tính toán thậm chí còn giảm hơn nữa. Một ưu điểm khác là một số mạng con được chọn cho một nhiệm vụ cụ thể sau đó có thể được sử dụng lại cho nhiệm vụ khác.
Frankle nói: “Tôi hơi ngạc nhiên khi điều này thậm chí còn hiệu quả. “Đó không phải là điều mà tôi cho là hiển nhiên. Tôi đã mong đợi một kết quả lộn xộn hơn nhiều so với những gì chúng tôi nhận được.
Theo Ari Morcos, một nhà khoa học tại Facebook AI Research, phát hiện này rất “thuyết phục” và “Những mô hình này đang ngày càng trở nên phổ biến. Vì vậy, điều quan trọng là phải hiểu liệu giả thuyết vé số có đúng hay không.”
Morcos cũng cho biết nếu các mạng con này có thể chạy bằng cách sử dụng sức mạnh tính toán ít hơn đáng kể, thì điều này sẽ “rất có tác động vì các mô hình cực lớn này hiện đang rất tốn kém để chạy.”
Frankle cho biết thêm: “Tôi không biết chúng ta có thể lớn hơn bao nhiêu khi sử dụng các tính toán kiểu siêu máy tính này. “Chúng ta sẽ phải giảm rào cản gia nhập.”
Ông kết luận: “Hy vọng rằng điều này sẽ làm giảm chi phí, rằng điều này sẽ giúp mọi người dễ tiếp cận hơn… với những cậu bé chỉ có một chiếc máy tính xách tay.
Nghiên cứu dự kiến sẽ được trình bày tại Hội nghị về hệ thống xử lý thông tin thần kinh.