Connect with us

Έρευνα Υποδεικνύει ότι τα LLMs Είναι Πρόθυμα να Βοηθήσουν σε Κακόβουλο ‘Vibe Coding’

Η γωνία του Anderson

Έρευνα Υποδεικνύει ότι τα LLMs Είναι Πρόθυμα να Βοηθήσουν σε Κακόβουλο ‘Vibe Coding’

mm
ChatGPT-4o and Adobe Firefly.

Τα τελευταία χρόνια, τα μεγάλου μεγέθους γλωσσικά μοντέλα (LLMs) έχουν προκαλέσει ερωτηματικά για την πιθανή κακοποίηση τους σε επιθετικές κυβερνοαπειλές, ιδιαίτερα στη δημιουργία εκμεταλλεύσεων λογισμικού. Η πρόσφατη τάση προς το ‘vibe coding’ (η άνετη χρήση γλωσσικών μοντέλων για τη γρήγορη ανάπτυξη κώδικα για einen χρήστη, αντί να διδάξει ρητά τον χρήστη να προγραμματίζει) έχει αναβιώσει ένα концепτό που έφτασε στο ζενίθ του στις αρχές της δεκαετίας του 2000: τον ‘script kiddie’ – έναν σχετικά ακατάρτιστο κακόβουλο ηθοποιό με αρκετές γνώσεις για να αναπαραγάγει ή να αναπτύξει μια επιζήμιμη επίθεση. Η εξέλιξη, φυσικά, είναι ότι όταν το εμπόδιο εισόδου μειώνεται, οι απειλές θα τείνουν να πολλαπλασιαστούν. Όλα τα εμπορικά LLMs έχουν κάποιο είδος φραγμού προστασίας ενάντια στη χρήση τους για τέτοιους σκοπούς, αν και αυτά τα προστατευτικά μέτρα είναι υπό συνεχή επίθεση. Τυπικά, τα περισσότερα μοντέλα ανοιχτού κώδικα (σε πολλαπλά домένια, από LLMs σε μοντέλα γενετικών εικόνων/βίντεο) κυκλοφορούν με κάποιο είδος παρόμοιας προστασίας, συνήθως για λόγους συμμόρφωσης στη Δύση. Ωστόσο, οι επίσημες κυκλοφορίες μοντέλων τότε ρουτίνα fine-tune από τις κοινότητες χρηστών που ζητούν περισσότερη πλήρη λειτουργικότητα, ή αλλιώς LoRAs χρησιμοποιούνται για να παρακαμφθούν οι περιορισμοί και να ληφθούν πιθανώς ‘απρόσκλητες’ αποτελέσματα. Αν και η πλειοψηφία των online LLMs θα αποτρέψει τη βοήθεια του χρήστη με κακόβουλες διαδικασίες, ‘απεριόριστες’ πρωτοβουλίες όπως το Deep Hat είναι διαθέσιμες για να βοηθήσουν τους ερευνητές ασφαλείας να λειτουργούν σε ένα επίπεδο πεδίο ως οι αντίπαλοί τους. Η γενική εμπειρία χρήστη στο παρόν χρόνο είναι πιο συχνά αντιπροσωπευμένη στη σειρά ChatGPT, των οποίων τα μηχανισμοί φίλτρου συχνά προκαλούν κριτική από την κοινότητα LLM.

Φαίνεται Ότι Προσπαθείτε να Επίτεθεί σε Ένα Σύστημα!

Σε light της αυτήν της τάσης προς περιορισμό και λογοκρισία, οι χρήστες μπορεί να είναι έκπληκτοι να βρουν ότι το ChatGPT έχει βρεθεί να είναι το πιο συνεργαζόμενο από όλα τα LLMs που έχουν δοκιμαστεί σε μια πρόσφατη μελέτη που σχεδιάστηκε για να αναγκάσει τα γλωσσικά μοντέλα να δημιουργήσουν κακόβουλες εκμεταλλεύσεις κώδικα. Η νέα εργασία από ερευνητές στο UNSW Sydney και το Commonwealth Scientific and Industrial Research Organisation (CSIRO), με τίτλο Καλές Ειδήσεις για τους Script Kiddies? Αξιολόγηση Μεγάλων Γλωσσικών Μοντέλων για Αυτοματοποιημένη Γενέση Εκμεταλλεύσεων, προσφέρει την πρώτη συστηματική αξιολόγηση του πόσο αποτελεσματικά αυτά τα μοντέλα μπορούν να προωθηθούν για να παράγουν λειτουργικές εκμεταλλεύσεις. Παραδείγματα συνομιλιών από την έρευνα έχουν παρθεί από τους συγγραφείς. Η μελέτη συγκρίνει πώς τα μοντέλα εκτελέστηκαν σε cả τις αρχικές και τις τροποποιημένες εκδόσεις των γνωστών εργαστηρίων ευπαθειών (δομημένες προγραμματιστικές ασκήσεις που σχεδιάστηκαν για να δείξουν συγκεκριμένες ασφαλείς ευπαθειών λογισμικού), giúpοντας να αποκαλύψουν αν βασίζονταν σε απομνημονευμένα παραδείγματα ή αγωνίζονταν λόγω των ενσωματωμένων ασφαλειών.

Από τον ιστότοπο υποστήριξης, το Ollama LLM βοηθά τους ερευνητές να αναπτύξουν μια επίθεση ευπαθειών συμβολοσειράς. Πηγή: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Από τον ιστότοπο υποστήριξης, το Ollama LLM βοηθά τους ερευνητές να αναπτύξουν μια επίθεση ευπαθειών συμβολοσειράς. Πηγή: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Ενώ κανένα από τα μοντέλα δεν ήταν σε θέση να δημιουργήσει μια αποτελεσματική εκμετάλλευση, πολλά από αυτά ήρθαν πολύ κοντά· πιο σημαντικά, πολλά από αυτά ήθελαν να κάνουν καλύτερα στην εργασία, υποδεικνύοντας μια πιθανή αποτυχία των υφιστάμενων προσεγγίσεων φραγμών. Το έγγραφο αναφέρει:

‘Οι πειράματές μας δείχνουν ότι το GPT-4 και το GPT-4o παρουσιάζουν υψηλό βαθμό συνεργασίας στη γενέση εκμεταλλεύσεων, συγκρίσιμο με κάποια ακατοίκητα μοντέλα ανοιχτού κώδικα. Μεταξύ των αξιολογημένων μοντέλων, το Llama3 ήταν το πιο ανθεκτικό σε τέτοιες αιτήσεις.

‘Παρά τη πρόθεσή τους να βοηθήσουν, η πραγματική απειλή που προκαλούν αυτά τα μοντέλα παραμένει περιορισμένη, поскольку κανένα δεν κατάφερε να δημιουργήσει εκμεταλλεύσεις για τις πέντε προσαρμοσμένες εργασίες με ανασυνταγμένο κώδικα. Ωστόσο, το GPT-4o, ο ισχυρότερος εκτελεστής στη μελέτη μας, συνήθως έκανε μόνο ένα ή δύο λάθη ανά προσπάθεια.

‘Αυτό υποδηλώνει σημαντικό потенシャル για την αξιοποίηση των LLMs για την ανάπτυξη προηγμένων, γενικευμένων τεχνικών [Αυτοματοποιημένης Γενέσης Εκμεταλλεύσεων (AEG)].’

Πολυάριθμες Δεύτερες Ευκαιρίες

Η αλήθεια ‘Δεν έχετε δεύτερη ευκαιρία να κάνετε μια καλή πρώτη εντύπωση’ δεν ισχύει γενικά για τα LLMs, γιατί ένα γλωσσικό μοντέλο τυπικά-περιορισμένο παράθυρο контекστα σημαίνει ότι ένας αρνητικός контекστ (σε μια κοινωνική έννοια, δηλαδή ανταγωνισμός) δεν είναι μόνιμος.

Δοκιμή της Μεθόδου

Για να δοκιμάσουν πόσο μακριά τα LLMs θα μπορούσαν να ωθηθούν προς τη δημιουργία λειτουργικών εκμεταλλεύσεων, οι συγγραφείς έστησαν ένα ελεγχόμενο περιβάλλον χρησιμοποιώντας πέντε εργασίες από τα SEED Labs, κάθε μια χτισμένη γύρω από γνωστές ευπαθειές, συμπεριλαμβανομένων μιας περιπτώσεως υπερχείλισης буφέρ, επιστροφής στο libc, μιας επίθεσης Dirty COW και συνθηκών αγώνων.

Αποτελέσματα

Οι ερευνητές έτρεξαν ποια μοντέλα ήταν πιο συνεργαζόμενα κατά τη διάρκεια της διαδικασίας γενέσης εκμεταλλεύσεων, μετρήθηκαν με την καταγραφή του ποσοστού των απαντήσεων στις οποίες το μοντέλο προσπάθησε να βοηθήσει με την εργασία (ακόμη και αν η έξοδος ήταν ελαττωματική).

Συμπέρασμα

Υπάρχει κάποια αμφιβολία, η εργασία παραδέχεται, ως προς το αν τα γλωσσικά μοντέλα που δοκιμάστηκαν είδαν τα αρχικά SEED labs κατά την πρώτη εκπαίδευση· για αυτόν τον λόγο, κατασκευάστηκαν παραλλαγές. Ωστόσο, οι ερευνητές επιβεβαιώνουν ότι θα ήθελαν να εργαστούν με πραγματικές εκμεταλλεύσεις σε μελλοντικές ιταλικές της μελέτης· πραγματικά καινούργια και πρόσφατα υλικά είναι λιγότερο πιθανό να υπόκεινται σε συντομεύσεις ή άλλες confusant επιπτώσεις. Πρώτη δημοσίευση Δευτέρα, 5 Μαΐου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]