Πέμπτη 22 Μαϊου 2025
weather-icon 21o
Τεχνητή Νοημοσύνη: Τα περισσότερα chatbots είναι επιρρεπή στις επικίνδυνες απαντήσεις

Τεχνητή Νοημοσύνη: Τα περισσότερα chatbots είναι επιρρεπή στις επικίνδυνες απαντήσεις

Ανησυχητική είναι η «συμπεριφορά» κάποιων chatbots Τεχνητής Νοημοσύνης που έχουν την δυνατότητα να εκπαιδευτούν για να αποκαλύψουν επικίνδυνες πληροφορίες

Τα χακαρισμένα chatbots Τεχνητής Νοημοσύνης αποτελούν σοβαρή απειλή για την διάδοση επικίνδυνων γνώσεων, καθώς διακινούν παράνομες πληροφορίες που απορροφούν τα προγράμματα ΑΙ κατά τη διάρκεια της εκπαίδευσης, σύμφωνα με ερευνητές.

Η προειδοποίηση έρχεται εν μέσω μιας ανησυχητικής τάσης για «σπασμένα» chatbots να παρακάμπτουν τους ενσωματωμένους ελέγχους ασφαλείας τους. Οι περιορισμοί υποτίθεται ότι αποτρέπουν τα προγράμματα από το να παρέχουν επιβλαβείς, μεροληπτικές ή ακατάλληλες απαντήσεις στις ερωτήσεις των χρηστών.

Άμεσος ο κίνδυνος από τις ανεξέλεγκτες απαντήσεις των chatbots

Οι μηχανές που τροφοδοτούν τα chatbots όπως τα ChatGPT, Gemini και Claude – μεγάλα γλωσσικά μοντέλα (LLM) – λαμβάνουν τεράστιες ποσότητες υλικού από το διαδίκτυο.

Παρά τις προσπάθειες αφαίρεσης των επιβλαβών κειμένων από τα δεδομένα εκπαίδευσης, τα LLM μπορούν ακόμη να απορροφήσουν πληροφορίες σχετικά με παράνομες δραστηριότητες όπως hacking, ξέπλυμα χρήματος, εμπόριο εμπιστευτικών πληροφοριών και κατασκευή βομβών, αναφέρει ο Guardian.

Σε μια έκθεση σχετικά με την απειλητική τάση, οι ερευνητές καταλήγουν στο συμπέρασμα ότι είναι εύκολο να ξεγελαστούν τα περισσότερα chatbots με Τεχνητή Νοημοσύνη ώστε να παράγουν επιβλαβείς και παράνομες πληροφορίες, δείχνοντας ότι ο κίνδυνος είναι «άμεσος, απτός και βαθιά ανησυχητικός».

«Αυτό που κάποτε περιοριζόταν σε κρατικούς φορείς ή ομάδες οργανωμένου εγκλήματος μπορεί σύντομα να βρίσκεται στα χέρια οποιουδήποτε έχει ένα φορητό υπολογιστή ή ακόμη και ένα κινητό τηλέφωνο», προειδοποιούν οι συγγραφείς.

Η έρευνα, με επικεφαλής τον καθηγητή Lior Rokach και τον Δρ Michael Fire στο Πανεπιστήμιο Ben Gurion, εντόπισε μια αυξανόμενη απειλή από τα «σκοτεινά LLM», μοντέλα ΑΙ που είτε σχεδιάζονται σκόπιμα χωρίς ελέγχους ασφαλείας είτε τροποποιούνται μέσω jailbreaks. Ορισμένα διαφημίζονται ανοιχτά στο διαδίκτυο ως «χωρίς ηθικά προστατευτικά όρια» και ως πρόθυμα να βοηθήσουν σε παράνομες δραστηριότητες όπως το έγκλημα στον κυβερνοχώρο και η απάτη.

Το jailbreaking τείνει να χρησιμοποιεί προσεκτικά επεξεργασμένες εντολές για να ξεγελάσει τα chatbots ώστε να παράγουν απαντήσεις που κανονικά απαγορεύονται. Λειτουργούν εκμεταλλευόμενοι την διαδικασία μεταξύ του πρωταρχικού στόχου του προγράμματος να ακολουθήσει τις οδηγίες του χρήστη και του δευτερεύοντος στόχου του να αποφύγει τη δημιουργία επιβλαβών, προκατειλημμένων, ανήθικων ή παράνομων απαντήσεων. Οι προτροπές τείνουν να δημιουργούν σενάρια στα οποία το πρόγραμμα δίνει προτεραιότητα στην εξυπηρετικότητα έναντι των περιορισμών ασφαλείας του.

Αναγκαία τα μέτρα προστασίας

Για να καταδείξουν το πρόβλημα, οι ερευνητές ανέπτυξαν ένα jailbreak που έθεσε σε κίνδυνο πολλά κορυφαία chatbots, επιτρέποντάς τους να απαντούν σε ερωτήσεις που κανονικά θα έπρεπε να απορρίπτονται. Μόλις παραβιάστηκαν, τα LLMs παρήγαγαν με συνέπεια απαντήσεις σχεδόν σε κάθε ερώτημα, αναφέρει η έκθεση.

«Ήταν σοκαριστικό να παρακολουθούμε από τι αποτελείται το συγκεκριμένο σύστημα γνώσης», δήλωσε ο Fire. Τα παραδείγματα περιλάμβαναν τον τρόπο παραβίασης δικτύων υπολογιστών ή παρασκευής ναρκωτικών, καθώς και οδηγίες βήμα προς βήμα για άλλες εγκληματικές δραστηριότητες.

«Αυτό που διαφοροποιεί αυτή την απειλή από τους προηγούμενους τεχνολογικούς κινδύνους είναι ο πρωτοφανής συνδυασμός προσβασιμότητας, επεκτασιμότητας και προσαρμοστικότητας», πρόσθεσε ο Rokach.

Οι ερευνητές ήρθαν σε επαφή με κορυφαίους παρόχους LLM για να τους προειδοποιήσουν για το καθολικό jailbreak, αλλά δήλωσαν ότι η ανταπόκριση ήταν «υποτονική». Αρκετές εταιρείες δεν απάντησαν, ενώ άλλες δήλωσαν ότι οι επιθέσεις jailbreak δεν εμπίπτουν στο πεδίο εφαρμογής των προγραμμάτων bounty, τα οποία ανταμείβουν τους ‘ηθικούς’ χάκερ για την επισήμανση ευπαθειών λογισμικού.

Η έκθεση αναφέρει ότι οι εταιρείες τεχνολογίας θα πρέπει να ελέγχουν πιο προσεκτικά τα δεδομένα εκπαίδευσης, να προσθέτουν ισχυρά τείχη προστασίας για να αποκλείουν τα επικίνδυνα ερωτήματα και απαντήσεις και να αναπτύσσουν τεχνικές «μηχανικής εκμάθησης», ώστε τα chatbots να μπορούν να «ξεχνούν» κάθε παράνομη πληροφορία που απορροφούν. Τα σκοτεινά LLM θα πρέπει να θεωρούνται ως «σοβαροί κίνδυνοι για την ασφάλεια», συγκρίσιμοι με τα μη αδειοδοτημένα όπλα και τα εκρηκτικά, με τους παρόχους να λογοδοτούν, προσθέτει.

Να εφαρμοστούν αυστηρά πρωτόκολλα ασφαλείας

Ο Δρ Ihsen Alouani, ο οποίος εργάζεται στην ασφάλεια της Τεχνητής Νοημοσύνης στο Πανεπιστήμιο Queen’s του Μπέλφαστ, υποστήριξε ότι οι επιθέσεις jailbreak στα LLMs θα μπορούσαν να προκαλέσουν πραγματικούς κινδύνους, από την παροχή λεπτομερών οδηγιών για την κατασκευή όπλων έως την πειστική παραπληροφόρηση ή τις αυτοματοποιημένες απάτες «με ανησυχητική πολυπλοκότητα».

«Ένα βασικό μέρος της λύσης είναι οι εταιρείες να επενδύσουν πιο σοβαρά σε τεχνικές red teaming και ανθεκτικότητας σε επίπεδο μοντέλου, αντί να βασίζονται αποκλειστικά σε front-end διασφαλίσεις. Χρειαζόμαστε επίσης σαφέστερα πρότυπα και ανεξάρτητη εποπτεία για να συμβαδίσουμε με το εξελισσόμενο τοπίο των απειλών», τόνισε, σύμφωνα με τον Guardian.

Ο καθηγητής Peter Garraghan, ειδικός σε θέματα ασφάλειας ΑΙ στο Πανεπιστήμιο Lancaster, δήλωσε: «Οι οργανισμοί πρέπει να αντιμετωπίζουν τα LLMs όπως κάθε άλλο κρίσιμο στοιχείο λογισμικού – ένα στοιχείο που απαιτεί αυστηρές δοκιμές ασφαλείας».

«Ναι, τα jailbreaks προκαλούν ανησυχία, αλλά χωρίς την πιο σφαιρική κατανόηση της ΑΙ, η λογοδοσία [των παρόχων] θα παραμείνει επιφανειακή. Η πραγματική ασφάλεια απαιτεί όχι μόνο υπεύθυνη αποκάλυψη [στοιχείων], αλλά και υπεύθυνες πρακτικές σχεδιασμού και ανάπτυξης», πρόσθεσε.

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ALTER EGO MEDIA A.E.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΦΑΕ ΠΕΙΡΑΙΑ

Ηλεκτρονική διεύθυνση Επικοινωνίας: [email protected], Τηλ. Επικοινωνίας: 2107547007

ΜΗΤ Αριθμός Πιστοποίησης Μ.Η.Τ.232442

Πέμπτη 22 Μαϊου 2025
Απόρρητο
OSZAR »