Όπως γράφει το BBC, το Safety mode θα υποδεικνύει/ μαρκάρει λογαριασμούς που προβαίνουν σε μισαλλόδοξα/ προσβλητικά σχόλια, ή αυτά που «βομβαρδίζουν» με ανεπιθύμητα σχόλια, και θα τους μπλοκάρει για επτά ημέρες. Μόλις ενεργοποιηθεί, η λειτουργία αυτή θα λειτουργεί αυτόματα, απαλλάσσοντας τους χρήστες από το βάρος της διαχείρισης ανεπιθύμητων σχολίων.
Σε πρώτη φάση, θα δοκιμαστεί σε έναν περιορισμένο αριθμό χρηστών. Η λειτουργία αυτή μπορεί να απενεργοποιηθεί στις ρυθμίσεις, και το σύστημα θα αξιολογεί τόσο το περιεχόμενο ενός tweet όσο και τη σχέση μεταξύ του συντάκτη και αυτού που απαντά σε αυτό. Οι λογαριασμοί τους οποίους ο χρήστης κάνει follow ή αλληλεπιδρά συχνά μαζί τους δεν θα μπλοκάρονται αυτόματα.
Μεταξύ των σκοπών του Safety mode, σύμφωνα με το Twitter, είναι η «βελτίωση της υγείας του δημοσίου διαλόγου».
Όπως και άλλες πλατφόρμες κοινωνικής δικτύωσης, το Twitter βασίζεται σε έναν συνδυασμό moderation από αυτοματοποιημένα συστήματα και ανθρώπους. Αν και δεν έχει ανακοινωθεί ποτέ επίσημα πόσοι είναι οι άνθρωποι moderators, αναφορά του NYU Stern το 2020 έκανε λόγο για περίπου 1.500 άτομα, που πρέπει να διαχειρίζονται τα 199 εκατομμύρια χρήστες της πλατφόρμας σε καθημερινή βάση.
Πρόσφατη μελέτη πάνω στη ρητορική μίσους από το Facts Against Hate για λογαριασμό της φινλανδικής κυβέρνησης έδειξε ότι το Twitter ήταν ο «χειρότερος από τους τεχνολογικούς κολοσσούς» όσον αφορά σε θέματα ρητορικής μίσους.