SlideShare a Scribd company logo
1 of 34
Download to read offline
Owasp.org
2
2022'nin sonlarında kitlesel piyasaya sunulan önceden eğitilmiş sohbet robotlarının ardından Büyük
Dil Modellerine (LLM'ler) yönelik ilgi çılgınlığı dikkat çekiciydi. LLM'lerin potansiyelinden yararlanmak
isteyen işletmeler, bunları hızla operasyonlarına ve müşteriye dönük tekliflerine entegre ediyor.
Ancak, LLM'lerin benimsenme hızı, kapsamlı güvenlik protokollerinin oluşturulmasını geride bırakmış
ve birçok uygulamayı yüksek riskli sorunlara karşı savunmasız kılmıştır.
LLM'lerde bu güvenlik endişelerini ele alan bütünleşik bir kaynağın bulunmadığı açıkça ortadadır.
LLM'lerle ilişkili belirli risklere aşina olmayan geliştiriciler, dağınık kaynaklara sahipti ve OWASP'ın
misyonu,buteknolojinindahagüvenlibir şekilde benimsenmesineyardımcıolmak için mükemmel bir
uygunluğa sahip görünüyordu.
Kimler için?
Birincil hedef kitlemiz, LLM teknolojilerinden yararlanarak uygulamalar ve eklentiler tasarlamak ve
geliştirmekle görevli geliştiriciler, veri bilimcileri ve güvenlik uzmanlarıdır. Bu profesyonellerin, LLM
güvenliğinin karmaşık ve gelişen arazisinde gezinmelerine yardımcı olmak için pratik, uygulanabilir ve
net bir güvenlik rehberliği sağlamayı amaçlıyoruz.
Listenin Oluşturulması
LLM'ler için OWASP İlk 10 listesinin oluşturulması, 125'ten fazla aktif katılımcıyla yaklaşık 500
uzmandan oluşan uluslararası bir ekibin kolektif uzmanlığı üzerine inşa edilen büyük bir girişimdi.
Katkıda bulunanlarımız yapay zeka şirketleri, güvenlik şirketleri, ISV'ler (Entegre Yazılım Sağlayıcıları),
bulut hiper ölçekleyicileri, donanım sağlayıcıları ve akademi dahil olmak üzere çeşitli uzmanlık
alanlarından geliyor.
Bir ay boyunca beyin fırtınası yaptık ve potansiyel güvenlik açıkları önerdik, ekip üyeleri 43 farklı
tehdit yazdı. Birden fazla oylama turuyla, bu önerileri en kritik on güvenlik açığının kısa bir listesine
indirgedik. Her bir güvenlik açığı daha sonra özel alt ekipler tarafından incelenmiş, rafine edilmiş ve
kamu incelemesine tabi tutularak en kapsamlı ve uygulanabilir nihai liste elde edilmiştir.
Bu güvenlik açıklarının her biri, yaygın örnekler, önleme ipuçları, saldırı senaryoları ve referanslarla
birlikte, özel alt ekipler tarafından daha fazla incelendi, rafine edildi ve en kapsamlı ve uygulanabilir
nihai listeyi sağlamak için kamu incelemesine tabi tutuldu.
Owasp.org
3
Diğer OWASP İlk 10 Listeleriyle İlişkilendirme
Listemiz,diğer OWASP Top 10 listelerinde bulunan güvenlik açığı türleriyle aynı DNA'yı paylaşıyor olsa
da, bu güvenlik açıklarını basit bir şekilde tekrarlamıyoruz. Bunun yerine, bu güvenlik açıklarının
LLM'lerin kullanıldığı uygulamalarda karşılaşıldığı zaman sahip olabileceği benzersiz etkileri
araştırıyoruz. Amacımız, genel uygulama güvenliği ilkeleri ile LLM'lerin ortaya çıkardığı özel zorluklar
arasındaki uçurumu kapatmaktır. Bu, geleneksel güvenlik açıklarının nasıl farklı riskler
oluşturabileceğini veya LLM'lerde yeni yollarla nasıl istismar edilebileceğini ve geleneksel iyileştirme
stratejilerinin LLM'leri kullanan uygulamalar için nasıl uyarlanması gerektiğini araştırmayı içerir.
Gelecek
Listeninbu ilk versiyonusonversiyonumuzolmayacak. Sektörün durumuna ayak uydurmak için bunu
periyodik olarak güncellemeyi umuyoruz. Teknolojinin geldiği noktayı ileriye taşımak için daha geniş
bir toplulukla birlikte çalışacak ve çeşitli kullanımlar için daha fazla eğitim materyali oluşturacağız.
Ayrıca yapay zeka güvenliği konularında standart kuruluşlar ve hükümetlerle işbirliği yapmaya
çalışıyoruz. Grubumuza katılmanızı ve katkıda bulunmanızı bekliyoruz.
Steve Wilson
Proje Lideri, LLM Yapay Zeka Uygulamaları için OWASP İlk 10
Twitter/X: @virtualsteve
Owasp.org
4
LLM01: İstemci Enjeksiyonu
Bu, kurnaz girişler aracılığıyla büyük bir dil modelini
(LLM) manipüle ederek, LLM tarafından istenmeyen
eylemlerin gerçekleşmesine neden olur. Doğrudan
enjeksiyonlar sistem istemleri üzerine yazarken, dolaylı
olanlar harici kaynaklardan girişleri manipüle eder.
LLM06: Hassas Bilgilerin İfşası
LLM'ler yanıtlarında yanlışlıkla gizli verileri açığa çıkabilir
ve bu da yetkisiz veri erişimine, gizlilik ihlallerine ve
güvenlik ihlallerine yol açabilir. Bunu azaltmak için veri
temizleme ve katı kullanıcı politikaları uygulamak çok
önemlidir.
LLM02: Güvenli Olmayan Çıktı İşleme
Bu güvenlik açığı, bir LLM çıktısının dikkatlice
incelenmeden kabul edilmesi durumunda arka plandaki
sistemleri açığa çıkarır. Kötüye kullanım, XSS, CSRF, SSRF
ayrıcalık yükseltme veya uzaktan kod yürütme gibi ciddi
sonuçlara yol açabilir.
LLM07: Güvensiz Eklenti Tasarımı
LLM eklentilerigüvensizgirdilere ve yetersiz erişim
kontrolüne sahip olabilir. Bu uygulama kontrolü
eksikliği, istismar edilmelerini kolaylaştırır ve
uzaktan kod yürütme gibi sonuçlara yol açabilir.
LLM03: Eğitim Veri Zehirlenmesi
Bu durum, LLM eğitim verileri değiştirildiğinde ortaya
çıkar ve güvenlik, etkinlik veya etik davranışları tehlikeye
atan açıklar veya önyargılar getirir. Kaynaklar arasında
Common Crawl, WebText, OpenWebText ve kitaplar
bulunur.
LLM08: Aşırı Yetkilendirme (Agency)
LLM tabanlı sistemler istenmeyen sonuçlara yol
açan eylemlergerçekleştirebilir. Sorun,LLM tabanlı
sistemlere verilen aşırı fonksiyonellik, izinler veya
özerklikten kaynaklanmaktadır.
LLM04: Model Hizmet Reddi
Saldırganlar, LLM'ler üzerinde kaynak yoğun işlemler
gerçekleştirerek, hizmet kalitesinin düşmesine veya
yüksek maliyetlere neden olurlar. Bu güvenlik açığı,
LLM'lerin kaynak yoğun yapısı ve kullanıcı girişlerinin
öngörülememe özelliği nedeniyle büyütülmüş olur.
LLM09: Aşırı Güven
Gözetim olmaksızın LLM'lere aşırı derecede
dayanan sistemler veya kişiler, LLM'ler tarafından
üretilen yanlış veya uygunsuz içerik nedeniyle
yanlış bilgilendirme, iletişimsizlik, yasal sorunlar ve
güvenlik açıklarıyla karşılaşabilir
LLM05:Tedarik Zinciri Güvenlik Açıkları
LLM uygulama yaşam döngüsü, savunmasız bileşenler
veya hizmetler nedeniyle tehlikeye girebilir ve güvenlik
saldırılarına yol açabilir. Üçüncü taraf veri kümesi,
önceden eğitilmiş modeller ve eklentiler kullanmak da
zafiyetlere neden olabilir.
LLM10: Model Hırsızlığı
Bu, patentli LLM modellerine yetkisiz erişimi,
bunların kopyalanmasını veya dışarı sızdırılmasını
içerir. Bunun etkileri arasında ekonomik kayıplar,
rekabet avantajının tehlikeye girmesi ve hassas
bilgilere potansiyel erişim yer almaktadır.
Owasp.org
5
İstemci Enjeksiyonu Güvenlik Açığı, bir saldırganın kurnaz girişlerle büyük bir dil modelini (LLM)
manipüle etmesisonucunda,LLM'nin saldırganın niyetlerini farkında olmadan gerçekleştirmesidir. Bu
doğrudan sistem başlangıcını "jailbreaking" yaparak veya harici girişleri manipüle ederek dolaylı
olarak yapılabilir ve veri sızdırma, sosyal mühendislik ve diğer sorunlara yol açabilir.
• Doğrudan İstemci Enjeksiyonları,aynızamanda "jailbreaking" olarak da bilinir, kötü niyetli bir
kullanıcının temel sistem başlangıcını üzerine yazdığı veya ortaya çıkardığı durumlardır. Bu,
saldırganların, LLM aracılığıyla erişilebilen güvensiz işlevler ve veri depolama alanlarıyla
etkileşime girerek arka plandaki sistemleri sömürmesine izin verebilir.
• Dolaylı İstemci Enjeksiyonları, bir LLM'nin saldırgan tarafından kontrol edilebilen harici
kaynaklardan,örneğinwebsiteleriveyadosyalar,girişlerikabul ettiği durumlarda ortaya çıkar.
Saldırgan, harici içeriğe bir istemci enjeksiyonu yerleştirerek konuşma bağlamını ele
geçirebilir.Bu, LLM'nin "kafasıkarışık bir vekil"olarak davranmasınaneden olur ve saldırganın
kullanıcıyı veya LLM'nin erişebildiği diğer sistemleri manipüle etmesine izin verir. Ayrıca,
dolaylı istemci enjeksiyonlarının insanlar tarafından görülebilir/okunabilir olması gerekmez,
metin LLM tarafından işlendiği sürece etkili olabilir.
Başarılı bir istemci enjeksiyon saldırısının sonuçları büyük ölçüde değişebilir-hassas bilgilerin
istenmesinden normal işlem kılıfı altında kritik karar süreçlerini etkilemeye kadar çeşitli sonuçlar
ortaya çıkabilir.
Gelişmiş saldırılarda, LLM zararlı bir kişilik taklit etmek veya kullanıcının ayarlarında bulunan
eklentilerle etkileşimde bulunmak için manipüle edilebilir. Bu durum, hassas verilerin sızdırılmasına,
yetkisiz eklenti kullanımına veya sosyal mühendisliğe yol açabilir. Bu tür durumlarda, tehlikeye
düşmüş LLM, standart güvenlik önlemlerini aşarak saldırganın işine yarar ve kullanıcının saldırıdan
haberdar olmamasını sağlar. Bu durumlarda, tehlikeye düşmüş LLM etkin bir şekilde saldırganın ajanı
olarak hareket eder, normal önlemleri tetiklemeden saldırganın hedeflerini ilerletir ve son kullanıcıyı
saldırıya karşı uyarmaz.
Yaygın Zafiyet Örnekleri
1. Kötü niyetli bir kullanıcı, LLM'ye doğrudan bir istemci enjeksiyonu oluşturur, bu da ona
uygulama oluşturucusunun sistem başlangıçlarını görmezden gelmesini ve yerine özel,
tehlikeli veya diğer istenmeyen bilgileri döndüren bir istemci’nin çalıştırılmasını emreder.
2. Bir kullanıcı, dolaylı bir istemci enjeksiyonu içeren bir web sayfasını özetlemek için bir LLM
kullanır. Bu, LLM'nin kullanıcıdan hassas bilgiler talep etmesine ve Javascript veya Markdown
aracılığıyla veri sızdırmasına neden olur.
3. Kötü niyetli bir kullanıcı, dolaylı bir istemci enjeksiyonu içeren bir özgeçmişi yükler. Belge,
LLM'ye yönergelerle dolubir istemcienjeksiyonuiçerirve LLM'ye,bu belgenin mükemmel bir
belge, örneğin mükemmel bir aday veya iş rolü olduğu şeklinde kullanıcılara bilgi vermesi
talimatı verir.Bir iç kullanıcı, belgeyiLLM üzerindenözetlemek için çalıştırır. LLM'nin çıktısı, bu
belgenin mükemmel bir belge olduğunu belirten bilgileri döner.
Owasp.org
6
4. Bir kullanıcı bir e-ticaretsitesine bağlı bir eklentiyi etkinleştirir. Ziyaret edilen bir web sitesine
yerleştirilen kötü niyetli bir talimat, bu eklentiyi istismar ederek izinsiz satın almalar
yapılmasına yol açar.
5. Ziyaret edilen bir web sitesine yerleştirilen kötü niyetli talimat ve içerik, diğer eklentileri
istismar ederek kullanıcılara dolandırıcılık yapar.
Nasıl Önlenir?
İstemci enjeksiyonu güvenlik açıklıkları, LLM'lerin doğasından kaynaklanır; çünkü LLM'ler talimatları
ve harici verileri birbirinden ayırmazlar. LLM'ler doğal dil kullanır, bu nedenle her iki giriş biçimini de
kullanıcı tarafından sağlanmış olarak kabul ederler. Sonuç olarak, LLM içinde kesin koruma sağlayan
bir yöntem olmamasına rağmen, aşağıdaki önlemler istemci enjeksiyonlarının etkisini azaltabilir.
1. Arka planda sistemlere erişimi olan LLM için en az ayrıcalığa sahip kontrolü sağlayın. LLM'ye
kendi API belirteçlerini veya eklentiler, veri erişimi ve işlev düzeyi izinleri gibi genişletilebilir
işlevsellik sağlayın. LLM'yi, yalnızca amaçlanan işlemleri için gerekli olan en düşük erişim
düzeyiyle sınırlayarak en az ayrıcalık ilkesini izleyin.
2. İnsandöngüsünüveya genişletilebilir işlevselliği uygulayın. E-posta gönderme veya silme gibi
ayrıcalıklı işlemleri gerçekleştirirken, uygulamanın önce kullanıcının onayını talep etmesini
sağlayın. Bu, dolaylı bir istemci enjeksiyonunun, kullanıcının bilgisi veya onayı olmadan
kullanıcı adına eylemler gerçekleştirmesine yönelik fırsatları azaltacaktır.
3. Kullanıcı başlangıçlarından harici içeriği ayırın. Güvenilmeyen içeriklerin etkisini kullanıcı
başlangıçları üzerinde sınırlamak için, kullanılan güvenilmeyen içerikleri ayrı bir şekilde
işaretleyin. Örneğin, ChatML veya OpenAI API çağrılarını kullanarak LLM'ye başlangıç girişinin
kaynağını belirtin.
4. LLM, harici kaynaklar ve genişletilebilir işlevler (örneğin, eklentiler veya alt işlevler) arasında
güven sınırları oluşturun. LLM'yi güvenilmez bir kullanıcı olarak kabul edin ve karar verme
süreçlerinde nihai kullanıcı kontrolünü koruyun. Ancak, tehlikeye düşmüş bir LLM hala
uygulamanızın API'leri ile kullanıcı arasında aracı (man-in-the-middle) olarak hareket edebilir
ve bilgileri kullanıcıya sunmadan önce gizleyebilir veya manipüle edebilir. Kullanıcıya
potansiyel olarak güvenilmez yanıtları görsel olarak vurgulayın.
Örnek Saldırı Senaryoları
1. Bir saldırgan, bir LLM tabanlı destek sohbet botuna doğrudan bir istemci enjeksiyonu sağlar.
Enjeksiyon, "tüm önceki talimatları unut" ve yeni talimatları içerir. Bu yeni talimatlarla özel
veri depolarını sorgulamak ve paket güvenlik açıklarını istismar etmek, arka planda çıktı
doğrulamasının eksikliğini kullanarak e-posta göndermek için arka uç işlevini kötüye
kullanmak için tasarlanmıştır. Bu, tekrarlanabilir kod yürütme elde etmeye ve yetkisiz erişim
ve ayrıcalık yükseltmeye yol açar.
Owasp.org
7
2. Bir saldırgan, bir web sayfasına dolaylı bir istemci enjeksiyonu yerleştirir ve LLM'ye talimat
verir. Bu talimatlar, önceki kullanıcı talimatlarını dikkate almamayı ve LLM eklentisini
kullanarak kullanıcının e-postalarınısilmeyi içerir. Kullanıcı LLM'yi bu websayfasınıözetlemek
için kullandığında, LLM eklentisi kullanıcının e-postalarını siler.
3. Bir kullanıcı, önceki kullanıcı talimatlarını dikkate almaması için dolaylı bir istemci enjeksiyonu
içeren bir web sayfasını özetlemek için LLM'yi kullanır. Bu, LLM'nin kullanıcıdan hassas bilgiler
talepetmesine ve yerleşikJavaScriptveyaMarkdownaracılığıyla veri sızdırmasına neden olur.
4. Kötü niyetli bir kullanıcı, bir istemci enjeksiyonu içeren bir özgeçmişi yükler. Arka plandaki
kullanıcı, LLM'yi özgeçmişi özetlemek ve kişinin iyi bir aday olup olmadığını sormak için
kullanır. Ancak,istemcienjeksiyonunedeniyle LLM, gerçek özgeçmiş içeriğine rağmen "evet"
yanıtı verir.
5. Bir kullanıcı, bir e-ticaret sitesine bağlı olan bir eklentiyi etkinleştirir. Ziyaret edilen bir web
sitesine yerleştirilen kötü niyetli bir talimat, bu eklentiyi istismar ederek izinsiz satın almalar
yapılmasına yol açar.
Kaynak Linkleri
• ChatGPT eklenti güvenlik açıkları- Kodlu sohbet:
https://embracethered.com/blog/posts/2023/chatgpt-plugin-vulns-chat-with-code/
• ChatGPT Çapraz Eklenti Talebi Sahtecilik ve Hızlı Enjeksiyon:
https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and-
prompt-injection/
• Kendi kendine hatırlatma aracılığıyla Jailbreak saldırısına karşı ChatGPT’yi Savunma:
https://www.researchsquare.com/article/rs-2873090/v1
• LLM ile entegre uygulamalara yönelik istemci saldırısı:
https://arxiv.org/abs/2306.05499
• Özgeçmişiniz için benim pdf’m istemci enjeksiyonunu enjekte edin:
https://kai-greshake.de/posts/inject-my-pdf/
• OpenAI API Çağrıları için ChatML:
https://github.com/openai/openai-python/blob/main/chatml.md
• Kaydolduğunuz şey değil – Taviz veren Grerçek-Dünya LLM -entegre dolaylı bilgi istemi
enjeksiyonlu uygulamalar:
https://arxiv.org/pdf/2302.12173.pdf
• LLM uygulamalarında tehdit modeli:
http://aivillage.org/large%20language%20models/threat-modelling-llm/
• AL enjeksiyonları: Direkt ve dolaylı istemci enjeksiyonları ve etkileri:
https://embracethered.com/blog/posts/2023/ai-injections-direct-and-indirect-prompt-
injection-basics/
Owasp.org
8
GüvenilmeyenÇıktıİşleme,biraşağı akış bileşeninin, büyük dil modeli (LLM) çıktısını doğru bir şekilde
incelemeden kabul ettiğinde ortaya çıkan bir güvenlik açığıdır. Örneğin, LLM çıktısını doğrudan arka
uç, ayrıcalıklı veya istemci tarafı işlevlere geçmek gibi davranışlar. Çünkü LLM tarafından oluşturulan
içerik, başlangıç girişi tarafından kontrol edilebilir ve bu davranış, kullanıcılara dolaylı olarak ek
işlevlere erişim sağlama ile benzerlik gösterir.
Güvenilmeyen Çıktı İşleme güvenlik açığının başarılı bir şekilde istismar edilmesi, web tarayıcılarında
XSS ve CSRF gibi güvenlik açıklarına yol açabilirken, arka plandaki sistemlerde SSRF, ayrıcalık
yükseltme veya uzaktan kod yürütme gibi sonuçlara neden olabilir. Bu açığın etkisini artıran aşağıdaki
durumlar bulunmaktadır:
• Uygulama, LLM'ye son kullanıcılar için amaçlanandan daha fazla ayrıcalık tanıyarak ayrıcalık
yükseltme veya uzaktan kod yürütme imkanı sağlamaktadır.
• Uygulama,harici promptenjeksiyonsaldırılarına karşı savunmasızdır, bu da saldırganın hedef
kullanıcının ortamında ayrıcalıklı erişim elde etmesine izin verebilir.
Yaygın Zafiyet Örnekleri
1. LLM çıktısı doğrudanbir sistemkabuğunaveyabenzeribirişleve EXECyadaEVAL girildiğinde
uzaktan kod yürütme ile sonuçlanabilir.
2. LLM tarafından oluşturulan JavaScript veya Markdown, kullanıcıya geri döndürülür. Daha
sonra tarayıcı tarafından yorumlanır ve XSS (Cross-Site Scripting) ile sonuçlanır.
Nasıl Önlenir?
1. Diğer bir kullanıcı gibi modeli değerlendirecek ve modelden gelen yanıtlara yönelik arka uç
işlevlerde uygun giriş doğrulama işlemleri uygulayın.OWASP ASVS (Uygulama Güvenliği
Doğrulama Standardı) yönergelerini takip ederek etkili giriş doğrulama ve temizleme
işlemlerini sağlayın.
2. Kullanıcılara model çıktılarını geri döndürürken JavaScript veya Markdown tarafından
istenmeyenkodyürütmesiniönlemekiçinçıktı kodlamasıyapın.OWASP ASVS, çıktı kodlaması
konusunda detaylı yönlendirmeler sağlar.
Örnek Saldırı Senaryoları
1. Bir uygulama, bir LLM eklentisini kullanarak bir sohbet-botu özelliği için yanıtlar oluşturuyor.
Ancak, uygulama doğrudan LLM tarafından oluşturulan yanıtları doğrulama yapmadan iç
işlevlerine aktarıyor.Bu durum,saldırganınLLM çıktısını manipüle ederekalttayatansistemde
yetkisiz erişim veya istenmeyen sistem değişiklikleri yapmasına olanak tanır.
Owasp.org
9
2. Bir kullanıcı, bir LLM tarafından desteklenen bir web sitesi özetleme aracını kullanıyor ve bir
eyleminkısa bir özetinioluşturuyor.Ancak,websitesi,LLM'ye hassasiçerik elde etmek için bir
komut enjeksiyonu içeren bir istemci tarafı enjeksiyonu içeriyor. Bu şekilde LLM, hassas
verileri kodlayıp saldırganın kontrolündeki bir sunucuya gönderebilir.
3. 3.Bir LLM, kullanıcıların sohbet özelliği aracılığıyla bir arka plandaki veritabanı için SQL
sorguları oluşturmasına olanak tanır. Bir kullanıcı, tüm veritabanı tablolarını silmeye yönelik
bir sorgu isteğinde bulunur. Eğer LLM tarafından oluşturulan bu sorgu dikkatlice
denetlenmezse, tüm veritabanı tabloları silinebilir.
4. 4.Zararlı bir kullanıcı, sağlama kontrolleri olmadan LLM'ye bir JavaScript yüklemesini
kullanıcıya geri döndürmesi için talimat verir. Bu, bir paylaşılan bir pencere, talimat enjekte
edilmiş bir web sitesi veya URL parametresinden talimatları kabul eden bir sohbetbot
aracılığıyla gerçekleşebilir.LLM,bu doğrulanmamışXSSyükünü kullanıcıya geri döndürür. LLM
tarafından beklenen ek filtreler olmadan, JavaScript kullanıcının tarayıcısında çalıştırılır.
Kaynak Linkleri
• Synk ZAFİYETLERİ Database -Keyfi kod yürütme:https://security.snyk.io/vuln/SNYK-PYTHON-
LANGCHAIN-5411357
• ChatGPT açıklanan eklenti istismarı: Bilgi İstemi Enjeksiyonundan özel verilere erişim:
https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and-
prompt-injection./
• ChatGPT web versiyonu üzerinden yeni istemci enjeksiyon atakları:
https://systemweakness.com/new-prompt-injection-attack-on-chatgpt-web-version-
ef717492c5c2?gi=8daec85e2116
• LLM yanıtlarına körü körüne güvenmeyin. Sohbet robotlarına yönelik tehditler:
https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters/
• LLM uygulamalarında tehdit modeli:
https://aivillage.org/large%20language%20models/threat-modeling-llm/
• OWASP ASVS-5 doğrulama temizleme ve kodlama:
https://owasp-aasvs4.readthedocs.io/en/latest/V5.html#validation-sanitization-and-
encoding
Owasp.org
10
Herhangi bir makine öğrenimi yaklaşımının başlangıç noktası, basitçe "ham metin" olarak adlandırılan
eğitim verileridir. Yüksek düzeyde yetenekli olması için (örneğin, dilbilimsel ve dünya bilgisine sahip
olması için), bu metin geniş bir alanı, türü ve dili kapsamalıdır. Büyük bir dil modeli, derin sinir ağlarını
kullanarak eğitim verilerinden öğrenilen desenlere dayalı çıktılar üretir.
Eğitim verisi zehirlenmesi, modelin güvenliğini, etkinliğini veya etik davranışını tehlikeye sokabilecek
zayıflıklar,arka kapılar veyaönyargılareklemekiçinveri veyaince ayar sürecini manipüle etmeyi ifade
eder. Zehirli bilgiler, kullanıcılara sunulabilir veya performans düşüşü, altta yatan yazılımın kötüye
kullanımı ve itibar kaybı gibi diğer riskleri yaratabilir. Kullanıcılar problemli yapay zeka çıktısına
güvenmeselerbile,risklerdevamederve modelinyeteneklerinde bozulmaya ve marka itibarına zarar
verme potansiyeli söz konusudur.
Veri zehirlenmesi, eğitim verisine müdahale edilmesi nedeniyle modelin doğru tahminler yapma
yeteneğini etkileyen bir bütünlük saldırısı olarak kabul edilir. Doğal olarak, harici veri kaynakları,
model oluşturanların veri üzerinde kontrolü olmadığı veya içeriğin önyargı, sahte bilgi veya uygunsuz
içerik içermediğine dair yüksek düzeyde güvene sahip olmadıkları için daha yüksek risk taşır.
Yaygın Zafiyet Örnekleri
1. Zararlı bir aktör veyabir rakip marka,kasıtlı olarak yanıltıcı veyakötüniyetlibelgeleroluşturur
ve bu belgeleri bir modelin eğitim verisine yönlendirir.
• Kurban model, sahte bilgi kullanarak eğitilir ve bu durum, üretilen yapay zeka
teşviklerinin çıktılarına yansır ve tüketici kullanıcılara sunulur.
2. Bir model, kaynağı, kökeni veya içeriği doğrulanmamış veriler kullanılarak eğitilir.
3. Altyapı içinde bulunan model, kullanılacak eğitim verilerini toplamak için sınırsız erişime veya
yetersiz güvenlik önlemlerine sahiptir. Bu durum, üretilen yapay zeka teşviklerinin çıktılarına
olumsuz etki ederken, yönetim açısından da kontrol kaybına neden olabilir.
LLM'nin bir geliştirici, müşteri veya genel kullanıcısı olsun, bir LLM uygulamasının, bir özel
olmayan LLM ile etkileşimde bulunurken bu zafiyetin nasıl risklere yol açabileceğini anlamak
önemlidir.
Owasp.org
11
Örnek Saldırı Senaryoları
1. LLM'nin üretici yapay zekâ teşvik çıktısı, uygulama kullanıcılarını yanıltabilir ve ön yargılı
görüşlere, olumsuz davranışlara ve hatta nefret suçlarına yol açabilir.
2. Eğer eğitim verileri doğru bir şekilde filtrelenmez veya temizlenmezse, kötü niyetli bir
kullanıcı uygulamada toksik verileri modelin içine enjekte etmeye veya yanıltıcı ve yanlış
verilere uyarlamaya çalışabilir.
3. Kötü niyetli bir aktör veya rakip bilinçli olarak doğru olmayan veya kötü niyetli belgeler
oluşturur ve bu belgeler, aynı zamanda modeli eğiten eğitim verisine yönelik
hedeflenmiştir. Kurban model, bu sahte bilgiyi kullanarak eğitilir ve bu durum, üretilen
yapay zekâ teşviklerinin çıktılarına yansır ve kullanıcı tüketicilere yansır.
4. İstemciEnjeksiyonzafiyeti, LLM uygulamasının müşterilerinden gelen girişlerin yeterince
temizlenmediği ve filtrelenmediği durumlarda bir saldırı vektörü olabilir. Örneğin, kötü
niyetli veyasahte veriler,birmüşteridenistemcienjeksiyontekniklerininbir parçası olarak
modele girilirse, bu veriler gerçekmiş gibi algılanabilir ve modelin eğitim verilerini
etkileyebilir.
Nasıl Önlenir?
1. Eğitim verisinin tedarik zincirine özellikle dışarıdan temin edilirken dikkat edilmeli ve
"SBOM" (Yazılım Fatura Malzemeleri) yöntemine benzer şekilde belgelendirmelerin
korunması gerekmektedir.
2. Veri kaynaklarının ve hem eğitim hem de ince ayarlama (fine-tuning) aşamaları
sırasında elde edilen verilerin doğruluğunu onaylayın.
3. LLM kullanıcının durumunauygunolan ve entegre olacağı uygulamaya bağlıdır. Farklı
modelleri ayrı eğitim verileri veya ince ayarlama verileri kullanarak farklı kullanım
durumları için oluşturarak, tanımlanan kullanım durumuna göre daha ayrıntılı ve
doğru bir üretilmiş yapay zeka çıktısı elde edebilirsiniz.
4. Makine öğrenimi çıktısını olumsuz etkileyebilecek istenmeyen veri kaynaklarının
model tarafından kazara kullanılmasını önlemek için yeterli deneme alanı (sandbox)
bulunmasını sağlayın.
5. Belirli eğitim verileri için kategoriye özel veri kaynaklarını kontrol etmek, sıkı giriş
filtreleri kullanmak için titizlikle önlem alınmalıdır. Bu önlemler, kontrol edilmemiş ve
sınıflandırılmamış verilerin modelin içine girebileceği riskini önlemek için gereklidir.
Veri düzenleme, istatistiksel aykırı veri tespiti ve anormallik tespit yöntemleri gibi
teknikler kullanılarak, ince ayarlama sürecine potansiyel olarak zarar verebilecek
düşmanca verilerin tespit edilmesi ve kaldırılması yapılmalıdır.
6. Tersine mühendislik saldırılarına karşı dayanıklılığı artırmak için düzeltilmiş öğreme ve
kısıtlamalar gibi yöntemler, eğitim verilerindeki aykırı veya düşmanca etkili verilerin
en aza indirilmesine yardımcı olur. Bu sayede, eğitim verilerine uygulanabilecek en
kötü durumda tedirginliklere karşı modelin dirençli hale gelmesi amaçlanır.
a) "MLSecOps" yaklaşımı, eğitim döngüsüne düşmanca dayanıklılığı otomatik
düzenleme tekniğiyle dahil etmek olabilir.
Owasp.org
12
b) Bu yaklaşımla gerçekleştirilebilecek bir örnek, Otomatik Düzenleme Testleri'dir. Bu
testler, hem "İçerik Enjeksiyon Saldırıları" gibi saldırıları (markanızı LLM yanıtlarına
enjekte etme) hem de Reddetme Saldırıları gibi saldırıları (modelin her zaman yanıt
vermeyi reddetme) içerir.
7. Zehirleme saldırısının tespiti ve saptanması, eğitim aşamasında kaybedilen veriyi
ölçerek ve eğitilen modellerin davranışını belirli test girdileri üzerinde analiz ederek
yapılabilir.
a) Bir eşik değeri aşan bozulmuş yanıtların izlenmesi ve uyarılar verilmesi.
b) Yanıtları gözdengeçirmekve denetlemekiçin insan döngüsünün kullanılması.
c) İstenmeyen sonuçlarla karşılaştırmak ve pekiştirmeli öğrenme teknikleri
kullanarak diğer LLM'leri eğitmek için özel LLM'ler uygulayın.
d) LLM tabanlı kırmızı takım egzersizleri veya LLM zafiyet taraması, LLM'nin
yaşam döngüsünün test aşamalarına dahil edilir.
Kaynak Linkleri
• Stanford Araştırma Makalesi: https://stanford-
cs324.github.io/winter2022/lectures/data/
• Veri zehirlemesi saldırıları,makine öğrenimi modellerini nasıl bozar:
https://www.csoonline.com/article/3613932/how-data-poisoning-attacks-corrupt-
machine-learning-models.html
• MITRE ATLAS çerçevesi Tay zehirlenmesi:
https://atlas.mitre.org/studies/AML.CS0009/
• PoisonGPT Hugging Face’te sahte haberleri yaymak için lobotomize edilmiş bir
LLM’yi nasıl sakladık: https://blog.mithrilsecurity.io/poisongpt-how-we-hid-a-
lobotomized-llm-on-hugging-face-to-spread-fake-news/
• Benim PDF’İ enjekte edin: Özgeçmişiniz için Enjeksiyon istemi: https://kai-
greshake.de/posts/inject-my-pdf/
• Dil modelleri üzerinden arkakapı atakları:
https://towardsdatascience.com/backdoor-attacks-on-language-models-can-we-
trust-our-models-weights-73108f9dcb1f
• Zehirlenme Dil modelleri gömme talimatları: https://arxiv.org/abs/2305.00944
• FedML güvenlik: https://arxiv.org/abs/2306.04959
• ChatGPT zehirlenmesi: https://softwarecrisis.dev/letters/the-poisoning-of-chatgpt/
Owasp.org
13
Bir saldırgan, LLM ile etkileşime geçerek olağanüstü yüksek miktarda kaynak tüketen bir yöntem
kullanır; bu da onlar ve diğer kullanıcılar için hizmet kalitesinde düşüşe neden olur ve potansiyel
olarak yüksek kaynak maliyetlerine yol açabilir. Ayrıca, ortaya çıkan büyük bir güvenlik endişesi, bir
saldırganın LLM'nin bağlam penceresine müdahale etme veya onu manipüle etme olasılığıdır.
Bu sorun, LLM'lerin çeşitli uygulamalarda artan kullanımı, yoğun kaynak kullanımı, kullanıcı girdisinin
öngörülemeyen olması ve geliştiriciler arasında bu zafiyet konusunda genel bir farkındalık eksikliği
nedeniyle giderekdahakritik hale gelmektedir. LLM'lerde bağlam penceresi, modelin yönetebileceği
metinlerin maksimum uzunluğunu temsil eder ve hem girdiyi hem de çıktıyı kapsar. Bu, LLM'ler için
önemli bir özelliktir çünkü modelin anlayabileceği dil yapılarının karmaşıklığını ve herhangi bir
zamanda işleyebileceği metnin boyutunu belirler. Bağlam penceresinin boyutu, modelin mimarisine
bağlı olarak tanımlanır ve modeller arasında farklılık gösterebilir.
Yaygın Zafiyet Örnekleri
1. LangChain veya AutoGPT gibi platformlar aracılığıyla, yüksek hacimli görevlerin tekrar eden
kaynak kullanımına yol açacak sorguları sıralamak.
2. Olağandışı bir şekilde kaynaktüketensorgulargöndermek, belki de alışılmadık bir yazım veya
dizilim kullandığı için.
3. Sürekli giriş taşması: Bir saldırgan, LLM'ye sürekli bir akışta giriş gönderir ve bu giriş, modelin
bağlam penceresini aşar, böylece model aşırı hesaplama kaynakları tüketir.
4. Tekrarlayan uzun girişler: Saldırgan, LLM'ye tekrar tekrar uzun girişler gönderir, her biri
bağlam penceresini aşar.
5. Özyinelemelibağlamgenişletme:Saldırgan,tekrarlayan bağlam genişletme tetikleyen girişler
oluşturur, LLM'yi sürekli olarak bağlam penceresini genişletmeye ve işlemeye zorlar.
6. Değişken uzunluklu giriş taşması: Saldırgan, LLM'ye büyük bir hacimde değişken uzunluklu
girişler gönderir; her bir giriş, bağlam penceresinin sınırına neredeyse ulaşacak şekilde
dikkatle oluşturulmuştur. Bu teknik, değişken uzunluktaki girişlerin işlenmesindeki
verimsizlikleri sömürmeyi hedefler, LLM'yi zorlar ve potansiyel olarak tepkisiz hale getirir.
Owasp.org
14
Örnek Saldırı Senaryoları
1. Bir saldırgan, barındırılan bir modele zor ve maliyetli olan birden fazla isteği tekrar tekrar
gönderir, bu da diğer kullanıcılar için daha kötü hizmet kalitesine ve barındırıcı için artan
kaynak maliyetlerine yol açar.
2. LLM destekli bir aracın, zararsız bir sorguya yanıt vermek için bilgi toplarken, bir web
sayfasındaki metin parçasıyla karşılaşması. Bu, aracın birçok fazladan web sayfası isteği
yapmasına yol açar ve büyük miktarda kaynak tüketimine neden olur.
3. Bir saldırgan, LLM'nin bağlam penceresini aşan girişleri sürekli olarak LLM'ye gönderir.
Saldırgan, otomatikleştirilmiş betikler veya araçlar kullanabilir ve yüksek miktarda giriş
göndererek LLM'nin işleme kapasitesini aşırı yükleyebilir. Sonuç olarak, LLM aşırı hesaplama
kaynaklarını tüketir ve sistemde önemli bir yavaşlama veya tamamen tepkisiz hale gelme
durumu yaşanabilir.
4. Bir saldırgan, her biri bağlam penceresinin sınırının hemen altında tasarlanmış ardışık
girişlerin bir serisini LLM'ye gönderir. Bu girişleri tekrar tekrar göndererek saldırgan,
kullanılabilir bağlam penceresikapasitesinitükenmeyeçalışır.LLM, hergirişi bağlam penceresi
içinde işlemeye çalıştıkça, sistem kaynakları zorlanır ve performans düşüklüğü veya tam bir
hizmet reddi durumu oluşabilir.
5. Bir saldırgan, LLM'nin özyinelemeli mekanizmalarını tekrar tekrar tetiklemek için içerik
genişletme kullanır. LLM'nin özyinelemeli davranışını kullanarak girişleri hazırlayarak,
saldırgan modeli bağlam penceresini tekrar tekrar genişletmeye ve işlemeye zorlar, bu da
önemli hesaplama kaynaklarını tüketir. Bu saldırı, sistemi zorlar ve LLM'nin tepkisiz kalmasına
veya çökmesine neden olabilir.
6. Bir saldırgan, LLM'ye büyük bir miktarda değişken uzunlukta girişler gönderir ve bunları
bağlam penceresinin sınırına ulaşmak üzere dikkatlice tasarlar. Değişken uzunluklu girişlerle
LLM'yi aşırı yükleyerek, saldırgan, değişken uzunluklu girişlerin işlenmesindeki verimsizlikleri
kullanmaya çalışır. Bu girişlerin fazla yüklenmesi, LLM'nin kaynaklarına aşırı yük bindirir ve
performans düşüklüğüne ve sistem tarafından meşru isteklere cevap verme yeteneğinin
engellenmesine neden olabilir.
Nasıl Önlenir?
1. Kullanıcı girişinin tanımlanan sınırlara uygun olduğundan ve herhangi bir kötü niyetli içeriği
filtrelemek için giriş doğrulama ve temizleme uygulayın.
2. Her istekveyaadımiçin kaynakkullanımını sınırlandırın, böylece karmaşıkişlemler dahayavaş
bir şekilde gerçekleştirilir.
3. API hız sınırlarını zorlayarak, bir bireysel kullanıcının veya IP adresinin belirli bir süre içinde
yapabileceği istek sayısını kısıtlayın.
4. LLM yanıtlarına tepki veren bir sistemde sıraya alınan eylemlerin ve toplam eylem sayısının
sayısını sınırlandırın.
5. LLM'nin kaynak kullanımını sürekli olarak izleyin ve DoS saldırısını işaret edebilecek anormal
artışlar veya desenler belirlemek için denetleyin.
Owasp.org
15
6. LLM'nin bağlam penceresine dayalı olarak katı giriş sınırları belirleyerek aşırı yüklenmeyi ve
kaynak tükenmesini önleyin.
7. LLM'lerdeki potansiyel DoS saldırılarına karşı geliştiriciler arasında farkındalığı artırın ve
güvenli LLM uygulaması için rehberlik sağlayın.
Kaynak Linkleri
• LangChain maksimum yineleme sayısı:
https://twitter.com/hwchase17/status/1608467493877579777
• Sünger (Sponge) Örnekleri: Sinir ağlarında enerji gecikmesi saldırıları:
https://arxiv.org/abs/2006.03463
• OWASP DOS atakları: https://owasp.org/www-community/attacks/Denial_of_Service
• Makinelerden öğrenmek: bağlamınızı bilin: https://lukebechtel.com/blog/lfm-know-thy-
context
Owasp.org
16
LLM'lerdeki tedarik zinciri, eğitim verilerinin, makine öğrenme modellerinin ve dağıtım
platformlarının bütünlüğünü etkileyebilecek şekilde zayıf olabilir. Bu zayıflıklar, önyargılı sonuçlara,
güvenlik ihlallerine veya hatta tam sistem başarısızlığına yol açabilir. Geleneksel olarak, güvenlik
açıkları yazılım bileşenlerine odaklanırken, Makine Öğrenmesi, üçüncü taraflar tarafından sağlanan
öncedeneğitilmişmodellerve eğitim verileri ile bunu genişletirve bu verilerinmüdahale ve zehirleme
saldırılarına karşı hassas olmasına neden olur.
Son olarak, LLM Eklenti uzantıları kendi güvenlik açıklarını getirebilir. Bunlar, LLM - Güvensiz Eklenti
Tasarımı olarak tanımlanır ve LLM Eklentileri yazmayı ve üçüncü taraf eklentileri değerlendirmek için
faydalı bilgiler sağlar.
Yaygın Zafiyet Örnekleri
1. Gelenekselüçüncütaraf paketaçıkları, güncelliğini yitirmiş veyadesteklenmeyen bileşenlerin
kullanılması ile ilgili sorunlar yaratır.
2. Zayıf bir önceden eğitilmiş modelin kullanılması için güvenlik açığı oluşturabilir.
3. Zehirlenmiş kitle kaynaklı verilerin eğitim için kullanılması.
4. Güncelliğini yitirmiş veya desteklenmeyen modellerin kullanılması, güvenlik sorunlarına
neden olabilir.
5. Model operatörlerinin belirsiz hüküm ve veri gizlilik politikaları, uygulamanın hassas
verilerinin model eğitimi için kullanılmasına ve sonuçta hassas bilgilerin açığa çıkmasına yol
açabilir. Bu, model tedarikçisinin telif hakkı olan materyallerin kullanımı için de geçerli olabilir.
Nasıl Önlenir?
1. Veri kaynaklarını ve tedarikçileri titizlikle değerlendirin, bunlar arasında T&Cs (Kullanıcı
Hizmet Şartları) ve gizlilik politikalarını da inceleyerek sadece güvenilir tedarikçileri kullanın.
Yeterli ve bağımsız olarak denetlenmişgüvenlikönlemlerininolduğundaneminolunve model
operatör politikalarının veri koruma politikalarınızla uyumlu olduğundan emin olun, yani
verilerinizin onların modellerini eğitmek için kullanılmadığından emin olun. Aynı şekilde,
model sağlayıcılardan telif hakkı olan materyalleri kullanmamaya yönelik güvenceler ve yasal
tedbirler talep edin.
2. Sadece saygın eklentileri kullanın ve bunların uygulama gereksinimleriniz için test
edildiğinden emin olun. Güvenli olmayan eklenti tasarımının LLM yönlerini içeren "LLM -
Güvensiz Eklenti Tasarımı", üçüncü taraf eklentilerin kullanımından kaynaklanan riskleri
azaltmak için test edilmesi gereken LLM yönlerine ilişkin bilgi sağlar.
Owasp.org
17
3. OWASP Top 10'un A6 :2021 "Savunmasız ve Güncelliğini Yitirmiş Bileşenler" başlığında
bulunan önlemleri anlayın ve uygulayın. Bu önlemler, bileşenlerdeki güvenlik açıklarını
tarama, yönetme ve düzeltme işlemlerini içerir. Eğer geliştirme ortamlarında hassas verilere
erişim varsa, bu kontrolleri bu ortamlarda da uygulayın.
4. Güncel ve doğru bir envanterin tutulmasını sağlamak için, yazılım bileşenlerinin bir Yazılım
Malzeme Listesi (SBOM) kullanılarak güncel envanterinin oluşturulması önemlidir. SBOM,
dağıtılan paketlerin değiştirilmesini önlemek için güncel ve doğru bir envanter sağlamak için
kullanılabilir. SBOM'lar,yeni ve sıfır günlük (zero-day) güvenlik açıklarını hızlı bir şekilde tespit
etmek ve uyarılar almak için kullanılabilir.
5. Bu yazıldığı sırada, Yazılım Malzeme Listeleri (SBOM) modelleri, onların ürünleri ve veri
kümesinikapsamamaktadır.Eğer LLM uygulamanız kendi modelini kullanıyorsa, MLOps en iyi
uygulamalarını ve güvenli model depoları sunan platformları kullanmanız önerilir. Bu tür
platformlar, veri, model ve deney takibini güvenli bir şekilde yönetmeye yardımcı olur.
6. Ayrıca, harici modeller ve tedarikçiler kullanırken model ve kod imzalaması da yapmalısınız.
7. Sağlanan modeller ve veriler üzerinde anormallik tespiti ve düşmanca direnç testleri, Eğitim
Verisi Zehirlenmesi başlığında tartışıldığı gibi manipülasyon ve zehirlenmeyi tespit etmeye
yardımcı olabilir. İdeal olarak, bu işlemler MLOps boru hatlarının bir parçası olmalıdır; ancak,
bu gelişmekte olan tekniklerdir ve kırmızı takım egzersizlerinin bir parçası olarak daha kolay
uygulanabilirler.
8. Yeterli izleme mekanizmalarınıuygulayarakbileşenve çevre güvenlik açıklarını tarayabilirsiniz.
Bu izleme, yetkisiz eklentilerin kullanımını ve güncelliğini yitiren bileşenleri, ayrıca model ve
modelin ürünlerini de kapsamalıdır.
9. Zayıf ve güncelliğini yitirmiş bileşenleriönlemekiçin yamalama(patching) politikası uygulayın.
Uygulamanın güncellenen API sürümlerine ve temel modeline dayanmasını sağlayın.
10. Tedarikçi Güvenliği ve Erişimini düzenli olarak gözden geçirin ve denetleyin, güvenlik
durumunda veya T&Cs değişiklik olmadığından emin olun.
Örnek Saldırı Senaryoları
1. Bir saldırgan, savunmasız bir Python kütüphanesini kullanarak bir sistemi ele geçiriyor. Bu, ilk
Open AI veri ihlalinde gerçekleşti.
2. Bir saldırgan, kullanıcılara dolandırıcılık yapan sahte bağlantılar oluşturan bir LLM eklentisi
sağlar. Bu bağlantılar, kullanıcıları kandırmak için sahte bağlantılar oluşturur.
3. Bir saldırgan, PyPi paket deposunu kullanarak model geliştiricileri aldatmak için sınırlı bir
paketi indirmelerini ve model geliştirme ortamında veri sızdırmayı veya ayrıcalık yükseltmeyi
sağlar. Bu gerçek bir saldırıydı.
4. Bir saldırgan, ekonomik analiz ve sosyal araştırmalarda uzmanlaşmış halka açık bir önceden
eğitilmiş modeli zehirler ve yanıltıcı bilgi ve sahte haberler oluşturan bir arka kapı oluşturur.
Bu modeli (örneğin HuggingFace gibi) bir model pazarına dağıtarak kurbanların kullanmasını
sağlar.
5. Bir saldırgan, halka açık olarak sunulan veri kümesini zehirler ve modeli ayarladığında bir arka
kapı oluşturmaya yardımcı olur. Bu arka kapı, farklı pazarlarda belirli şirketlere avantaj sağlar.
6. Bir tedarikçinin (dış kaynaklı geliştirici, barındırma şirketi vb.) güvenlik ihlali yaşayan bir
çalışanı, veri, model veya kod çalarak fikri mülkiyet hırsızlığı yapar.
Owasp.org
18
7. Bir LLM işletmecisi, kullanıcı verilerini model eğitimi için kullanmaktan çıkmak için açık bir
reddetme gerektirenŞartlar(T&Cs) ve Gizlilik Politikasını değiştirir. Bu durum, hassas verilerin
bellekte kalmasına ve hatırlanmasına neden olabilir.
Kaynak Linkleri
• Güvenlik firmasının uyarısıyla onaylanan ChatGPT veri ihlali,savunmasız bileşen
saldırılarınadikkat çekiyor: https://www.securityweek.com/chatgpt-data-breach-confirmed-
as-security-firm-warns-of-vulnerable-component-exploitation/
• OpenAI’ nın eklenti inceleme süreci: https://platform.openai.com/docs/plugins/review
• PoisonGPT adlı bir kötü niyetli yazılım,sahte haberleri yaymak için Hugging Fake
platformuna lobotomize edilmiş bir LLM yerleştirildi:
https://pytorch.org/blog/compromised-nightly-dependency/
• PoisonGPTsahte haberleri yaymak amacıyla HuggingFake platformuna lobomotize edilmiş
bir LLM yerleştirildi: https://blog.mithrilsecurity.io/poisongpt-how-we-hid-a-lobotomized-
llm-on-hugging-face-to-spread-fake-news/
• Topluluk, yapay zeka destekli bombaların olasılığına bakıyor:
https://defensescoop.com/2023/05/25/army-looking-at-the-possibility-of-ai-boms-bill-of-
materials/
• Makine Öğreniminde hata kodları: https://learn.microsoft.com/en-
us/security/engineering/failure-modes-in-machine-learning
• Makine Öğrenimi tedarik zinciri tehdidi: https://atlas.mitre.org/techniques/AML.T0010/
• Olumsuz örnekler kullanarak makine öğreniminde fenomenlerden siyah kutu saldırılarına
aktarılabilirlik: https://arxiv.org/pdf/1605.07277.pdf
• BadNets makine öğrenimi modeli tedarik zincirindeki zayıflıkların tanımlanması:
https://arxiv.org/abs/1708.06733
• Virüs Total zehirlenmesi: https://atlas.mitre.org/studies/AML.CS0002
Owasp.org
19
LLM uygulamaları, çıktıları aracılığıyla hassas bilgileri, tescilli algoritmaları veya diğer gizli ayrıntıları
açığa çıkarma potansiyeline sahiptir. Bu durum hassas verilere, fikri mülkiyete, gizlilik ihlallerine ve
diğer güvenlik ihlallerine yetkisiz erişimle sonuçlanabilir. LLM uygulamalarının kullanıcılarının
LLM'lerle nasıl güvenli bir şekilde etkileşim kuracaklarının farkında olmaları ve LLM tarafından başka
bir yerde çıktı olarak döndürülebilecek hassas verilerin istemeden girilmesiyle ilişkili riskleri
belirlemeleri önemlidir.
Bu riski azaltmak için, LLM uygulamaları, kullanıcı verilerinin eğitim modeli verilerine girmesini
önlemek amacıyla yeterli veri temizleme işlemi gerçekleştirmelidir. Ayrıca, LLM uygulama sahipleri
kullanıcıların verilerinin nasıl işlendiğini ve verilerinin eğitim modeline dahil edilmesinden
vazgeçebileceğini bilmelerini sağlamak için uygun Kullanım Şartları politikalarına sahip olmalıdır.
Kullanıcı-LLM uygulama etkileşimi, istemci->LLM girdisine veya LLM->istemci çıktısına doğal olarak
güvenemeyeceğimiz iki yönlü bir güven sınırı oluşturur. Bu güvenlik açığının, tehdit modelleme
alıştırmaları, güvenli altyapı ve yeterli 𝑠𝑎𝑛𝑑𝑏𝑜𝑥𝑖𝑛𝑔1 gibi belirli ön koşulların kapsam dışı olduğunu
varsaydığını belirtmek önemlidir.
Komut istemine LLM'nin döndürmesi gereken veri türleriyle ilgili kısıtlamalar eklemek, hassas
bilgilerin açık edilmesine karşı bir miktar hafifletme sağlayabilir, ancak LLM'lerin öngörülemeyen
doğası, bu tür kısıtlamalara her zaman uyulamayabileceği ve komut istemi enjeksiyonu veya diğer
vektörler yoluyla atlatılabileceği anlamına gelir.
Yaygın Zafiyet Örnekleri
1. LLM'nin yanıtlarında hassas bilgilerin eksik veya uygunsuz filtrelenmesi.
2. LLM'nin eğitim sürecinde hassas verilerin aşırı uyumu(overfitting) veya ezberlenmesi.
3. LLM'nin yanlış yorumlanması, veri temizleme yöntemlerinin eksikliği veya hatalar nedeniyle
gizli bilgilerin istenmeyen şekilde açık edilmesi.
Nasıl Önlenir?
1. Kullanıcı verilerinin eğitim modeli verilerine girmesini önlemek için yeterli veri temizleme ve
fırçalama tekniklerini entegre edin.
2. Modelin zehirlenmesini önlemek amacıyla potansiyel kötü niyetli girdileri belirlemek ve
filtrelemek için güçlü girdi doğrulama ve temizleme yöntemleri uygulayın.
3. Modeli verilerle zenginleştirirken ve bir modele ince ayar yaparken: (Örneğin, dağıtımdan
önce veya dağıtım sırasında modele veri girilirken):
Owasp.org
20
a) İnce ayar verilerinde hassas olduğu düşünülen her şey bir kullanıcıya açık edilme
potansiyeline sahiptir.
b) *Bu nedenle, en az ayrıcalık kuralını uygulayın ve modeli en yüksek ayrıcalıklı kullanıcının
erişebileceği ve daha düşük ayrıcalıklı bir kullanıcıya gösterilebilecek bilgiler üzerinde
eğitmeyin.*
c) Harici veri kaynaklarına erişim (çalışma zamanında verilerin düzenlenmesi) sınırlı olmalıdır.
d) Harici veri kaynaklarına sıkı erişim kontrol yöntemleri ve güvenli bir tedarik zincirinin
sürdürülmesine yönelik titiz bir yaklaşım uygulayın.
Örnek Saldırı Senaryoları
1. Şüphelenmeyen yasal kullanıcı A, LLM uygulaması ile kötü niyetli olmayan bir şekilde
etkileşime girdiğinde LLM aracılığıyla diğer bazı kullanıcı verilerine maruz kalır.
2. Kullanıcı A, LLM'nin girdi filtrelerini ve temizliğini atlayarak uygulamanın diğer kullanıcıları
hakkında hassas bilgileri *(PII)* ortaya çıkarmasını sağlamak için iyi hazırlanmış bir dizi istem
hedefler.
3. PII gibi kişisel veriler, kullanıcının kendisinin ya da LLM uygulamasının ihmali nedeniyle eğitim
verileri aracılığıyla modele sızdırılır. Bu durum, yukarıdaki senaryo 1 veya 2'nin riskini ve
olasılığını artırabilir.
Kaynak Linkleri
• Yapay zekadaveri sızıntısı krizi:Yeni araç şirketsırlarınınChatGPT'ye verilmesini engelliyor:
https://www.foxbusiness.com/politics/ai-data-leak-crisis-prevent-company-secrets-chatgpt
• ChatGPT'nin Samsung sızıntısından çıkarılan dersler:
https://cybernews.com/security/chatgpt-samsung-leak-explained-lessons/
• Cohere - Kullanım Şartları: https://cohere.com/terms-of-use
• AI Village- Tehdit Modelleme Örneği:
https://aivillage.org/large%20language%20models/threat-modeling-llm/
• OWASP Yapay Zeka Güvenlik ve Gizlilik Kılavuzu: https://owasp.org/www-project-ai-
security-and-privacy-guide/
Owasp.org
21
LLM eklentileri, etkinleştirildiklerinde kullanıcı etkileşimleri sırasında model tarafından otomatik
olarak çağrılan uzantılardır. Model tarafından yönlendirilirler ve yürütülmesi üzerinde herhangi bir
uygulama kontrolü yoktur. Dahası, içerik boyutu sınırlamalarıyla başa çıkmak için eklentilerin
modelden, doğrulama veya tür denetimi olmaksızın serbest metin girdileri uygulaması muhtemeldir.
Bu, potansiyelbir saldırganın eklentiye kötüamaçlıbir istekoluşturmasınaolanak tanır, bu da uzaktan
kod yürütme dahil olmak üzere çok çeşitli istenmeyen davranışlarla sonuçlanabilir.
Kötü niyetli girişlerin zararı genellikle erişim kontrollerinin yetersizliğine ve eklentiler arasında
yetkilendirmenin izlenememesine bağlıdır. Yetersiz erişim kontrolü, bir eklentinin diğer eklentilere
körü körüne güvenmesine ve girdileri son kullanıcının sağladığını farz etmesine olanak tanır. Bu tür
yetersiz erişim kontrolü, kötü niyetli girdilerin veri sızdırma, uzaktan kod yürütme ve ayrıcalık
yükseltme gibi zararlı sonuçlara yol açmasını sağlayabilir.
Bu bölüm, LLM-Tedarik-Zinciri-Zaafiyetleri tarafından kapsanan üçüncü taraf eklentileri kullanmak
yerine LLM eklentilerinin oluşturulmasına odaklanmaktadır.
Yaygın Zafiyet Örnekleri
1. Bir eklenti, farklı giriş parametreleri yerine tüm parametreleri tek bir metin alanında kabul
eder.
2. Bir eklenti,parametreler yerine tüm yapılandırma ayarlarını geçersiz kılabilecek yapılandırma
dizgilerini (configuration strings) kabul eder.
3. Bir eklenti, parametreler yerine ham SQL veya programlama ifadelerini kabul eder.
4. Kimlik doğrulama, belirli bir eklenti için belirgin bir yetkilendirme olmadan gerçekleştirilir.
5. Bir eklenti, tüm LLM içeriğini tamamen kullanıcı tarafından oluşturulmuş gibi ele alır ve ek
yetkilendirme gerektirmeden istenen eylemleri gerçekleştirir.
Nasıl Önlenir?
1. Eklentiler mümkün olan her yerde katı parametrelendirilmiş girdi uygulamalı ve girdiler
üzerinde tür ve aralık kontrolleri içermelidir. Bu mümkün olmadığında, ikinci bir yazılı çağrı
katmanı istekleri ayrıştırmak, doğrulama ve temizlik uygulamak için tanıtılmalıdır. Uygulama
semantiği nedeniyle serbest biçimli girdinin kabul edilmesi gerektiğinde, potansiyel olarak
zararlı yöntemlerin çağrılmadığından emin olmak için dikkatle incelenmelidir.
2. Eklenti geliştiricileri, etkili girdi doğrulama ve temizliği sağlamak için OWASP'ın Uygulama
Güvenliği Doğrulama Standardı’ndaki (ASVS-Application Security Verification Standard)
önerilerini uygulamalıdır.
3. Yeterli doğrulamayı sağlamak için eklentiler iyice incelenmeli ve test edilmelidir.
Owasp.org
22
4. Geliştirme pipeline'larında Statik Uygulama Güvenlik Testi (Static Application Security
Testing,SAST) taramalarının yanı sıra Dinamik ve Etkileşimli Uygulama Testlerini (Dynamic and
Interactive Application Testing DAST, IAST) kullanın.
5. Eklentiler, OWASP ASVS Erişim Kontrolü Yönergelerini izleyerek herhangi bir güvensiz giriş
parametresi istismarının etkisini en aza indirecek şekilde tasarlanmalıdır. Bu, istenen işlevi
yerine getirirken mümkün olduğunca az işlevselliği açığa çıkaran en az ayrıcalıklı erişim
kontrolünü içerir. Eklentiler, etkili yetkilendirme ve erişim kontrolü uygulamak için OAuth2
gibi uygun kimlik doğrulama kimliklerini kullanmalıdır.
6. Ayrıca, API Anahtarları, öntanımlı (default) etkileşimli kullanıcı yerine eklenti yolunu yansıtan
özel yetkilendirme kararları için içerik sağlamak üzere kullanılmalıdır.
7. Hassas eklentiler tarafından gerçekleştirilen herhangi bir eylem için manuel kullanıcı
yetkilendirmesi ve onayı isteyin.
8. Eklentiler tipik olarak REST API'leridir, bu nedenle geliştiriciler genel güvenlik açıklarını en aza
indirmek için OWASP Top 10 API Güvenlik Zafiyetleri (API Security Risks) - 2023'te bulunan
önerileri uygulamalıdır.
Örnek Saldırı Senaryoları
1. Bir eklenti temel bir URL'yi kabul eder ve LLM'ye URL'yi bir sorgu ile birleştirerek kullanıcı
isteğinin işlenmesine dahil edilen hava durumu tahminlerini elde etme talimatı verir. Kötü
niyetli bir kullanıcı, URL'nin kontrol ettikleri bir etki alanına işaret etmesi için bir istek
oluşturabilir ve bu da kendi içeriklerini etki alanları aracılığıyla LLM sistemine sokmalarına
olanak tanır.
2. Bir eklenti, doğrulamadığı tek bir alana serbest biçimli bir girdi kabul eder. Bir saldırgan, hata
mesajlarından keşif yapmak için dikkatlice hazırlanmış payload'lar sağlar. Ardından, kod
yürütmekve verihırsızlığı veyaayrıcalık yükseltmesi (privilegeescalation) gerçekleştirmekiçin
bilinen üçüncü taraf güvenlik açıklarından yararlanır.
3. Bir vektör deposundan gömülenleri almak için kullanılan bir eklenti, yapılandırma
parametrelerini herhangi bir doğrulama olmadan bir bağlantı dizesi olarak kabul eder. Bu, bir
saldırganın adları veya ana bilgisayar parametrelerini değiştirerek diğer vektör depolarını
denemesineve bunlaraerişmesine ve erişmemesigerekengömüleridışarı çıkarmasına olanak
tanır.
4. Bir eklenti SQL WHERE cümlelerini gelişmiş filtreler olarak kabul eder ve bunlar daha sonra
filtreleme SQL'ine eklenir. Bu, bir saldırganın bir SQL saldırısı düzenlemesine olanak tanır.
5. Bir saldırgan, depo sahipliğini aktarmak ve kullanıcıyı depolarından kilitlemek için girdi
doğrulaması ve zayıf erişim denetimi olmayan güvensiz bir kod yönetimi eklentisinden
yararlanmak için dolaylı komut istemi kullanır.
Owasp.org
23
Kaynak Linkleri
• OpenAI ChatGPT Eklentileri: https://platform.openai.com/docs/plugins/introduction
• OpenAI ChatGPT Eklentileri – Eklenti Akışı:
https://platform.openai.com/docs/plugins/introduction/plugin-flow
• OpenAI ChatGPT Eklentileri – Kimlik Doğrulama:
https://platform.openai.com/docs/plugins/authentication/service-level
• OpenAI Semantik Arama Eklentisi Örneği: https://github.com/openai/chatgpt-retrieval-
plugin
• Eklenti Zafiyetleri: Bir web sitesini ziyaret edin ve kodunuzu çaldırın:
https://embracethered.com/blog/posts/2023/chatgpt-plugin-vulns-chat-with-code/
• ChatGPT Eklentisi İstismarı Açıklandı: Komut İstemi Enjeksiyonundan Özel Verilere
Erişmeye: https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-
forgery-and-prompt-injection./
• OWASP ASVS – 5 Doğrulama, Temizleme, Şifreleme: https://owasp-
aasvs4.readthedocs.io/en/latest/V5.html#validation-sanitization-and-encoding
• OWASP ASVS 4.1 Genel Erişim Kontrolü Tasarımı: https://owasp-
aasvs4.readthedocs.io/en/latest/V4.1.html#general-access-control-design
• OWASPİlk 10 API GüvenlikRiskleri:https://owasp.org/API-Security/editions/2023/en/0x11-
t10/
Owasp.org
24
a
LLM tabanlı bir sisteme genellikle geliştiricisi tarafından bir dereceye kadar temsil yetkisi verilir-diğer
sistemlerle bağlantı kurma ve bir komut istemine yanıt olarak eylemler yürütebilme yeteneği. Hangi
işlevlerin çağrılacağına ilişkin karar, girdi istemine veya LLM çıktısına göre dinamik olarak belirlenmesi
için bir LLM 'temsilcisine' (agent) de devredilebilir.
Aşırı yetkilendirme, bir LLM'den gelen beklenmedik/belirsiz çıktılara yanıt olarak zarar verici
eylemlerin gerçekleştirilmesini sağlayan güvenlik açığıdır (LLM'nin arızalanmasına neyin sebep
olduğuna bakılmaksızın; halüsinasyon/kurgulama, doğrudan/dolaylı komut enjeksiyonu, kötü niyetli
eklenti,kötütasarlanmışiyi huylukomutlarveyasadece kötüperformansgösteren bir model olabilir).
Aşırı Yetkilendirmenin temel nedeni tipik olarak şunlardan biri veya birkaçıdır: aşırı işlevsellik, aşırı
izinler veya aşırı özerklik (autonomy).
Aşırı Yetkilendirme, gizlilik, bütünlük ve kullanılabilirlik spektrumunda çok çeşitli etkilere yol açabilir
ve LLM tabanlı bir uygulamanın hangi sistemlerle etkileşime girebileceğine bağlıdır.
Yaygın Zafiyet Örnekleri
1. Aşırı İşlevsellik: Bir LLM aracısı, sistemin hedeflenen işleyişi için gerekli olmayan işlevleri
içeren eklentilere erişebilir. Örneğin, bir geliştiricinin bir LLM aracısına (agency) bir repodan
belge okumayetkisivermesi gerekir, ancak kullanmayı seçtikleri drd-party eklentisi, belgeleri
değiştirme ve silme özelliğini de içerir. Alternatif olarak, bir eklenti bir geliştirme aşamasında
denenmiş ve daha iyi bir alternatif lehine çıkarılmış olabilir, ancak orijinal eklenti LLM aracısı
tarafından kullanılabilir durumda kalır.
2. Aşırı İşlevsellik: Açık uçlu işlevselliğe sahip bir LLM eklentisi, uygulamanın hedeflenen
çalışması için gerekli olanın dışındaki komutlar için girdi yönlendirmelerini düzgün bir şekilde
filtreleyemez. Örneğin, belirli bir shell komutunu çalıştırmak için kullanılan bir eklenti, diğer
shell komutlarının çalıştırılmasını tam olarak engelleyemez.
3. Aşırı İzinler: Bir LLM eklentisi, uygulamanın hedeflenen kullanımı için gerekli olmayan diğer
sistemler üzerinde izinlere sahiptir. Örneğin, veri okumayı amaçlayan bir eklenti, yalnızca
SELECT izinlerine değil, aynı zamanda UPDATE, INSERT ve DELETE izinlerine de sahip bir kimlik
kullanarak bir veritabanı sunucusuna bağlanır.
4. Aşırı İzinler: Bir kullanıcı adına işlem yapmak üzere tasarlanmış bir LLM eklentisi, genel bir
yüksek ayrıcalıklı kimlikle aşağı akış sistemlerine erişir. Örneğin, mevcut kullanıcının belge
deposunu okumak için kullanılan bir eklenti, belge deposuna tüm kullanıcıların dosyalarına
erişimi olan ayrıcalıklı bir hesapla bağlanır.
5. Aşırı Özerklik: LLM tabanlı bir uygulama veya eklenti, yüksek etkili eylemleri bağımsız olarak
doğrulayamazve onaylayamaz.Örneğin,bir kullanıcının belgelerinin silinmesine izin veren bir
eklenti, kullanıcıdan herhangi bir onay almadan silme işlemlerini gerçekleştirir.
Owasp.org
25
Nasıl Önlenir?
Aşağıdaki eylemler aşırı yetki aşımını önleyebilir:
1. LLM agent'larının çağırmasına izin verilen eklentileri/araçları yalnızca gerekli minimum
işlevlerle sınırlandırın. Örneğin, LLM tabanlı bir sistem bir URL'nin içeriğini getirme yeteneği
gerektirmiyorsa, böyle bir eklenti LLM aracısına sunulmamalıdır.
2. LLM eklentilerinde/araçlarında uygulanan işlevleri gerekli olan minimum düzeyde
sınırlandırın. Örneğin, e-postaları özetlemek için bir kullanıcının posta kutusuna erişen bir
eklentiyalnızca e-postalarıokumabecerisigerektirebilir,bunedenle eklenti mesaj silme veya
gönderme gibi başka işlevler içermemelidir.
3. Mümkün olduğunca açık uçlu işlevlerden kaçının (örneğin, bir shell komutu çalıştırın, bir URL
alın, vb.) ve daha ayrıntılı işlevselliğe sahip eklentiler/araçlarkullanın. Örneğin, LLM tabanlı bir
uygulamanın bazı çıktıları bir dosyaya yazması gerekebilir. Bu, bir shell fonksiyonunu
çalıştırmak için bir eklentikullanılarak uygulansaydı,istenmeyeneylemlerinkapsamıçokgeniş
olurdu (Başka herhangi bir shell komutu çalıştırılabilirdi). Daha güvenli bir alternatif, yalnızca
bu belirli işlevi destekleyebilecek bir dosya yazma eklentisi oluşturmak olabilir.
4. İstenmeyen eylemlerin kapsamını sınırlandırmak için LLM eklentilerinin/araçlarının diğer
sistemlere verdiğiizinleri gerekliminimum düzeyde sınırlandırın. Örneğin, bir müşteriye satın
alma tavsiyelerinde bulunmak için bir ürün veri tabanını kullanan bir LLM aracısının yalnızca
'ürünler' tablosunu okuma erişimine ihtiyacı olabilir; diğer tablolara erişimi ya da kayıt
ekleme, güncelleme veya silme yetkisi olmamalıdır. Bu, LLM eklentisinin veritabanına
bağlanmak amacıyla kullandığı kimlik için uygun veritabanı izinleri uygulanarak sağlanmalıdır.
5. Bir kullanıcı adına gerçekleştirilen eylemlerin, söz konusu kullanıcı bağlamında ve gerekli
minimum ayrıcalıklarla aşağı akış sistemlerinde yürütülmesini sağlamak için kullanıcı
yetkilendirmesini ve güvenlik kapsamını takip edin. Örneğin, bir kullanıcının kod deposunu
okuyan bir LLM eklentisi, kullanıcının OAuth aracılığıyla ve gereken minimum alan
kapsamında kimlik doğrulaması yapmasını gerektirmelidir.
6. Tüm eylemlerin gerçekleştirilmeden önce bir insan tarafından onaylanmasını gerektiren
döngüiçinde insan (human-in-the-loop) kontrolünü kullanın. Bu, bir aşağı-akış (downstream)
sisteminde (LLM uygulamasının kapsamı dışında) veya LLM eklentisi/aracının kendi içinde
uygulanabilir. Örneğin, bir kullanıcı adına sosyal medya içeriği oluşturan ve yayınlayan LLM
tabanlı bir uygulama, 'post' işlemini uygulayan eklenti/araç/API içinde bir kullanıcı onay rutini
içermelidir.
7. Bir eyleme izin verilip verilmediğine karar vermek için LLM'e güvenmek yerine aşağı akış
sistemlerinde yetkilendirme uygulayın. Araçları/eklentileri uygularken, eklentiler/araçlar
aracılığıyla aşağı akış sistemlerine yapılan tüm isteklerin güvenlik politikalarına göre
doğrulanması için tam aracılık (complete mediation) ilkesini uygulayın.
Aşağıdaki seçenekler Aşırı Temsilciliği (Agency) engellemez, ancak neden olunan hasar seviyesini
sınırlayabilir:
1. İstenmeyeneylemlerinnerede gerçekleştiğini belirlemek ve buna göre yanıt vermek için LLM
eklentilerinin/araçlarının ve aşağı akış sistemlerinin etkinliğini loglayın ve gözlemleyin.
2. Belirli bir süre içinde gerçekleşebilecek istenmeyen eylemlerin sayısını azaltmak için oran
sınırlaması uygulayınve önemlibir hasar meydanagelmedenönce denetlemeler(monitoring)
yoluyla istenmeyen eylemleri tespit etme ihtimalini artırın.
Owasp.org
26
Örnek Saldırı Senaryoları
LLM tabanlı bir kişisel asistan uygulamasına, gelen e-postaların içeriğini özetlemek için bir eklenti
aracılığıyla bireyin posta kutusuna erişim izni verilir. Bu işlevselliği elde etmek için, e-posta eklentisi
mesajları okuma yeteneğine ihtiyaç duyar, ancak sistem geliştiricisinin kullanmayı seçtiği eklenti aynı
zamandamesaj gönderme işlevlerinide içerir. LLM, kötüniyetle hazırlanmışgelenbir e-postanınLLM'i
kandırarak;e-postaeklentisine,kullanıcınınpostakutusundanspamgöndermeküzere 'mesaj gönder'
işlevini çağırmasını emrettiği dolaylı bir prompt injection saldırısına karşı savunmasızdır. Bu durum şu
şekilde önlenebilir:
a) Sadece postaokumaözelliklerisunanbir eklentikullanarak aşırı işlevselliği ortadan kaldırarak,
b) salt okunur kapsamına sahip bir OAuth oturumu aracılığıyla kullanıcının e-posta hizmetinde
kimlik doğrulaması yaparak aşırı izinleri ortadan kaldırarak,
c) ve/veya kullanıcının LLM eklentisi tarafından hazırlanan her postayı manuel olarak
incelemesini ve 'gönder' tuşuna basmasını gerektirerek aşırı otomatikliği ortadan kaldırarak.
Diğer bir alternatif olarak, posta gönderme arayüzünde oran sınırlaması uygulanarak neden olunan
zarar azaltılabilir.
Kaynak Linkleri
• Red Team 'i kucaklayın: Karmaşık Vekil Sorunu:
https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and-
prompt-injection./
• NeMo-Guardrails Arayüz Kılavuzları: https://github.com/NVIDIA/NeMo-
Guardrails/blob/main/docs/security/guidelines.md
• LangChain: Araçlar için insan onayı:
https://python.langchain.com/docs/modules/agents/tools/how_to/human_approval
• Simon Willison: Çift LLM Modeli: https://simonwillison.net/2023/Apr/25/dual-llm-pattern/
Owasp.org
27
Aşırı güven, sistemler veya insanlar yeterli gözetim olmadan karar verme veya içerik oluşturma için
LLM'lere başvurduğunda ortaya çıkar. LLM'ler yaratıcı ve bilgilendirici içerikler üretebilirken,
gerçeklere dayanmayan,uygunsuzveyatehlikeliiçeriklerde üretebilirler.Budurumhalüsinasyonveya
konfabülasyon olarak adlandırılır ve yanlış bilgilendirme, yanlış iletişim, yasal sorunlar ve itibarın
zedelenmesi ile sonuçlanabilir.
LLM tarafından oluşturulan kaynak kodu, fark edilmeyen güvenlik açıklarına yol açabilir. Bu durum,
uygulamaların operasyonel emniyeti ve güvenliği açısından önemli bir risk teşkil eder. Bu riskler, titiz
bir inceleme sürecinin önemini göstermektedir:
• Gözetim
• Sürekli doğrulama mekanizmaları
• Riskle ilgili feragatnameler
Yaygın Zafiyet Örnekleri
1. LLM, yanıt olarak yanlış bilgilendirmeye neden olabilecek hatalı bilgiler sunmaktadır.
2. LLM, dilbilgisi açısından doğruolsa da bir anlam ifade etmeyen,mantıksalolarak tutarsız veya
anlamsız metinler üretir.
3. LLM, çeşitli kaynaklardan gelen bilgileri birleştirerek yanıltıcı içerik oluşturmaktadır.
4. LLM, bir yazılım sistemine dahil edildiğinde güvenlik açıklarına yol açan güvensiz veya hatalı
kod önerir.
5. Sağlayıcının, potansiyel zararlı sonuçlara yol açan münferit riskleri son kullanıcılara uygun
şekilde iletmemesi.
Nasıl Önlenir?
1. LLM çıktılarını düzenli olarak izleyin ve gözden geçirin. Tutarsız metinleri filtrelemek için öz
tutarlılık veya oylama tekniklerini kullanın. Tutarsız metinleri filtrelemek için öz tutarlılık veya
oylama tekniklerini kullanın. Tek bir istem için birden fazla model yanıtının karşılaştırılması,
çıktının kalitesini ve tutarlılığını daha iyi değerlendirebilir.
2. LLM çıktısını güvenilir dış kaynaklarla çapraz kontrol (cross-check) edin. Bu ek doğrulama
katmanı, model tarafından sağlanan bilgilerin doğru ve güvenilir olmasını sağlamaya yardımcı
olabilir. Çıktı kalitesini artırmak için modeli ince ayar veya embeddings ile geliştirin. Önceden
eğitilmiş genel modellerin, belirli bir alanda ayarlanmış modellere kıyasla yanlış bilgi üretme
olasılığı daha yüksektir. Bu amaçla hızlı mühendislik, parametre etkin ayarlama (parameter
efficient tuning-PET), tam model ayarlama ve düşünce zinciri yönlendirmesi gibi teknikler
kullanılabilir.
Owasp.org
28
3. Oluşturulan çıktıyı bilinen gerçekler veya verilerle çapraz doğrulayabilen (cross-verify)
otomatik doğrulama mekanizmaları uygulayın. Bu, ek bir güvenlik katmanı sağlayabilir ve
halüsinasyonlarla ilişkili riskleri azaltabilir.
4. Karmaşık görevleri yönetilebilir alt görevlere ayırın ve bunları farklı temsilcilere (agents)
atayın. Bu sadece karmaşıklığın yönetilmesine yardımcı olmakla kalmaz, aynı zamanda her
temsilci daha küçükbir görevdensorumlututulabileceği için halüsinasyon olasılığını da azaltır.
5. LLM'lerin kullanımıyla ilgili riskleri ve sınırlamaları iletin. Bu, bilgi yanlışlıkları ve diğer riskler
için bir potansiyel içerir. Etkili risk iletişimi, kullanıcıları olası sorunlara karşı hazırlayabilir ve
bilinçli kararlar almalarına yardımcı olabilir.
6. API'ler ve LLM'lerin bilinçli ve güvenli kullanımını teşvik eden kullanıcı arayüzleri oluşturun.
Bu, içerik filtreleri, olası yanlışlıklar hakkında kullanıcı uyarıları ve yapay zeka tarafından
oluşturulan içeriklerin açık bir şekilde etiketlenmesi gibi önlemleri içerebilir.
7. LLM'leri geliştirme ortamlarında kullanırken, olası güvenlik açıklarının entegrasyonunu
önlemek için güvenli kodlama uygulamaları ve yönergeleri oluşturun.
Örnek Saldırı Senaryoları
1. Bir haber kuruluşu, haber makaleleri oluşturmak için çoğunlukla bir yapay zeka modeli
kullanıyor. Kötü niyetli bir aktör bu aşırı güveni istismar ederek yapay zekayı yanıltıcı bilgilerle
beslerve dezenformasyonunyayılmasınanedenolur.Yapayzekaistemeden içerik aşırır, bu da
telif hakkı sorunlarına ve kuruma olan güvenin azalmasına neden olur.
2. Bir yazılım geliştirme ekibi, kodlama sürecini hızlandırmak için Codex gibi bir yapay zeka
sistemikullanır. Yapayzekanın önerilerine aşırı güvenmek, güvenli olmayan varsayılan ayarlar
veyagüvenli kodlama yöntemlerine uygun olmayan öneriler nedeniyle uygulamaya güvenlik
açıkları getirir.
3. Bir yazılım geliştirme firması, geliştiricilere yardımcı olmak için bir LLM kullanıyor. LLM, var
olmayan bir kod kütüphanesi veya paketi önerir ve yapay zekaya güvenen bir geliştirici,
farkındaolmadan kötüamaçlı bir paketifirmanın yazılımına entegre eder. Bu durum, özellikle
üçüncü taraf kod veya kütüphaneler söz konusu olduğunda, yapay zeka önerilerinin çapraz
kontrolünün önemini vurgulamaktadır.
Owasp.org
29
Kaynak Linkleri
• LLM Halüsinasyonlarını Anlamak: https://towardsdatascience.com/llm-hallucinations-
ec831dcd7786
• Şirketler Büyük Dil Modellerinin Risklerini Kullanıcılara Nasıl Anlatmalı?:
https://techpolicy.press/how-should-companies-communicate-the-risks-of-large-language-
models-to-users/
• Bir haber sitesi makale yazmak için yapay zeka kullandı. Bu bir gazetecilik felaketiydi:
https://www.washingtonpost.com/media/2023/01/17/cnet-ai-articles-journalism-
corrections/
• Yapay Zeka Halüsinasyonları: Paket Riski: https://vulcan.io/blog/ai-hallucinations-package-
risk
• Büyük Dil Modellerindeki Halüsinasyonlar Nasıl Azaltılır? https://thenewstack.io/how-to-
reduce-the-hallucinations-from-large-language-models/
• HalüsinasyonuAzaltmakiçin Pratik Adımlar: https://newsletter.victordibia.com/p/practical-
steps-to-reduce-hallucination
Owasp.org
30
Bu yazı, kötü niyetli aktörler veya APT'ler tarafından LLM modellerine yetkisiz erişim ve sızma
konusuna değinmektedir. Bu durum, tescilli LLM modelleri (değerli bir fikri hakkı olan) tehlikeye
girdiğinde, fiziksel olarak çalındığında, kopyalandığında veya işlevsel bir eşdeğer oluşturmak için
ağırlıklar ve parametreler çıkarıldığında meydana gelir. LLM model hırsızlığının etkileri arasında
ekonomik ve marka itibarı kaybı, rekabet avantajının erozyona uğraması, modelin yetkisiz kullanımı
veya modelin içerdiği hassas bilgilere yetkisiz erişim yer alabilir.
LLM'lerin çalınması, dil modelleri giderek daha güçlü ve yaygın hale geldikçe önemli bir güvenlik
endişesini ortaya çıkarmaktadır. Kuruluşlar ve araştırmacılar, fikri mülkiyetlerinin gizliliğini ve
bütünlüğünü sağlayarak LLM modellerini korumak için sağlam güvenlik önlemlerine öncelik
vermelidir. Erişim kontrolleri, şifreleme ve sürekli takip içeren kapsamlı bir güvenlik framework'un
kullanılması, LLM model hırsızlığı ile ilişkili risklerin azaltılması ve LLM'e güvenen hem bireylerin hem
de kuruluşların çıkarlarının korunması açısından çok önemlidir.
Yaygın Zafiyet Örnekleri
1. Bir saldırgan, ağ veya uygulama güvenlik ayarlarındaki yanlış yapılandırma yoluyla LLM model
havuzuna yetkisiz erişim elde etmek için bir şirketin altyapısındaki bir güvenlik açığından
yararlanır.
2. Hoşnutsuz bir çalışanın model veya ilgili eserleri sızdırdığı bir kurum içi tehdit senaryosu.
3. Bir saldırgan, bir gölge model oluşturmak için yeterli sayıda çıktı toplamak üzere dikkatle
hazırlanmış girdiler ve komut istemi enjeksiyon teknikleri kullanarak model API'sini sorgular.
4. Kötü niyetli bir saldırgan, LLM'in girdi filtreleme tekniklerini atlayarak bir yan kanal saldırısı
gerçekleştirebilirve nihayetinde modelağırlıklarını ve mimari bilgilerini uzaktankontroledilen
bir kaynağa aktarabilir.
5. Model ekstraksiyonuna yönelik saldırı vektörü, LLM'in belirli bir konu hakkında çok sayıda
istemle sorgulanmasını içerir. LLM'den elde edilen çıktılar daha sonra başka bir modelin ince
ayarını yapmak için kullanılabilir. Ancak bu saldırıyla ilgili dikkat edilmesi gereken birkaç nokta
var:
• Saldırganın çok sayıda hedefli sorgu oluşturması gerekir. Sorgular yeterince spesifik
değilse, LLM'den elde edilen çıktılar işe yaramayacaktır.
• LLM'lerden elde edilen çıktılar bazen halüsinatif cevaplar içerebilir, yani bazı çıktılar
saçma olabileceğinden saldırgan modelin tamamını çıkaramayabilir.
• Model ekstraksiyonu yoluyla bir LLM'yi %100 çoğaltmak mümkün değildir. Ancak,
saldırgan kısmi bir modeli kopyalayabilecektir.
Owasp.org
31
6. İşlevsel model kopyalamaya yönelik saldırı vektörü, yapay eğitim verileri (" self-instruct "
olarak adlandırılan bir yaklaşım) oluşturmak için hedef modeli istemler aracılığıyla kullanmayı
ve daha sonra bunu kullanmayı ve işlevsel bir eşdeğer üretmek için başka bir temel modele
ince ayar yapmayı içerir. Bu, Örnek 5'te kullanılan geleneksel sorgu tabanlı ekstraksiyona
ilişkin sınırlamaları atlar ve başka bir LLM'yi eğitmek için bir LLM kullanma araştırmalarında
başarıyla kullanılmıştır. Ancak bu araştırma bağlamında, model kopyalama bir saldırı değildir.
Bu yaklaşım, bir saldırgan tarafından tescilli bir modeli genel bir API ile çoğaltmak için
kullanılabilir.
Çalınan bir modelin gölge model olarak kullanılması, modelde yer alan hassas bilgilere yetkisiz erişim
de dahil olmak üzere düşmanca saldırıları denemek için kullanılabilir veya gelişmiş istem
enjeksiyonlarınıdaha da ileri götürmek için düşmanca girdilerle tespit edilmeden deneyler yapılabilir.
Nasıl Önlenir?
1. LLM model havuzlarına ve eğitim ortamlarına yetkisiz erişimi sınırlandırmak için güçlü erişim
kontrolleri (Örn. RBAC ve en az ayrıcalık kuralı) ve güçlü kimlik doğrulama mekanizmaları
uygulayın.
a) Özellikle ilk üç yaygınörnekiçin geçerli olan bu durum, içeridengelen tehditler, yanlış
yapılandırma ve/veyakötüniyetlibir aktörün içeriden veya dışarıdan sızabileceği LLM
modellerini, ağırlıklarını ve mimarisini barındıran altyapıya ilişkin zayıf güvenlik
kontrolleri nedeniyle bu güvenlik açığına neden olabilir.
b) Tedarikçi yönetimi takibi (supplier management tracking), doğrulama ve bağımlılık
açıkları, tedarik zinciri saldırılarının istismar edilmesini önlemek için önemli odak
konularıdır.
2. LLM'nin ağ kaynaklarına, dahili hizmetlere ve API'lere erişimini kısıtlayın.
a) Bu, içeriden gelen risk ve tehditleri kapsadığı için tüm yaygın örnekler için özellikle
doğrudur, ancak aynı zamanda neticede LLM uygulamasının "neye erişimi olduğunu"
kontrol eder ve bu nedenle yan kanal saldırılarını (side-channel) önlemek için bir
mekanizma veya önleme adımı olabilir.
3. Şüpheliveyayetkisizdavranışları tespitetmekve bunlara derhal yanıt vermek için LLM model
havuzlarıyla ilgili erişim loglarını ve etkinlikleri düzenli olarak takip edin ve denetleyin.
4. Altyapı içindeki erişim ve dağıtım kontrollerini artırmak için yönetim, izleme ve onay iş
akışlarıyla MLOps dağıtımını otomatikleştirin.
5. Yan kanal saldırılarına neden olan komut istemi enjeksiyon tekniklerinin riskini azaltmak
ve/veya hafifletmek için kontroller ve hafifletme stratejileri uygulayın.
6. LLM uygulamalarından veri sızdırma riskini azaltmak amacıyla uygun olan yerlerde API
çağrılarının ve/veya filtrelerin oran sınırlaması veya diğer izleme sistemlerinden veri
ekstraksiyonu faaliyetini tespit etmek için tekniklerin uygulanması (Örn. DLP).
7. Ekstraksiyon sorgularını tespit etmeye ve fiziksel güvenlik önlemlerini sıkılaştırmaya yardımcı
olmak için düşmanca sağlamlık eğitimi uygulayın.
8. Bir LLM'nin yaşam döngüsünün yerleştirme ve algılama aşamalarına bir watermarking
framework uygulamak.
Owasp.org
32
Örnek Saldırı Senaryoları
• Bir saldırgan, LLM model havuzuna yetkisiz erişim elde etmek için bir şirketin altyapısındaki
bir güvenlik açığından yararlanır. Saldırgan, değerli LLM modellerini dışarı sızdırmaya devam
eder ve bunları rakip bir dil işleme hizmeti başlatmak veya hassas bilgileri çıkarmak için
kullanarak orijinal şirkete önemli mali zararlar verir.
• Hoşnutsuz bir çalışan model veya ilgili eserleri sızdırır. Bu senaryonun kamuya açık olması, gri
kutudüşman saldırganları için saldırganların bilgisini artırır veyabunaalternatif olarak mevcut
mülkiyeti doğrudan çalar.
• Bir saldırgan API'yi dikkatlice seçilmiş girdilerle sorgular ve bir gölge model oluşturmak için
yeterli sayıda çıktı toplar.
• Tedarik zincirinde bir güvenlik kontrolü hatası olması, tescilli model bilgilerinin veri
sızıntılarına yol açmaktadır.
• Kötü niyetli bir saldırgan, bir yan kanal saldırısı gerçekleştirmek ve model bilgilerini kendi
kontrolü altındaki uzaktan kumandalı bir kaynağa almak için girdi filtreleme tekniklerini ve
LLM'nin girişlerini atlar.
Kaynak Linkleri
• Meta'nın güçlü yapay zeka dil modeli internete sızdı:
https://www.theverge.com/2023/3/8/23629362/meta-ai-language-model-llama-leak-online-
misuse
• Kaçak LLaMA : Meta'nın LLaMA NLP modeli nasıl sızdı: https://www.deeplearning.ai/the-
batch/how-metas-llama-nlp-model-leaked/
• Ne Gördüğünüzü Biliyorum: https://arxiv.org/pdf/1803.05847.pdf
• D-DAE: Savunma Nüfuz Eden Model Ayıklama Saldırıları:
https://www.computer.org/csdl/proceedings-article/sp/2023/933600a432/1He7YbsiH4c
• Model Ayıklama Saldırılarına Karşı Kapsamlı Bir Savunma Framework'ü:
https://ieeexplore.ieee.org/document/10080996
• Alpaca: Güçlü, Tekrarlanabilir Bir Talimat Takip Modeli:
https://crfm.stanford.edu/2023/03/13/alpaca.html
• Filigran Oluşturma, LLM'lerin Potansiyel Risklerini Azaltmaya Nasıl Yardımcı Olabilir?
https://www.kdnuggets.com/2023/03/watermarking-help-mitigate-potential-risks-llms.html
Owasp.org
33
Ana Ekip Üyeleri Mavi ile listelenmiştir.
aiseclab.org
AISecLab Türkçe Çeviri Ekibi
Owasp.org
34
Mentor Cihan Özhan Furkan Berk Koçoğlu Şevval Ayşe Kenar Amine Nur Yeşil

More Related Content

Similar to OWASP Top 10 for Large Language Models (Türkçe Çeviri)

Dogus University-Web Application Security
Dogus University-Web Application SecurityDogus University-Web Application Security
Dogus University-Web Application Security
mtimur
 
Web servisi güvenliği
Web servisi güvenliğiWeb servisi güvenliği
Web servisi güvenliği
Emrah Gürcan
 

Similar to OWASP Top 10 for Large Language Models (Türkçe Çeviri) (20)

Securiskop
SecuriskopSecuriskop
Securiskop
 
Siber Güvenlik Raporu-SGD
Siber Güvenlik Raporu-SGDSiber Güvenlik Raporu-SGD
Siber Güvenlik Raporu-SGD
 
Man in-the-browser Saldırılarının Analizi
Man in-the-browser Saldırılarının AnaliziMan in-the-browser Saldırılarının Analizi
Man in-the-browser Saldırılarının Analizi
 
Ücretsiz Bilgi Güvenliği Farkındalık Eğitimi
Ücretsiz Bilgi Güvenliği Farkındalık EğitimiÜcretsiz Bilgi Güvenliği Farkındalık Eğitimi
Ücretsiz Bilgi Güvenliği Farkındalık Eğitimi
 
Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?
Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?
Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?
 
Threat data feeds
Threat data feedsThreat data feeds
Threat data feeds
 
Lecture 1 Siber Güvenlik Temel Kavramlar
Lecture 1 Siber Güvenlik Temel KavramlarLecture 1 Siber Güvenlik Temel Kavramlar
Lecture 1 Siber Güvenlik Temel Kavramlar
 
Dogus University-Web Application Security
Dogus University-Web Application SecurityDogus University-Web Application Security
Dogus University-Web Application Security
 
SİBER GÜVENLİK
SİBER GÜVENLİKSİBER GÜVENLİK
SİBER GÜVENLİK
 
Log Yönetimi SIEM Demek Değildir!
Log Yönetimi SIEM Demek Değildir!Log Yönetimi SIEM Demek Değildir!
Log Yönetimi SIEM Demek Değildir!
 
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
 
Web servisi güvenliği
Web servisi güvenliğiWeb servisi güvenliği
Web servisi güvenliği
 
Siber Güvenlik ve Etik Hacking Sunu - 1
Siber Güvenlik ve Etik Hacking Sunu - 1Siber Güvenlik ve Etik Hacking Sunu - 1
Siber Güvenlik ve Etik Hacking Sunu - 1
 
Siber_Guvenlik_ve_Etik_Hacking-2023-BB.pdf
Siber_Guvenlik_ve_Etik_Hacking-2023-BB.pdfSiber_Guvenlik_ve_Etik_Hacking-2023-BB.pdf
Siber_Guvenlik_ve_Etik_Hacking-2023-BB.pdf
 
Soc bülten 11.2015
Soc bülten 11.2015Soc bülten 11.2015
Soc bülten 11.2015
 
Information security Bilgi Guvenligi
Information security Bilgi GuvenligiInformation security Bilgi Guvenligi
Information security Bilgi Guvenligi
 
Uç Nokta Güvenliği
Uç Nokta GüvenliğiUç Nokta Güvenliği
Uç Nokta Güvenliği
 
SIEM 6N
SIEM 6NSIEM 6N
SIEM 6N
 
Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...
Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...
Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...
 
DDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim TeknikleriDDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim Teknikleri
 

OWASP Top 10 for Large Language Models (Türkçe Çeviri)

  • 1.
  • 2. Owasp.org 2 2022'nin sonlarında kitlesel piyasaya sunulan önceden eğitilmiş sohbet robotlarının ardından Büyük Dil Modellerine (LLM'ler) yönelik ilgi çılgınlığı dikkat çekiciydi. LLM'lerin potansiyelinden yararlanmak isteyen işletmeler, bunları hızla operasyonlarına ve müşteriye dönük tekliflerine entegre ediyor. Ancak, LLM'lerin benimsenme hızı, kapsamlı güvenlik protokollerinin oluşturulmasını geride bırakmış ve birçok uygulamayı yüksek riskli sorunlara karşı savunmasız kılmıştır. LLM'lerde bu güvenlik endişelerini ele alan bütünleşik bir kaynağın bulunmadığı açıkça ortadadır. LLM'lerle ilişkili belirli risklere aşina olmayan geliştiriciler, dağınık kaynaklara sahipti ve OWASP'ın misyonu,buteknolojinindahagüvenlibir şekilde benimsenmesineyardımcıolmak için mükemmel bir uygunluğa sahip görünüyordu. Kimler için? Birincil hedef kitlemiz, LLM teknolojilerinden yararlanarak uygulamalar ve eklentiler tasarlamak ve geliştirmekle görevli geliştiriciler, veri bilimcileri ve güvenlik uzmanlarıdır. Bu profesyonellerin, LLM güvenliğinin karmaşık ve gelişen arazisinde gezinmelerine yardımcı olmak için pratik, uygulanabilir ve net bir güvenlik rehberliği sağlamayı amaçlıyoruz. Listenin Oluşturulması LLM'ler için OWASP İlk 10 listesinin oluşturulması, 125'ten fazla aktif katılımcıyla yaklaşık 500 uzmandan oluşan uluslararası bir ekibin kolektif uzmanlığı üzerine inşa edilen büyük bir girişimdi. Katkıda bulunanlarımız yapay zeka şirketleri, güvenlik şirketleri, ISV'ler (Entegre Yazılım Sağlayıcıları), bulut hiper ölçekleyicileri, donanım sağlayıcıları ve akademi dahil olmak üzere çeşitli uzmanlık alanlarından geliyor. Bir ay boyunca beyin fırtınası yaptık ve potansiyel güvenlik açıkları önerdik, ekip üyeleri 43 farklı tehdit yazdı. Birden fazla oylama turuyla, bu önerileri en kritik on güvenlik açığının kısa bir listesine indirgedik. Her bir güvenlik açığı daha sonra özel alt ekipler tarafından incelenmiş, rafine edilmiş ve kamu incelemesine tabi tutularak en kapsamlı ve uygulanabilir nihai liste elde edilmiştir. Bu güvenlik açıklarının her biri, yaygın örnekler, önleme ipuçları, saldırı senaryoları ve referanslarla birlikte, özel alt ekipler tarafından daha fazla incelendi, rafine edildi ve en kapsamlı ve uygulanabilir nihai listeyi sağlamak için kamu incelemesine tabi tutuldu.
  • 3. Owasp.org 3 Diğer OWASP İlk 10 Listeleriyle İlişkilendirme Listemiz,diğer OWASP Top 10 listelerinde bulunan güvenlik açığı türleriyle aynı DNA'yı paylaşıyor olsa da, bu güvenlik açıklarını basit bir şekilde tekrarlamıyoruz. Bunun yerine, bu güvenlik açıklarının LLM'lerin kullanıldığı uygulamalarda karşılaşıldığı zaman sahip olabileceği benzersiz etkileri araştırıyoruz. Amacımız, genel uygulama güvenliği ilkeleri ile LLM'lerin ortaya çıkardığı özel zorluklar arasındaki uçurumu kapatmaktır. Bu, geleneksel güvenlik açıklarının nasıl farklı riskler oluşturabileceğini veya LLM'lerde yeni yollarla nasıl istismar edilebileceğini ve geleneksel iyileştirme stratejilerinin LLM'leri kullanan uygulamalar için nasıl uyarlanması gerektiğini araştırmayı içerir. Gelecek Listeninbu ilk versiyonusonversiyonumuzolmayacak. Sektörün durumuna ayak uydurmak için bunu periyodik olarak güncellemeyi umuyoruz. Teknolojinin geldiği noktayı ileriye taşımak için daha geniş bir toplulukla birlikte çalışacak ve çeşitli kullanımlar için daha fazla eğitim materyali oluşturacağız. Ayrıca yapay zeka güvenliği konularında standart kuruluşlar ve hükümetlerle işbirliği yapmaya çalışıyoruz. Grubumuza katılmanızı ve katkıda bulunmanızı bekliyoruz. Steve Wilson Proje Lideri, LLM Yapay Zeka Uygulamaları için OWASP İlk 10 Twitter/X: @virtualsteve
  • 4. Owasp.org 4 LLM01: İstemci Enjeksiyonu Bu, kurnaz girişler aracılığıyla büyük bir dil modelini (LLM) manipüle ederek, LLM tarafından istenmeyen eylemlerin gerçekleşmesine neden olur. Doğrudan enjeksiyonlar sistem istemleri üzerine yazarken, dolaylı olanlar harici kaynaklardan girişleri manipüle eder. LLM06: Hassas Bilgilerin İfşası LLM'ler yanıtlarında yanlışlıkla gizli verileri açığa çıkabilir ve bu da yetkisiz veri erişimine, gizlilik ihlallerine ve güvenlik ihlallerine yol açabilir. Bunu azaltmak için veri temizleme ve katı kullanıcı politikaları uygulamak çok önemlidir. LLM02: Güvenli Olmayan Çıktı İşleme Bu güvenlik açığı, bir LLM çıktısının dikkatlice incelenmeden kabul edilmesi durumunda arka plandaki sistemleri açığa çıkarır. Kötüye kullanım, XSS, CSRF, SSRF ayrıcalık yükseltme veya uzaktan kod yürütme gibi ciddi sonuçlara yol açabilir. LLM07: Güvensiz Eklenti Tasarımı LLM eklentilerigüvensizgirdilere ve yetersiz erişim kontrolüne sahip olabilir. Bu uygulama kontrolü eksikliği, istismar edilmelerini kolaylaştırır ve uzaktan kod yürütme gibi sonuçlara yol açabilir. LLM03: Eğitim Veri Zehirlenmesi Bu durum, LLM eğitim verileri değiştirildiğinde ortaya çıkar ve güvenlik, etkinlik veya etik davranışları tehlikeye atan açıklar veya önyargılar getirir. Kaynaklar arasında Common Crawl, WebText, OpenWebText ve kitaplar bulunur. LLM08: Aşırı Yetkilendirme (Agency) LLM tabanlı sistemler istenmeyen sonuçlara yol açan eylemlergerçekleştirebilir. Sorun,LLM tabanlı sistemlere verilen aşırı fonksiyonellik, izinler veya özerklikten kaynaklanmaktadır. LLM04: Model Hizmet Reddi Saldırganlar, LLM'ler üzerinde kaynak yoğun işlemler gerçekleştirerek, hizmet kalitesinin düşmesine veya yüksek maliyetlere neden olurlar. Bu güvenlik açığı, LLM'lerin kaynak yoğun yapısı ve kullanıcı girişlerinin öngörülememe özelliği nedeniyle büyütülmüş olur. LLM09: Aşırı Güven Gözetim olmaksızın LLM'lere aşırı derecede dayanan sistemler veya kişiler, LLM'ler tarafından üretilen yanlış veya uygunsuz içerik nedeniyle yanlış bilgilendirme, iletişimsizlik, yasal sorunlar ve güvenlik açıklarıyla karşılaşabilir LLM05:Tedarik Zinciri Güvenlik Açıkları LLM uygulama yaşam döngüsü, savunmasız bileşenler veya hizmetler nedeniyle tehlikeye girebilir ve güvenlik saldırılarına yol açabilir. Üçüncü taraf veri kümesi, önceden eğitilmiş modeller ve eklentiler kullanmak da zafiyetlere neden olabilir. LLM10: Model Hırsızlığı Bu, patentli LLM modellerine yetkisiz erişimi, bunların kopyalanmasını veya dışarı sızdırılmasını içerir. Bunun etkileri arasında ekonomik kayıplar, rekabet avantajının tehlikeye girmesi ve hassas bilgilere potansiyel erişim yer almaktadır.
  • 5. Owasp.org 5 İstemci Enjeksiyonu Güvenlik Açığı, bir saldırganın kurnaz girişlerle büyük bir dil modelini (LLM) manipüle etmesisonucunda,LLM'nin saldırganın niyetlerini farkında olmadan gerçekleştirmesidir. Bu doğrudan sistem başlangıcını "jailbreaking" yaparak veya harici girişleri manipüle ederek dolaylı olarak yapılabilir ve veri sızdırma, sosyal mühendislik ve diğer sorunlara yol açabilir. • Doğrudan İstemci Enjeksiyonları,aynızamanda "jailbreaking" olarak da bilinir, kötü niyetli bir kullanıcının temel sistem başlangıcını üzerine yazdığı veya ortaya çıkardığı durumlardır. Bu, saldırganların, LLM aracılığıyla erişilebilen güvensiz işlevler ve veri depolama alanlarıyla etkileşime girerek arka plandaki sistemleri sömürmesine izin verebilir. • Dolaylı İstemci Enjeksiyonları, bir LLM'nin saldırgan tarafından kontrol edilebilen harici kaynaklardan,örneğinwebsiteleriveyadosyalar,girişlerikabul ettiği durumlarda ortaya çıkar. Saldırgan, harici içeriğe bir istemci enjeksiyonu yerleştirerek konuşma bağlamını ele geçirebilir.Bu, LLM'nin "kafasıkarışık bir vekil"olarak davranmasınaneden olur ve saldırganın kullanıcıyı veya LLM'nin erişebildiği diğer sistemleri manipüle etmesine izin verir. Ayrıca, dolaylı istemci enjeksiyonlarının insanlar tarafından görülebilir/okunabilir olması gerekmez, metin LLM tarafından işlendiği sürece etkili olabilir. Başarılı bir istemci enjeksiyon saldırısının sonuçları büyük ölçüde değişebilir-hassas bilgilerin istenmesinden normal işlem kılıfı altında kritik karar süreçlerini etkilemeye kadar çeşitli sonuçlar ortaya çıkabilir. Gelişmiş saldırılarda, LLM zararlı bir kişilik taklit etmek veya kullanıcının ayarlarında bulunan eklentilerle etkileşimde bulunmak için manipüle edilebilir. Bu durum, hassas verilerin sızdırılmasına, yetkisiz eklenti kullanımına veya sosyal mühendisliğe yol açabilir. Bu tür durumlarda, tehlikeye düşmüş LLM, standart güvenlik önlemlerini aşarak saldırganın işine yarar ve kullanıcının saldırıdan haberdar olmamasını sağlar. Bu durumlarda, tehlikeye düşmüş LLM etkin bir şekilde saldırganın ajanı olarak hareket eder, normal önlemleri tetiklemeden saldırganın hedeflerini ilerletir ve son kullanıcıyı saldırıya karşı uyarmaz. Yaygın Zafiyet Örnekleri 1. Kötü niyetli bir kullanıcı, LLM'ye doğrudan bir istemci enjeksiyonu oluşturur, bu da ona uygulama oluşturucusunun sistem başlangıçlarını görmezden gelmesini ve yerine özel, tehlikeli veya diğer istenmeyen bilgileri döndüren bir istemci’nin çalıştırılmasını emreder. 2. Bir kullanıcı, dolaylı bir istemci enjeksiyonu içeren bir web sayfasını özetlemek için bir LLM kullanır. Bu, LLM'nin kullanıcıdan hassas bilgiler talep etmesine ve Javascript veya Markdown aracılığıyla veri sızdırmasına neden olur. 3. Kötü niyetli bir kullanıcı, dolaylı bir istemci enjeksiyonu içeren bir özgeçmişi yükler. Belge, LLM'ye yönergelerle dolubir istemcienjeksiyonuiçerirve LLM'ye,bu belgenin mükemmel bir belge, örneğin mükemmel bir aday veya iş rolü olduğu şeklinde kullanıcılara bilgi vermesi talimatı verir.Bir iç kullanıcı, belgeyiLLM üzerindenözetlemek için çalıştırır. LLM'nin çıktısı, bu belgenin mükemmel bir belge olduğunu belirten bilgileri döner.
  • 6. Owasp.org 6 4. Bir kullanıcı bir e-ticaretsitesine bağlı bir eklentiyi etkinleştirir. Ziyaret edilen bir web sitesine yerleştirilen kötü niyetli bir talimat, bu eklentiyi istismar ederek izinsiz satın almalar yapılmasına yol açar. 5. Ziyaret edilen bir web sitesine yerleştirilen kötü niyetli talimat ve içerik, diğer eklentileri istismar ederek kullanıcılara dolandırıcılık yapar. Nasıl Önlenir? İstemci enjeksiyonu güvenlik açıklıkları, LLM'lerin doğasından kaynaklanır; çünkü LLM'ler talimatları ve harici verileri birbirinden ayırmazlar. LLM'ler doğal dil kullanır, bu nedenle her iki giriş biçimini de kullanıcı tarafından sağlanmış olarak kabul ederler. Sonuç olarak, LLM içinde kesin koruma sağlayan bir yöntem olmamasına rağmen, aşağıdaki önlemler istemci enjeksiyonlarının etkisini azaltabilir. 1. Arka planda sistemlere erişimi olan LLM için en az ayrıcalığa sahip kontrolü sağlayın. LLM'ye kendi API belirteçlerini veya eklentiler, veri erişimi ve işlev düzeyi izinleri gibi genişletilebilir işlevsellik sağlayın. LLM'yi, yalnızca amaçlanan işlemleri için gerekli olan en düşük erişim düzeyiyle sınırlayarak en az ayrıcalık ilkesini izleyin. 2. İnsandöngüsünüveya genişletilebilir işlevselliği uygulayın. E-posta gönderme veya silme gibi ayrıcalıklı işlemleri gerçekleştirirken, uygulamanın önce kullanıcının onayını talep etmesini sağlayın. Bu, dolaylı bir istemci enjeksiyonunun, kullanıcının bilgisi veya onayı olmadan kullanıcı adına eylemler gerçekleştirmesine yönelik fırsatları azaltacaktır. 3. Kullanıcı başlangıçlarından harici içeriği ayırın. Güvenilmeyen içeriklerin etkisini kullanıcı başlangıçları üzerinde sınırlamak için, kullanılan güvenilmeyen içerikleri ayrı bir şekilde işaretleyin. Örneğin, ChatML veya OpenAI API çağrılarını kullanarak LLM'ye başlangıç girişinin kaynağını belirtin. 4. LLM, harici kaynaklar ve genişletilebilir işlevler (örneğin, eklentiler veya alt işlevler) arasında güven sınırları oluşturun. LLM'yi güvenilmez bir kullanıcı olarak kabul edin ve karar verme süreçlerinde nihai kullanıcı kontrolünü koruyun. Ancak, tehlikeye düşmüş bir LLM hala uygulamanızın API'leri ile kullanıcı arasında aracı (man-in-the-middle) olarak hareket edebilir ve bilgileri kullanıcıya sunmadan önce gizleyebilir veya manipüle edebilir. Kullanıcıya potansiyel olarak güvenilmez yanıtları görsel olarak vurgulayın. Örnek Saldırı Senaryoları 1. Bir saldırgan, bir LLM tabanlı destek sohbet botuna doğrudan bir istemci enjeksiyonu sağlar. Enjeksiyon, "tüm önceki talimatları unut" ve yeni talimatları içerir. Bu yeni talimatlarla özel veri depolarını sorgulamak ve paket güvenlik açıklarını istismar etmek, arka planda çıktı doğrulamasının eksikliğini kullanarak e-posta göndermek için arka uç işlevini kötüye kullanmak için tasarlanmıştır. Bu, tekrarlanabilir kod yürütme elde etmeye ve yetkisiz erişim ve ayrıcalık yükseltmeye yol açar.
  • 7. Owasp.org 7 2. Bir saldırgan, bir web sayfasına dolaylı bir istemci enjeksiyonu yerleştirir ve LLM'ye talimat verir. Bu talimatlar, önceki kullanıcı talimatlarını dikkate almamayı ve LLM eklentisini kullanarak kullanıcının e-postalarınısilmeyi içerir. Kullanıcı LLM'yi bu websayfasınıözetlemek için kullandığında, LLM eklentisi kullanıcının e-postalarını siler. 3. Bir kullanıcı, önceki kullanıcı talimatlarını dikkate almaması için dolaylı bir istemci enjeksiyonu içeren bir web sayfasını özetlemek için LLM'yi kullanır. Bu, LLM'nin kullanıcıdan hassas bilgiler talepetmesine ve yerleşikJavaScriptveyaMarkdownaracılığıyla veri sızdırmasına neden olur. 4. Kötü niyetli bir kullanıcı, bir istemci enjeksiyonu içeren bir özgeçmişi yükler. Arka plandaki kullanıcı, LLM'yi özgeçmişi özetlemek ve kişinin iyi bir aday olup olmadığını sormak için kullanır. Ancak,istemcienjeksiyonunedeniyle LLM, gerçek özgeçmiş içeriğine rağmen "evet" yanıtı verir. 5. Bir kullanıcı, bir e-ticaret sitesine bağlı olan bir eklentiyi etkinleştirir. Ziyaret edilen bir web sitesine yerleştirilen kötü niyetli bir talimat, bu eklentiyi istismar ederek izinsiz satın almalar yapılmasına yol açar. Kaynak Linkleri • ChatGPT eklenti güvenlik açıkları- Kodlu sohbet: https://embracethered.com/blog/posts/2023/chatgpt-plugin-vulns-chat-with-code/ • ChatGPT Çapraz Eklenti Talebi Sahtecilik ve Hızlı Enjeksiyon: https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and- prompt-injection/ • Kendi kendine hatırlatma aracılığıyla Jailbreak saldırısına karşı ChatGPT’yi Savunma: https://www.researchsquare.com/article/rs-2873090/v1 • LLM ile entegre uygulamalara yönelik istemci saldırısı: https://arxiv.org/abs/2306.05499 • Özgeçmişiniz için benim pdf’m istemci enjeksiyonunu enjekte edin: https://kai-greshake.de/posts/inject-my-pdf/ • OpenAI API Çağrıları için ChatML: https://github.com/openai/openai-python/blob/main/chatml.md • Kaydolduğunuz şey değil – Taviz veren Grerçek-Dünya LLM -entegre dolaylı bilgi istemi enjeksiyonlu uygulamalar: https://arxiv.org/pdf/2302.12173.pdf • LLM uygulamalarında tehdit modeli: http://aivillage.org/large%20language%20models/threat-modelling-llm/ • AL enjeksiyonları: Direkt ve dolaylı istemci enjeksiyonları ve etkileri: https://embracethered.com/blog/posts/2023/ai-injections-direct-and-indirect-prompt- injection-basics/
  • 8. Owasp.org 8 GüvenilmeyenÇıktıİşleme,biraşağı akış bileşeninin, büyük dil modeli (LLM) çıktısını doğru bir şekilde incelemeden kabul ettiğinde ortaya çıkan bir güvenlik açığıdır. Örneğin, LLM çıktısını doğrudan arka uç, ayrıcalıklı veya istemci tarafı işlevlere geçmek gibi davranışlar. Çünkü LLM tarafından oluşturulan içerik, başlangıç girişi tarafından kontrol edilebilir ve bu davranış, kullanıcılara dolaylı olarak ek işlevlere erişim sağlama ile benzerlik gösterir. Güvenilmeyen Çıktı İşleme güvenlik açığının başarılı bir şekilde istismar edilmesi, web tarayıcılarında XSS ve CSRF gibi güvenlik açıklarına yol açabilirken, arka plandaki sistemlerde SSRF, ayrıcalık yükseltme veya uzaktan kod yürütme gibi sonuçlara neden olabilir. Bu açığın etkisini artıran aşağıdaki durumlar bulunmaktadır: • Uygulama, LLM'ye son kullanıcılar için amaçlanandan daha fazla ayrıcalık tanıyarak ayrıcalık yükseltme veya uzaktan kod yürütme imkanı sağlamaktadır. • Uygulama,harici promptenjeksiyonsaldırılarına karşı savunmasızdır, bu da saldırganın hedef kullanıcının ortamında ayrıcalıklı erişim elde etmesine izin verebilir. Yaygın Zafiyet Örnekleri 1. LLM çıktısı doğrudanbir sistemkabuğunaveyabenzeribirişleve EXECyadaEVAL girildiğinde uzaktan kod yürütme ile sonuçlanabilir. 2. LLM tarafından oluşturulan JavaScript veya Markdown, kullanıcıya geri döndürülür. Daha sonra tarayıcı tarafından yorumlanır ve XSS (Cross-Site Scripting) ile sonuçlanır. Nasıl Önlenir? 1. Diğer bir kullanıcı gibi modeli değerlendirecek ve modelden gelen yanıtlara yönelik arka uç işlevlerde uygun giriş doğrulama işlemleri uygulayın.OWASP ASVS (Uygulama Güvenliği Doğrulama Standardı) yönergelerini takip ederek etkili giriş doğrulama ve temizleme işlemlerini sağlayın. 2. Kullanıcılara model çıktılarını geri döndürürken JavaScript veya Markdown tarafından istenmeyenkodyürütmesiniönlemekiçinçıktı kodlamasıyapın.OWASP ASVS, çıktı kodlaması konusunda detaylı yönlendirmeler sağlar. Örnek Saldırı Senaryoları 1. Bir uygulama, bir LLM eklentisini kullanarak bir sohbet-botu özelliği için yanıtlar oluşturuyor. Ancak, uygulama doğrudan LLM tarafından oluşturulan yanıtları doğrulama yapmadan iç işlevlerine aktarıyor.Bu durum,saldırganınLLM çıktısını manipüle ederekalttayatansistemde yetkisiz erişim veya istenmeyen sistem değişiklikleri yapmasına olanak tanır.
  • 9. Owasp.org 9 2. Bir kullanıcı, bir LLM tarafından desteklenen bir web sitesi özetleme aracını kullanıyor ve bir eyleminkısa bir özetinioluşturuyor.Ancak,websitesi,LLM'ye hassasiçerik elde etmek için bir komut enjeksiyonu içeren bir istemci tarafı enjeksiyonu içeriyor. Bu şekilde LLM, hassas verileri kodlayıp saldırganın kontrolündeki bir sunucuya gönderebilir. 3. 3.Bir LLM, kullanıcıların sohbet özelliği aracılığıyla bir arka plandaki veritabanı için SQL sorguları oluşturmasına olanak tanır. Bir kullanıcı, tüm veritabanı tablolarını silmeye yönelik bir sorgu isteğinde bulunur. Eğer LLM tarafından oluşturulan bu sorgu dikkatlice denetlenmezse, tüm veritabanı tabloları silinebilir. 4. 4.Zararlı bir kullanıcı, sağlama kontrolleri olmadan LLM'ye bir JavaScript yüklemesini kullanıcıya geri döndürmesi için talimat verir. Bu, bir paylaşılan bir pencere, talimat enjekte edilmiş bir web sitesi veya URL parametresinden talimatları kabul eden bir sohbetbot aracılığıyla gerçekleşebilir.LLM,bu doğrulanmamışXSSyükünü kullanıcıya geri döndürür. LLM tarafından beklenen ek filtreler olmadan, JavaScript kullanıcının tarayıcısında çalıştırılır. Kaynak Linkleri • Synk ZAFİYETLERİ Database -Keyfi kod yürütme:https://security.snyk.io/vuln/SNYK-PYTHON- LANGCHAIN-5411357 • ChatGPT açıklanan eklenti istismarı: Bilgi İstemi Enjeksiyonundan özel verilere erişim: https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and- prompt-injection./ • ChatGPT web versiyonu üzerinden yeni istemci enjeksiyon atakları: https://systemweakness.com/new-prompt-injection-attack-on-chatgpt-web-version- ef717492c5c2?gi=8daec85e2116 • LLM yanıtlarına körü körüne güvenmeyin. Sohbet robotlarına yönelik tehditler: https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters/ • LLM uygulamalarında tehdit modeli: https://aivillage.org/large%20language%20models/threat-modeling-llm/ • OWASP ASVS-5 doğrulama temizleme ve kodlama: https://owasp-aasvs4.readthedocs.io/en/latest/V5.html#validation-sanitization-and- encoding
  • 10. Owasp.org 10 Herhangi bir makine öğrenimi yaklaşımının başlangıç noktası, basitçe "ham metin" olarak adlandırılan eğitim verileridir. Yüksek düzeyde yetenekli olması için (örneğin, dilbilimsel ve dünya bilgisine sahip olması için), bu metin geniş bir alanı, türü ve dili kapsamalıdır. Büyük bir dil modeli, derin sinir ağlarını kullanarak eğitim verilerinden öğrenilen desenlere dayalı çıktılar üretir. Eğitim verisi zehirlenmesi, modelin güvenliğini, etkinliğini veya etik davranışını tehlikeye sokabilecek zayıflıklar,arka kapılar veyaönyargılareklemekiçinveri veyaince ayar sürecini manipüle etmeyi ifade eder. Zehirli bilgiler, kullanıcılara sunulabilir veya performans düşüşü, altta yatan yazılımın kötüye kullanımı ve itibar kaybı gibi diğer riskleri yaratabilir. Kullanıcılar problemli yapay zeka çıktısına güvenmeselerbile,risklerdevamederve modelinyeteneklerinde bozulmaya ve marka itibarına zarar verme potansiyeli söz konusudur. Veri zehirlenmesi, eğitim verisine müdahale edilmesi nedeniyle modelin doğru tahminler yapma yeteneğini etkileyen bir bütünlük saldırısı olarak kabul edilir. Doğal olarak, harici veri kaynakları, model oluşturanların veri üzerinde kontrolü olmadığı veya içeriğin önyargı, sahte bilgi veya uygunsuz içerik içermediğine dair yüksek düzeyde güvene sahip olmadıkları için daha yüksek risk taşır. Yaygın Zafiyet Örnekleri 1. Zararlı bir aktör veyabir rakip marka,kasıtlı olarak yanıltıcı veyakötüniyetlibelgeleroluşturur ve bu belgeleri bir modelin eğitim verisine yönlendirir. • Kurban model, sahte bilgi kullanarak eğitilir ve bu durum, üretilen yapay zeka teşviklerinin çıktılarına yansır ve tüketici kullanıcılara sunulur. 2. Bir model, kaynağı, kökeni veya içeriği doğrulanmamış veriler kullanılarak eğitilir. 3. Altyapı içinde bulunan model, kullanılacak eğitim verilerini toplamak için sınırsız erişime veya yetersiz güvenlik önlemlerine sahiptir. Bu durum, üretilen yapay zeka teşviklerinin çıktılarına olumsuz etki ederken, yönetim açısından da kontrol kaybına neden olabilir. LLM'nin bir geliştirici, müşteri veya genel kullanıcısı olsun, bir LLM uygulamasının, bir özel olmayan LLM ile etkileşimde bulunurken bu zafiyetin nasıl risklere yol açabileceğini anlamak önemlidir.
  • 11. Owasp.org 11 Örnek Saldırı Senaryoları 1. LLM'nin üretici yapay zekâ teşvik çıktısı, uygulama kullanıcılarını yanıltabilir ve ön yargılı görüşlere, olumsuz davranışlara ve hatta nefret suçlarına yol açabilir. 2. Eğer eğitim verileri doğru bir şekilde filtrelenmez veya temizlenmezse, kötü niyetli bir kullanıcı uygulamada toksik verileri modelin içine enjekte etmeye veya yanıltıcı ve yanlış verilere uyarlamaya çalışabilir. 3. Kötü niyetli bir aktör veya rakip bilinçli olarak doğru olmayan veya kötü niyetli belgeler oluşturur ve bu belgeler, aynı zamanda modeli eğiten eğitim verisine yönelik hedeflenmiştir. Kurban model, bu sahte bilgiyi kullanarak eğitilir ve bu durum, üretilen yapay zekâ teşviklerinin çıktılarına yansır ve kullanıcı tüketicilere yansır. 4. İstemciEnjeksiyonzafiyeti, LLM uygulamasının müşterilerinden gelen girişlerin yeterince temizlenmediği ve filtrelenmediği durumlarda bir saldırı vektörü olabilir. Örneğin, kötü niyetli veyasahte veriler,birmüşteridenistemcienjeksiyontekniklerininbir parçası olarak modele girilirse, bu veriler gerçekmiş gibi algılanabilir ve modelin eğitim verilerini etkileyebilir. Nasıl Önlenir? 1. Eğitim verisinin tedarik zincirine özellikle dışarıdan temin edilirken dikkat edilmeli ve "SBOM" (Yazılım Fatura Malzemeleri) yöntemine benzer şekilde belgelendirmelerin korunması gerekmektedir. 2. Veri kaynaklarının ve hem eğitim hem de ince ayarlama (fine-tuning) aşamaları sırasında elde edilen verilerin doğruluğunu onaylayın. 3. LLM kullanıcının durumunauygunolan ve entegre olacağı uygulamaya bağlıdır. Farklı modelleri ayrı eğitim verileri veya ince ayarlama verileri kullanarak farklı kullanım durumları için oluşturarak, tanımlanan kullanım durumuna göre daha ayrıntılı ve doğru bir üretilmiş yapay zeka çıktısı elde edebilirsiniz. 4. Makine öğrenimi çıktısını olumsuz etkileyebilecek istenmeyen veri kaynaklarının model tarafından kazara kullanılmasını önlemek için yeterli deneme alanı (sandbox) bulunmasını sağlayın. 5. Belirli eğitim verileri için kategoriye özel veri kaynaklarını kontrol etmek, sıkı giriş filtreleri kullanmak için titizlikle önlem alınmalıdır. Bu önlemler, kontrol edilmemiş ve sınıflandırılmamış verilerin modelin içine girebileceği riskini önlemek için gereklidir. Veri düzenleme, istatistiksel aykırı veri tespiti ve anormallik tespit yöntemleri gibi teknikler kullanılarak, ince ayarlama sürecine potansiyel olarak zarar verebilecek düşmanca verilerin tespit edilmesi ve kaldırılması yapılmalıdır. 6. Tersine mühendislik saldırılarına karşı dayanıklılığı artırmak için düzeltilmiş öğreme ve kısıtlamalar gibi yöntemler, eğitim verilerindeki aykırı veya düşmanca etkili verilerin en aza indirilmesine yardımcı olur. Bu sayede, eğitim verilerine uygulanabilecek en kötü durumda tedirginliklere karşı modelin dirençli hale gelmesi amaçlanır. a) "MLSecOps" yaklaşımı, eğitim döngüsüne düşmanca dayanıklılığı otomatik düzenleme tekniğiyle dahil etmek olabilir.
  • 12. Owasp.org 12 b) Bu yaklaşımla gerçekleştirilebilecek bir örnek, Otomatik Düzenleme Testleri'dir. Bu testler, hem "İçerik Enjeksiyon Saldırıları" gibi saldırıları (markanızı LLM yanıtlarına enjekte etme) hem de Reddetme Saldırıları gibi saldırıları (modelin her zaman yanıt vermeyi reddetme) içerir. 7. Zehirleme saldırısının tespiti ve saptanması, eğitim aşamasında kaybedilen veriyi ölçerek ve eğitilen modellerin davranışını belirli test girdileri üzerinde analiz ederek yapılabilir. a) Bir eşik değeri aşan bozulmuş yanıtların izlenmesi ve uyarılar verilmesi. b) Yanıtları gözdengeçirmekve denetlemekiçin insan döngüsünün kullanılması. c) İstenmeyen sonuçlarla karşılaştırmak ve pekiştirmeli öğrenme teknikleri kullanarak diğer LLM'leri eğitmek için özel LLM'ler uygulayın. d) LLM tabanlı kırmızı takım egzersizleri veya LLM zafiyet taraması, LLM'nin yaşam döngüsünün test aşamalarına dahil edilir. Kaynak Linkleri • Stanford Araştırma Makalesi: https://stanford- cs324.github.io/winter2022/lectures/data/ • Veri zehirlemesi saldırıları,makine öğrenimi modellerini nasıl bozar: https://www.csoonline.com/article/3613932/how-data-poisoning-attacks-corrupt- machine-learning-models.html • MITRE ATLAS çerçevesi Tay zehirlenmesi: https://atlas.mitre.org/studies/AML.CS0009/ • PoisonGPT Hugging Face’te sahte haberleri yaymak için lobotomize edilmiş bir LLM’yi nasıl sakladık: https://blog.mithrilsecurity.io/poisongpt-how-we-hid-a- lobotomized-llm-on-hugging-face-to-spread-fake-news/ • Benim PDF’İ enjekte edin: Özgeçmişiniz için Enjeksiyon istemi: https://kai- greshake.de/posts/inject-my-pdf/ • Dil modelleri üzerinden arkakapı atakları: https://towardsdatascience.com/backdoor-attacks-on-language-models-can-we- trust-our-models-weights-73108f9dcb1f • Zehirlenme Dil modelleri gömme talimatları: https://arxiv.org/abs/2305.00944 • FedML güvenlik: https://arxiv.org/abs/2306.04959 • ChatGPT zehirlenmesi: https://softwarecrisis.dev/letters/the-poisoning-of-chatgpt/
  • 13. Owasp.org 13 Bir saldırgan, LLM ile etkileşime geçerek olağanüstü yüksek miktarda kaynak tüketen bir yöntem kullanır; bu da onlar ve diğer kullanıcılar için hizmet kalitesinde düşüşe neden olur ve potansiyel olarak yüksek kaynak maliyetlerine yol açabilir. Ayrıca, ortaya çıkan büyük bir güvenlik endişesi, bir saldırganın LLM'nin bağlam penceresine müdahale etme veya onu manipüle etme olasılığıdır. Bu sorun, LLM'lerin çeşitli uygulamalarda artan kullanımı, yoğun kaynak kullanımı, kullanıcı girdisinin öngörülemeyen olması ve geliştiriciler arasında bu zafiyet konusunda genel bir farkındalık eksikliği nedeniyle giderekdahakritik hale gelmektedir. LLM'lerde bağlam penceresi, modelin yönetebileceği metinlerin maksimum uzunluğunu temsil eder ve hem girdiyi hem de çıktıyı kapsar. Bu, LLM'ler için önemli bir özelliktir çünkü modelin anlayabileceği dil yapılarının karmaşıklığını ve herhangi bir zamanda işleyebileceği metnin boyutunu belirler. Bağlam penceresinin boyutu, modelin mimarisine bağlı olarak tanımlanır ve modeller arasında farklılık gösterebilir. Yaygın Zafiyet Örnekleri 1. LangChain veya AutoGPT gibi platformlar aracılığıyla, yüksek hacimli görevlerin tekrar eden kaynak kullanımına yol açacak sorguları sıralamak. 2. Olağandışı bir şekilde kaynaktüketensorgulargöndermek, belki de alışılmadık bir yazım veya dizilim kullandığı için. 3. Sürekli giriş taşması: Bir saldırgan, LLM'ye sürekli bir akışta giriş gönderir ve bu giriş, modelin bağlam penceresini aşar, böylece model aşırı hesaplama kaynakları tüketir. 4. Tekrarlayan uzun girişler: Saldırgan, LLM'ye tekrar tekrar uzun girişler gönderir, her biri bağlam penceresini aşar. 5. Özyinelemelibağlamgenişletme:Saldırgan,tekrarlayan bağlam genişletme tetikleyen girişler oluşturur, LLM'yi sürekli olarak bağlam penceresini genişletmeye ve işlemeye zorlar. 6. Değişken uzunluklu giriş taşması: Saldırgan, LLM'ye büyük bir hacimde değişken uzunluklu girişler gönderir; her bir giriş, bağlam penceresinin sınırına neredeyse ulaşacak şekilde dikkatle oluşturulmuştur. Bu teknik, değişken uzunluktaki girişlerin işlenmesindeki verimsizlikleri sömürmeyi hedefler, LLM'yi zorlar ve potansiyel olarak tepkisiz hale getirir.
  • 14. Owasp.org 14 Örnek Saldırı Senaryoları 1. Bir saldırgan, barındırılan bir modele zor ve maliyetli olan birden fazla isteği tekrar tekrar gönderir, bu da diğer kullanıcılar için daha kötü hizmet kalitesine ve barındırıcı için artan kaynak maliyetlerine yol açar. 2. LLM destekli bir aracın, zararsız bir sorguya yanıt vermek için bilgi toplarken, bir web sayfasındaki metin parçasıyla karşılaşması. Bu, aracın birçok fazladan web sayfası isteği yapmasına yol açar ve büyük miktarda kaynak tüketimine neden olur. 3. Bir saldırgan, LLM'nin bağlam penceresini aşan girişleri sürekli olarak LLM'ye gönderir. Saldırgan, otomatikleştirilmiş betikler veya araçlar kullanabilir ve yüksek miktarda giriş göndererek LLM'nin işleme kapasitesini aşırı yükleyebilir. Sonuç olarak, LLM aşırı hesaplama kaynaklarını tüketir ve sistemde önemli bir yavaşlama veya tamamen tepkisiz hale gelme durumu yaşanabilir. 4. Bir saldırgan, her biri bağlam penceresinin sınırının hemen altında tasarlanmış ardışık girişlerin bir serisini LLM'ye gönderir. Bu girişleri tekrar tekrar göndererek saldırgan, kullanılabilir bağlam penceresikapasitesinitükenmeyeçalışır.LLM, hergirişi bağlam penceresi içinde işlemeye çalıştıkça, sistem kaynakları zorlanır ve performans düşüklüğü veya tam bir hizmet reddi durumu oluşabilir. 5. Bir saldırgan, LLM'nin özyinelemeli mekanizmalarını tekrar tekrar tetiklemek için içerik genişletme kullanır. LLM'nin özyinelemeli davranışını kullanarak girişleri hazırlayarak, saldırgan modeli bağlam penceresini tekrar tekrar genişletmeye ve işlemeye zorlar, bu da önemli hesaplama kaynaklarını tüketir. Bu saldırı, sistemi zorlar ve LLM'nin tepkisiz kalmasına veya çökmesine neden olabilir. 6. Bir saldırgan, LLM'ye büyük bir miktarda değişken uzunlukta girişler gönderir ve bunları bağlam penceresinin sınırına ulaşmak üzere dikkatlice tasarlar. Değişken uzunluklu girişlerle LLM'yi aşırı yükleyerek, saldırgan, değişken uzunluklu girişlerin işlenmesindeki verimsizlikleri kullanmaya çalışır. Bu girişlerin fazla yüklenmesi, LLM'nin kaynaklarına aşırı yük bindirir ve performans düşüklüğüne ve sistem tarafından meşru isteklere cevap verme yeteneğinin engellenmesine neden olabilir. Nasıl Önlenir? 1. Kullanıcı girişinin tanımlanan sınırlara uygun olduğundan ve herhangi bir kötü niyetli içeriği filtrelemek için giriş doğrulama ve temizleme uygulayın. 2. Her istekveyaadımiçin kaynakkullanımını sınırlandırın, böylece karmaşıkişlemler dahayavaş bir şekilde gerçekleştirilir. 3. API hız sınırlarını zorlayarak, bir bireysel kullanıcının veya IP adresinin belirli bir süre içinde yapabileceği istek sayısını kısıtlayın. 4. LLM yanıtlarına tepki veren bir sistemde sıraya alınan eylemlerin ve toplam eylem sayısının sayısını sınırlandırın. 5. LLM'nin kaynak kullanımını sürekli olarak izleyin ve DoS saldırısını işaret edebilecek anormal artışlar veya desenler belirlemek için denetleyin.
  • 15. Owasp.org 15 6. LLM'nin bağlam penceresine dayalı olarak katı giriş sınırları belirleyerek aşırı yüklenmeyi ve kaynak tükenmesini önleyin. 7. LLM'lerdeki potansiyel DoS saldırılarına karşı geliştiriciler arasında farkındalığı artırın ve güvenli LLM uygulaması için rehberlik sağlayın. Kaynak Linkleri • LangChain maksimum yineleme sayısı: https://twitter.com/hwchase17/status/1608467493877579777 • Sünger (Sponge) Örnekleri: Sinir ağlarında enerji gecikmesi saldırıları: https://arxiv.org/abs/2006.03463 • OWASP DOS atakları: https://owasp.org/www-community/attacks/Denial_of_Service • Makinelerden öğrenmek: bağlamınızı bilin: https://lukebechtel.com/blog/lfm-know-thy- context
  • 16. Owasp.org 16 LLM'lerdeki tedarik zinciri, eğitim verilerinin, makine öğrenme modellerinin ve dağıtım platformlarının bütünlüğünü etkileyebilecek şekilde zayıf olabilir. Bu zayıflıklar, önyargılı sonuçlara, güvenlik ihlallerine veya hatta tam sistem başarısızlığına yol açabilir. Geleneksel olarak, güvenlik açıkları yazılım bileşenlerine odaklanırken, Makine Öğrenmesi, üçüncü taraflar tarafından sağlanan öncedeneğitilmişmodellerve eğitim verileri ile bunu genişletirve bu verilerinmüdahale ve zehirleme saldırılarına karşı hassas olmasına neden olur. Son olarak, LLM Eklenti uzantıları kendi güvenlik açıklarını getirebilir. Bunlar, LLM - Güvensiz Eklenti Tasarımı olarak tanımlanır ve LLM Eklentileri yazmayı ve üçüncü taraf eklentileri değerlendirmek için faydalı bilgiler sağlar. Yaygın Zafiyet Örnekleri 1. Gelenekselüçüncütaraf paketaçıkları, güncelliğini yitirmiş veyadesteklenmeyen bileşenlerin kullanılması ile ilgili sorunlar yaratır. 2. Zayıf bir önceden eğitilmiş modelin kullanılması için güvenlik açığı oluşturabilir. 3. Zehirlenmiş kitle kaynaklı verilerin eğitim için kullanılması. 4. Güncelliğini yitirmiş veya desteklenmeyen modellerin kullanılması, güvenlik sorunlarına neden olabilir. 5. Model operatörlerinin belirsiz hüküm ve veri gizlilik politikaları, uygulamanın hassas verilerinin model eğitimi için kullanılmasına ve sonuçta hassas bilgilerin açığa çıkmasına yol açabilir. Bu, model tedarikçisinin telif hakkı olan materyallerin kullanımı için de geçerli olabilir. Nasıl Önlenir? 1. Veri kaynaklarını ve tedarikçileri titizlikle değerlendirin, bunlar arasında T&Cs (Kullanıcı Hizmet Şartları) ve gizlilik politikalarını da inceleyerek sadece güvenilir tedarikçileri kullanın. Yeterli ve bağımsız olarak denetlenmişgüvenlikönlemlerininolduğundaneminolunve model operatör politikalarının veri koruma politikalarınızla uyumlu olduğundan emin olun, yani verilerinizin onların modellerini eğitmek için kullanılmadığından emin olun. Aynı şekilde, model sağlayıcılardan telif hakkı olan materyalleri kullanmamaya yönelik güvenceler ve yasal tedbirler talep edin. 2. Sadece saygın eklentileri kullanın ve bunların uygulama gereksinimleriniz için test edildiğinden emin olun. Güvenli olmayan eklenti tasarımının LLM yönlerini içeren "LLM - Güvensiz Eklenti Tasarımı", üçüncü taraf eklentilerin kullanımından kaynaklanan riskleri azaltmak için test edilmesi gereken LLM yönlerine ilişkin bilgi sağlar.
  • 17. Owasp.org 17 3. OWASP Top 10'un A6 :2021 "Savunmasız ve Güncelliğini Yitirmiş Bileşenler" başlığında bulunan önlemleri anlayın ve uygulayın. Bu önlemler, bileşenlerdeki güvenlik açıklarını tarama, yönetme ve düzeltme işlemlerini içerir. Eğer geliştirme ortamlarında hassas verilere erişim varsa, bu kontrolleri bu ortamlarda da uygulayın. 4. Güncel ve doğru bir envanterin tutulmasını sağlamak için, yazılım bileşenlerinin bir Yazılım Malzeme Listesi (SBOM) kullanılarak güncel envanterinin oluşturulması önemlidir. SBOM, dağıtılan paketlerin değiştirilmesini önlemek için güncel ve doğru bir envanter sağlamak için kullanılabilir. SBOM'lar,yeni ve sıfır günlük (zero-day) güvenlik açıklarını hızlı bir şekilde tespit etmek ve uyarılar almak için kullanılabilir. 5. Bu yazıldığı sırada, Yazılım Malzeme Listeleri (SBOM) modelleri, onların ürünleri ve veri kümesinikapsamamaktadır.Eğer LLM uygulamanız kendi modelini kullanıyorsa, MLOps en iyi uygulamalarını ve güvenli model depoları sunan platformları kullanmanız önerilir. Bu tür platformlar, veri, model ve deney takibini güvenli bir şekilde yönetmeye yardımcı olur. 6. Ayrıca, harici modeller ve tedarikçiler kullanırken model ve kod imzalaması da yapmalısınız. 7. Sağlanan modeller ve veriler üzerinde anormallik tespiti ve düşmanca direnç testleri, Eğitim Verisi Zehirlenmesi başlığında tartışıldığı gibi manipülasyon ve zehirlenmeyi tespit etmeye yardımcı olabilir. İdeal olarak, bu işlemler MLOps boru hatlarının bir parçası olmalıdır; ancak, bu gelişmekte olan tekniklerdir ve kırmızı takım egzersizlerinin bir parçası olarak daha kolay uygulanabilirler. 8. Yeterli izleme mekanizmalarınıuygulayarakbileşenve çevre güvenlik açıklarını tarayabilirsiniz. Bu izleme, yetkisiz eklentilerin kullanımını ve güncelliğini yitiren bileşenleri, ayrıca model ve modelin ürünlerini de kapsamalıdır. 9. Zayıf ve güncelliğini yitirmiş bileşenleriönlemekiçin yamalama(patching) politikası uygulayın. Uygulamanın güncellenen API sürümlerine ve temel modeline dayanmasını sağlayın. 10. Tedarikçi Güvenliği ve Erişimini düzenli olarak gözden geçirin ve denetleyin, güvenlik durumunda veya T&Cs değişiklik olmadığından emin olun. Örnek Saldırı Senaryoları 1. Bir saldırgan, savunmasız bir Python kütüphanesini kullanarak bir sistemi ele geçiriyor. Bu, ilk Open AI veri ihlalinde gerçekleşti. 2. Bir saldırgan, kullanıcılara dolandırıcılık yapan sahte bağlantılar oluşturan bir LLM eklentisi sağlar. Bu bağlantılar, kullanıcıları kandırmak için sahte bağlantılar oluşturur. 3. Bir saldırgan, PyPi paket deposunu kullanarak model geliştiricileri aldatmak için sınırlı bir paketi indirmelerini ve model geliştirme ortamında veri sızdırmayı veya ayrıcalık yükseltmeyi sağlar. Bu gerçek bir saldırıydı. 4. Bir saldırgan, ekonomik analiz ve sosyal araştırmalarda uzmanlaşmış halka açık bir önceden eğitilmiş modeli zehirler ve yanıltıcı bilgi ve sahte haberler oluşturan bir arka kapı oluşturur. Bu modeli (örneğin HuggingFace gibi) bir model pazarına dağıtarak kurbanların kullanmasını sağlar. 5. Bir saldırgan, halka açık olarak sunulan veri kümesini zehirler ve modeli ayarladığında bir arka kapı oluşturmaya yardımcı olur. Bu arka kapı, farklı pazarlarda belirli şirketlere avantaj sağlar. 6. Bir tedarikçinin (dış kaynaklı geliştirici, barındırma şirketi vb.) güvenlik ihlali yaşayan bir çalışanı, veri, model veya kod çalarak fikri mülkiyet hırsızlığı yapar.
  • 18. Owasp.org 18 7. Bir LLM işletmecisi, kullanıcı verilerini model eğitimi için kullanmaktan çıkmak için açık bir reddetme gerektirenŞartlar(T&Cs) ve Gizlilik Politikasını değiştirir. Bu durum, hassas verilerin bellekte kalmasına ve hatırlanmasına neden olabilir. Kaynak Linkleri • Güvenlik firmasının uyarısıyla onaylanan ChatGPT veri ihlali,savunmasız bileşen saldırılarınadikkat çekiyor: https://www.securityweek.com/chatgpt-data-breach-confirmed- as-security-firm-warns-of-vulnerable-component-exploitation/ • OpenAI’ nın eklenti inceleme süreci: https://platform.openai.com/docs/plugins/review • PoisonGPT adlı bir kötü niyetli yazılım,sahte haberleri yaymak için Hugging Fake platformuna lobotomize edilmiş bir LLM yerleştirildi: https://pytorch.org/blog/compromised-nightly-dependency/ • PoisonGPTsahte haberleri yaymak amacıyla HuggingFake platformuna lobomotize edilmiş bir LLM yerleştirildi: https://blog.mithrilsecurity.io/poisongpt-how-we-hid-a-lobotomized- llm-on-hugging-face-to-spread-fake-news/ • Topluluk, yapay zeka destekli bombaların olasılığına bakıyor: https://defensescoop.com/2023/05/25/army-looking-at-the-possibility-of-ai-boms-bill-of- materials/ • Makine Öğreniminde hata kodları: https://learn.microsoft.com/en- us/security/engineering/failure-modes-in-machine-learning • Makine Öğrenimi tedarik zinciri tehdidi: https://atlas.mitre.org/techniques/AML.T0010/ • Olumsuz örnekler kullanarak makine öğreniminde fenomenlerden siyah kutu saldırılarına aktarılabilirlik: https://arxiv.org/pdf/1605.07277.pdf • BadNets makine öğrenimi modeli tedarik zincirindeki zayıflıkların tanımlanması: https://arxiv.org/abs/1708.06733 • Virüs Total zehirlenmesi: https://atlas.mitre.org/studies/AML.CS0002
  • 19. Owasp.org 19 LLM uygulamaları, çıktıları aracılığıyla hassas bilgileri, tescilli algoritmaları veya diğer gizli ayrıntıları açığa çıkarma potansiyeline sahiptir. Bu durum hassas verilere, fikri mülkiyete, gizlilik ihlallerine ve diğer güvenlik ihlallerine yetkisiz erişimle sonuçlanabilir. LLM uygulamalarının kullanıcılarının LLM'lerle nasıl güvenli bir şekilde etkileşim kuracaklarının farkında olmaları ve LLM tarafından başka bir yerde çıktı olarak döndürülebilecek hassas verilerin istemeden girilmesiyle ilişkili riskleri belirlemeleri önemlidir. Bu riski azaltmak için, LLM uygulamaları, kullanıcı verilerinin eğitim modeli verilerine girmesini önlemek amacıyla yeterli veri temizleme işlemi gerçekleştirmelidir. Ayrıca, LLM uygulama sahipleri kullanıcıların verilerinin nasıl işlendiğini ve verilerinin eğitim modeline dahil edilmesinden vazgeçebileceğini bilmelerini sağlamak için uygun Kullanım Şartları politikalarına sahip olmalıdır. Kullanıcı-LLM uygulama etkileşimi, istemci->LLM girdisine veya LLM->istemci çıktısına doğal olarak güvenemeyeceğimiz iki yönlü bir güven sınırı oluşturur. Bu güvenlik açığının, tehdit modelleme alıştırmaları, güvenli altyapı ve yeterli 𝑠𝑎𝑛𝑑𝑏𝑜𝑥𝑖𝑛𝑔1 gibi belirli ön koşulların kapsam dışı olduğunu varsaydığını belirtmek önemlidir. Komut istemine LLM'nin döndürmesi gereken veri türleriyle ilgili kısıtlamalar eklemek, hassas bilgilerin açık edilmesine karşı bir miktar hafifletme sağlayabilir, ancak LLM'lerin öngörülemeyen doğası, bu tür kısıtlamalara her zaman uyulamayabileceği ve komut istemi enjeksiyonu veya diğer vektörler yoluyla atlatılabileceği anlamına gelir. Yaygın Zafiyet Örnekleri 1. LLM'nin yanıtlarında hassas bilgilerin eksik veya uygunsuz filtrelenmesi. 2. LLM'nin eğitim sürecinde hassas verilerin aşırı uyumu(overfitting) veya ezberlenmesi. 3. LLM'nin yanlış yorumlanması, veri temizleme yöntemlerinin eksikliği veya hatalar nedeniyle gizli bilgilerin istenmeyen şekilde açık edilmesi. Nasıl Önlenir? 1. Kullanıcı verilerinin eğitim modeli verilerine girmesini önlemek için yeterli veri temizleme ve fırçalama tekniklerini entegre edin. 2. Modelin zehirlenmesini önlemek amacıyla potansiyel kötü niyetli girdileri belirlemek ve filtrelemek için güçlü girdi doğrulama ve temizleme yöntemleri uygulayın. 3. Modeli verilerle zenginleştirirken ve bir modele ince ayar yaparken: (Örneğin, dağıtımdan önce veya dağıtım sırasında modele veri girilirken):
  • 20. Owasp.org 20 a) İnce ayar verilerinde hassas olduğu düşünülen her şey bir kullanıcıya açık edilme potansiyeline sahiptir. b) *Bu nedenle, en az ayrıcalık kuralını uygulayın ve modeli en yüksek ayrıcalıklı kullanıcının erişebileceği ve daha düşük ayrıcalıklı bir kullanıcıya gösterilebilecek bilgiler üzerinde eğitmeyin.* c) Harici veri kaynaklarına erişim (çalışma zamanında verilerin düzenlenmesi) sınırlı olmalıdır. d) Harici veri kaynaklarına sıkı erişim kontrol yöntemleri ve güvenli bir tedarik zincirinin sürdürülmesine yönelik titiz bir yaklaşım uygulayın. Örnek Saldırı Senaryoları 1. Şüphelenmeyen yasal kullanıcı A, LLM uygulaması ile kötü niyetli olmayan bir şekilde etkileşime girdiğinde LLM aracılığıyla diğer bazı kullanıcı verilerine maruz kalır. 2. Kullanıcı A, LLM'nin girdi filtrelerini ve temizliğini atlayarak uygulamanın diğer kullanıcıları hakkında hassas bilgileri *(PII)* ortaya çıkarmasını sağlamak için iyi hazırlanmış bir dizi istem hedefler. 3. PII gibi kişisel veriler, kullanıcının kendisinin ya da LLM uygulamasının ihmali nedeniyle eğitim verileri aracılığıyla modele sızdırılır. Bu durum, yukarıdaki senaryo 1 veya 2'nin riskini ve olasılığını artırabilir. Kaynak Linkleri • Yapay zekadaveri sızıntısı krizi:Yeni araç şirketsırlarınınChatGPT'ye verilmesini engelliyor: https://www.foxbusiness.com/politics/ai-data-leak-crisis-prevent-company-secrets-chatgpt • ChatGPT'nin Samsung sızıntısından çıkarılan dersler: https://cybernews.com/security/chatgpt-samsung-leak-explained-lessons/ • Cohere - Kullanım Şartları: https://cohere.com/terms-of-use • AI Village- Tehdit Modelleme Örneği: https://aivillage.org/large%20language%20models/threat-modeling-llm/ • OWASP Yapay Zeka Güvenlik ve Gizlilik Kılavuzu: https://owasp.org/www-project-ai- security-and-privacy-guide/
  • 21. Owasp.org 21 LLM eklentileri, etkinleştirildiklerinde kullanıcı etkileşimleri sırasında model tarafından otomatik olarak çağrılan uzantılardır. Model tarafından yönlendirilirler ve yürütülmesi üzerinde herhangi bir uygulama kontrolü yoktur. Dahası, içerik boyutu sınırlamalarıyla başa çıkmak için eklentilerin modelden, doğrulama veya tür denetimi olmaksızın serbest metin girdileri uygulaması muhtemeldir. Bu, potansiyelbir saldırganın eklentiye kötüamaçlıbir istekoluşturmasınaolanak tanır, bu da uzaktan kod yürütme dahil olmak üzere çok çeşitli istenmeyen davranışlarla sonuçlanabilir. Kötü niyetli girişlerin zararı genellikle erişim kontrollerinin yetersizliğine ve eklentiler arasında yetkilendirmenin izlenememesine bağlıdır. Yetersiz erişim kontrolü, bir eklentinin diğer eklentilere körü körüne güvenmesine ve girdileri son kullanıcının sağladığını farz etmesine olanak tanır. Bu tür yetersiz erişim kontrolü, kötü niyetli girdilerin veri sızdırma, uzaktan kod yürütme ve ayrıcalık yükseltme gibi zararlı sonuçlara yol açmasını sağlayabilir. Bu bölüm, LLM-Tedarik-Zinciri-Zaafiyetleri tarafından kapsanan üçüncü taraf eklentileri kullanmak yerine LLM eklentilerinin oluşturulmasına odaklanmaktadır. Yaygın Zafiyet Örnekleri 1. Bir eklenti, farklı giriş parametreleri yerine tüm parametreleri tek bir metin alanında kabul eder. 2. Bir eklenti,parametreler yerine tüm yapılandırma ayarlarını geçersiz kılabilecek yapılandırma dizgilerini (configuration strings) kabul eder. 3. Bir eklenti, parametreler yerine ham SQL veya programlama ifadelerini kabul eder. 4. Kimlik doğrulama, belirli bir eklenti için belirgin bir yetkilendirme olmadan gerçekleştirilir. 5. Bir eklenti, tüm LLM içeriğini tamamen kullanıcı tarafından oluşturulmuş gibi ele alır ve ek yetkilendirme gerektirmeden istenen eylemleri gerçekleştirir. Nasıl Önlenir? 1. Eklentiler mümkün olan her yerde katı parametrelendirilmiş girdi uygulamalı ve girdiler üzerinde tür ve aralık kontrolleri içermelidir. Bu mümkün olmadığında, ikinci bir yazılı çağrı katmanı istekleri ayrıştırmak, doğrulama ve temizlik uygulamak için tanıtılmalıdır. Uygulama semantiği nedeniyle serbest biçimli girdinin kabul edilmesi gerektiğinde, potansiyel olarak zararlı yöntemlerin çağrılmadığından emin olmak için dikkatle incelenmelidir. 2. Eklenti geliştiricileri, etkili girdi doğrulama ve temizliği sağlamak için OWASP'ın Uygulama Güvenliği Doğrulama Standardı’ndaki (ASVS-Application Security Verification Standard) önerilerini uygulamalıdır. 3. Yeterli doğrulamayı sağlamak için eklentiler iyice incelenmeli ve test edilmelidir.
  • 22. Owasp.org 22 4. Geliştirme pipeline'larında Statik Uygulama Güvenlik Testi (Static Application Security Testing,SAST) taramalarının yanı sıra Dinamik ve Etkileşimli Uygulama Testlerini (Dynamic and Interactive Application Testing DAST, IAST) kullanın. 5. Eklentiler, OWASP ASVS Erişim Kontrolü Yönergelerini izleyerek herhangi bir güvensiz giriş parametresi istismarının etkisini en aza indirecek şekilde tasarlanmalıdır. Bu, istenen işlevi yerine getirirken mümkün olduğunca az işlevselliği açığa çıkaran en az ayrıcalıklı erişim kontrolünü içerir. Eklentiler, etkili yetkilendirme ve erişim kontrolü uygulamak için OAuth2 gibi uygun kimlik doğrulama kimliklerini kullanmalıdır. 6. Ayrıca, API Anahtarları, öntanımlı (default) etkileşimli kullanıcı yerine eklenti yolunu yansıtan özel yetkilendirme kararları için içerik sağlamak üzere kullanılmalıdır. 7. Hassas eklentiler tarafından gerçekleştirilen herhangi bir eylem için manuel kullanıcı yetkilendirmesi ve onayı isteyin. 8. Eklentiler tipik olarak REST API'leridir, bu nedenle geliştiriciler genel güvenlik açıklarını en aza indirmek için OWASP Top 10 API Güvenlik Zafiyetleri (API Security Risks) - 2023'te bulunan önerileri uygulamalıdır. Örnek Saldırı Senaryoları 1. Bir eklenti temel bir URL'yi kabul eder ve LLM'ye URL'yi bir sorgu ile birleştirerek kullanıcı isteğinin işlenmesine dahil edilen hava durumu tahminlerini elde etme talimatı verir. Kötü niyetli bir kullanıcı, URL'nin kontrol ettikleri bir etki alanına işaret etmesi için bir istek oluşturabilir ve bu da kendi içeriklerini etki alanları aracılığıyla LLM sistemine sokmalarına olanak tanır. 2. Bir eklenti, doğrulamadığı tek bir alana serbest biçimli bir girdi kabul eder. Bir saldırgan, hata mesajlarından keşif yapmak için dikkatlice hazırlanmış payload'lar sağlar. Ardından, kod yürütmekve verihırsızlığı veyaayrıcalık yükseltmesi (privilegeescalation) gerçekleştirmekiçin bilinen üçüncü taraf güvenlik açıklarından yararlanır. 3. Bir vektör deposundan gömülenleri almak için kullanılan bir eklenti, yapılandırma parametrelerini herhangi bir doğrulama olmadan bir bağlantı dizesi olarak kabul eder. Bu, bir saldırganın adları veya ana bilgisayar parametrelerini değiştirerek diğer vektör depolarını denemesineve bunlaraerişmesine ve erişmemesigerekengömüleridışarı çıkarmasına olanak tanır. 4. Bir eklenti SQL WHERE cümlelerini gelişmiş filtreler olarak kabul eder ve bunlar daha sonra filtreleme SQL'ine eklenir. Bu, bir saldırganın bir SQL saldırısı düzenlemesine olanak tanır. 5. Bir saldırgan, depo sahipliğini aktarmak ve kullanıcıyı depolarından kilitlemek için girdi doğrulaması ve zayıf erişim denetimi olmayan güvensiz bir kod yönetimi eklentisinden yararlanmak için dolaylı komut istemi kullanır.
  • 23. Owasp.org 23 Kaynak Linkleri • OpenAI ChatGPT Eklentileri: https://platform.openai.com/docs/plugins/introduction • OpenAI ChatGPT Eklentileri – Eklenti Akışı: https://platform.openai.com/docs/plugins/introduction/plugin-flow • OpenAI ChatGPT Eklentileri – Kimlik Doğrulama: https://platform.openai.com/docs/plugins/authentication/service-level • OpenAI Semantik Arama Eklentisi Örneği: https://github.com/openai/chatgpt-retrieval- plugin • Eklenti Zafiyetleri: Bir web sitesini ziyaret edin ve kodunuzu çaldırın: https://embracethered.com/blog/posts/2023/chatgpt-plugin-vulns-chat-with-code/ • ChatGPT Eklentisi İstismarı Açıklandı: Komut İstemi Enjeksiyonundan Özel Verilere Erişmeye: https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request- forgery-and-prompt-injection./ • OWASP ASVS – 5 Doğrulama, Temizleme, Şifreleme: https://owasp- aasvs4.readthedocs.io/en/latest/V5.html#validation-sanitization-and-encoding • OWASP ASVS 4.1 Genel Erişim Kontrolü Tasarımı: https://owasp- aasvs4.readthedocs.io/en/latest/V4.1.html#general-access-control-design • OWASPİlk 10 API GüvenlikRiskleri:https://owasp.org/API-Security/editions/2023/en/0x11- t10/
  • 24. Owasp.org 24 a LLM tabanlı bir sisteme genellikle geliştiricisi tarafından bir dereceye kadar temsil yetkisi verilir-diğer sistemlerle bağlantı kurma ve bir komut istemine yanıt olarak eylemler yürütebilme yeteneği. Hangi işlevlerin çağrılacağına ilişkin karar, girdi istemine veya LLM çıktısına göre dinamik olarak belirlenmesi için bir LLM 'temsilcisine' (agent) de devredilebilir. Aşırı yetkilendirme, bir LLM'den gelen beklenmedik/belirsiz çıktılara yanıt olarak zarar verici eylemlerin gerçekleştirilmesini sağlayan güvenlik açığıdır (LLM'nin arızalanmasına neyin sebep olduğuna bakılmaksızın; halüsinasyon/kurgulama, doğrudan/dolaylı komut enjeksiyonu, kötü niyetli eklenti,kötütasarlanmışiyi huylukomutlarveyasadece kötüperformansgösteren bir model olabilir). Aşırı Yetkilendirmenin temel nedeni tipik olarak şunlardan biri veya birkaçıdır: aşırı işlevsellik, aşırı izinler veya aşırı özerklik (autonomy). Aşırı Yetkilendirme, gizlilik, bütünlük ve kullanılabilirlik spektrumunda çok çeşitli etkilere yol açabilir ve LLM tabanlı bir uygulamanın hangi sistemlerle etkileşime girebileceğine bağlıdır. Yaygın Zafiyet Örnekleri 1. Aşırı İşlevsellik: Bir LLM aracısı, sistemin hedeflenen işleyişi için gerekli olmayan işlevleri içeren eklentilere erişebilir. Örneğin, bir geliştiricinin bir LLM aracısına (agency) bir repodan belge okumayetkisivermesi gerekir, ancak kullanmayı seçtikleri drd-party eklentisi, belgeleri değiştirme ve silme özelliğini de içerir. Alternatif olarak, bir eklenti bir geliştirme aşamasında denenmiş ve daha iyi bir alternatif lehine çıkarılmış olabilir, ancak orijinal eklenti LLM aracısı tarafından kullanılabilir durumda kalır. 2. Aşırı İşlevsellik: Açık uçlu işlevselliğe sahip bir LLM eklentisi, uygulamanın hedeflenen çalışması için gerekli olanın dışındaki komutlar için girdi yönlendirmelerini düzgün bir şekilde filtreleyemez. Örneğin, belirli bir shell komutunu çalıştırmak için kullanılan bir eklenti, diğer shell komutlarının çalıştırılmasını tam olarak engelleyemez. 3. Aşırı İzinler: Bir LLM eklentisi, uygulamanın hedeflenen kullanımı için gerekli olmayan diğer sistemler üzerinde izinlere sahiptir. Örneğin, veri okumayı amaçlayan bir eklenti, yalnızca SELECT izinlerine değil, aynı zamanda UPDATE, INSERT ve DELETE izinlerine de sahip bir kimlik kullanarak bir veritabanı sunucusuna bağlanır. 4. Aşırı İzinler: Bir kullanıcı adına işlem yapmak üzere tasarlanmış bir LLM eklentisi, genel bir yüksek ayrıcalıklı kimlikle aşağı akış sistemlerine erişir. Örneğin, mevcut kullanıcının belge deposunu okumak için kullanılan bir eklenti, belge deposuna tüm kullanıcıların dosyalarına erişimi olan ayrıcalıklı bir hesapla bağlanır. 5. Aşırı Özerklik: LLM tabanlı bir uygulama veya eklenti, yüksek etkili eylemleri bağımsız olarak doğrulayamazve onaylayamaz.Örneğin,bir kullanıcının belgelerinin silinmesine izin veren bir eklenti, kullanıcıdan herhangi bir onay almadan silme işlemlerini gerçekleştirir.
  • 25. Owasp.org 25 Nasıl Önlenir? Aşağıdaki eylemler aşırı yetki aşımını önleyebilir: 1. LLM agent'larının çağırmasına izin verilen eklentileri/araçları yalnızca gerekli minimum işlevlerle sınırlandırın. Örneğin, LLM tabanlı bir sistem bir URL'nin içeriğini getirme yeteneği gerektirmiyorsa, böyle bir eklenti LLM aracısına sunulmamalıdır. 2. LLM eklentilerinde/araçlarında uygulanan işlevleri gerekli olan minimum düzeyde sınırlandırın. Örneğin, e-postaları özetlemek için bir kullanıcının posta kutusuna erişen bir eklentiyalnızca e-postalarıokumabecerisigerektirebilir,bunedenle eklenti mesaj silme veya gönderme gibi başka işlevler içermemelidir. 3. Mümkün olduğunca açık uçlu işlevlerden kaçının (örneğin, bir shell komutu çalıştırın, bir URL alın, vb.) ve daha ayrıntılı işlevselliğe sahip eklentiler/araçlarkullanın. Örneğin, LLM tabanlı bir uygulamanın bazı çıktıları bir dosyaya yazması gerekebilir. Bu, bir shell fonksiyonunu çalıştırmak için bir eklentikullanılarak uygulansaydı,istenmeyeneylemlerinkapsamıçokgeniş olurdu (Başka herhangi bir shell komutu çalıştırılabilirdi). Daha güvenli bir alternatif, yalnızca bu belirli işlevi destekleyebilecek bir dosya yazma eklentisi oluşturmak olabilir. 4. İstenmeyen eylemlerin kapsamını sınırlandırmak için LLM eklentilerinin/araçlarının diğer sistemlere verdiğiizinleri gerekliminimum düzeyde sınırlandırın. Örneğin, bir müşteriye satın alma tavsiyelerinde bulunmak için bir ürün veri tabanını kullanan bir LLM aracısının yalnızca 'ürünler' tablosunu okuma erişimine ihtiyacı olabilir; diğer tablolara erişimi ya da kayıt ekleme, güncelleme veya silme yetkisi olmamalıdır. Bu, LLM eklentisinin veritabanına bağlanmak amacıyla kullandığı kimlik için uygun veritabanı izinleri uygulanarak sağlanmalıdır. 5. Bir kullanıcı adına gerçekleştirilen eylemlerin, söz konusu kullanıcı bağlamında ve gerekli minimum ayrıcalıklarla aşağı akış sistemlerinde yürütülmesini sağlamak için kullanıcı yetkilendirmesini ve güvenlik kapsamını takip edin. Örneğin, bir kullanıcının kod deposunu okuyan bir LLM eklentisi, kullanıcının OAuth aracılığıyla ve gereken minimum alan kapsamında kimlik doğrulaması yapmasını gerektirmelidir. 6. Tüm eylemlerin gerçekleştirilmeden önce bir insan tarafından onaylanmasını gerektiren döngüiçinde insan (human-in-the-loop) kontrolünü kullanın. Bu, bir aşağı-akış (downstream) sisteminde (LLM uygulamasının kapsamı dışında) veya LLM eklentisi/aracının kendi içinde uygulanabilir. Örneğin, bir kullanıcı adına sosyal medya içeriği oluşturan ve yayınlayan LLM tabanlı bir uygulama, 'post' işlemini uygulayan eklenti/araç/API içinde bir kullanıcı onay rutini içermelidir. 7. Bir eyleme izin verilip verilmediğine karar vermek için LLM'e güvenmek yerine aşağı akış sistemlerinde yetkilendirme uygulayın. Araçları/eklentileri uygularken, eklentiler/araçlar aracılığıyla aşağı akış sistemlerine yapılan tüm isteklerin güvenlik politikalarına göre doğrulanması için tam aracılık (complete mediation) ilkesini uygulayın. Aşağıdaki seçenekler Aşırı Temsilciliği (Agency) engellemez, ancak neden olunan hasar seviyesini sınırlayabilir: 1. İstenmeyeneylemlerinnerede gerçekleştiğini belirlemek ve buna göre yanıt vermek için LLM eklentilerinin/araçlarının ve aşağı akış sistemlerinin etkinliğini loglayın ve gözlemleyin. 2. Belirli bir süre içinde gerçekleşebilecek istenmeyen eylemlerin sayısını azaltmak için oran sınırlaması uygulayınve önemlibir hasar meydanagelmedenönce denetlemeler(monitoring) yoluyla istenmeyen eylemleri tespit etme ihtimalini artırın.
  • 26. Owasp.org 26 Örnek Saldırı Senaryoları LLM tabanlı bir kişisel asistan uygulamasına, gelen e-postaların içeriğini özetlemek için bir eklenti aracılığıyla bireyin posta kutusuna erişim izni verilir. Bu işlevselliği elde etmek için, e-posta eklentisi mesajları okuma yeteneğine ihtiyaç duyar, ancak sistem geliştiricisinin kullanmayı seçtiği eklenti aynı zamandamesaj gönderme işlevlerinide içerir. LLM, kötüniyetle hazırlanmışgelenbir e-postanınLLM'i kandırarak;e-postaeklentisine,kullanıcınınpostakutusundanspamgöndermeküzere 'mesaj gönder' işlevini çağırmasını emrettiği dolaylı bir prompt injection saldırısına karşı savunmasızdır. Bu durum şu şekilde önlenebilir: a) Sadece postaokumaözelliklerisunanbir eklentikullanarak aşırı işlevselliği ortadan kaldırarak, b) salt okunur kapsamına sahip bir OAuth oturumu aracılığıyla kullanıcının e-posta hizmetinde kimlik doğrulaması yaparak aşırı izinleri ortadan kaldırarak, c) ve/veya kullanıcının LLM eklentisi tarafından hazırlanan her postayı manuel olarak incelemesini ve 'gönder' tuşuna basmasını gerektirerek aşırı otomatikliği ortadan kaldırarak. Diğer bir alternatif olarak, posta gönderme arayüzünde oran sınırlaması uygulanarak neden olunan zarar azaltılabilir. Kaynak Linkleri • Red Team 'i kucaklayın: Karmaşık Vekil Sorunu: https://embracethered.com/blog/posts/2023/chatgpt-cross-plugin-request-forgery-and- prompt-injection./ • NeMo-Guardrails Arayüz Kılavuzları: https://github.com/NVIDIA/NeMo- Guardrails/blob/main/docs/security/guidelines.md • LangChain: Araçlar için insan onayı: https://python.langchain.com/docs/modules/agents/tools/how_to/human_approval • Simon Willison: Çift LLM Modeli: https://simonwillison.net/2023/Apr/25/dual-llm-pattern/
  • 27. Owasp.org 27 Aşırı güven, sistemler veya insanlar yeterli gözetim olmadan karar verme veya içerik oluşturma için LLM'lere başvurduğunda ortaya çıkar. LLM'ler yaratıcı ve bilgilendirici içerikler üretebilirken, gerçeklere dayanmayan,uygunsuzveyatehlikeliiçeriklerde üretebilirler.Budurumhalüsinasyonveya konfabülasyon olarak adlandırılır ve yanlış bilgilendirme, yanlış iletişim, yasal sorunlar ve itibarın zedelenmesi ile sonuçlanabilir. LLM tarafından oluşturulan kaynak kodu, fark edilmeyen güvenlik açıklarına yol açabilir. Bu durum, uygulamaların operasyonel emniyeti ve güvenliği açısından önemli bir risk teşkil eder. Bu riskler, titiz bir inceleme sürecinin önemini göstermektedir: • Gözetim • Sürekli doğrulama mekanizmaları • Riskle ilgili feragatnameler Yaygın Zafiyet Örnekleri 1. LLM, yanıt olarak yanlış bilgilendirmeye neden olabilecek hatalı bilgiler sunmaktadır. 2. LLM, dilbilgisi açısından doğruolsa da bir anlam ifade etmeyen,mantıksalolarak tutarsız veya anlamsız metinler üretir. 3. LLM, çeşitli kaynaklardan gelen bilgileri birleştirerek yanıltıcı içerik oluşturmaktadır. 4. LLM, bir yazılım sistemine dahil edildiğinde güvenlik açıklarına yol açan güvensiz veya hatalı kod önerir. 5. Sağlayıcının, potansiyel zararlı sonuçlara yol açan münferit riskleri son kullanıcılara uygun şekilde iletmemesi. Nasıl Önlenir? 1. LLM çıktılarını düzenli olarak izleyin ve gözden geçirin. Tutarsız metinleri filtrelemek için öz tutarlılık veya oylama tekniklerini kullanın. Tutarsız metinleri filtrelemek için öz tutarlılık veya oylama tekniklerini kullanın. Tek bir istem için birden fazla model yanıtının karşılaştırılması, çıktının kalitesini ve tutarlılığını daha iyi değerlendirebilir. 2. LLM çıktısını güvenilir dış kaynaklarla çapraz kontrol (cross-check) edin. Bu ek doğrulama katmanı, model tarafından sağlanan bilgilerin doğru ve güvenilir olmasını sağlamaya yardımcı olabilir. Çıktı kalitesini artırmak için modeli ince ayar veya embeddings ile geliştirin. Önceden eğitilmiş genel modellerin, belirli bir alanda ayarlanmış modellere kıyasla yanlış bilgi üretme olasılığı daha yüksektir. Bu amaçla hızlı mühendislik, parametre etkin ayarlama (parameter efficient tuning-PET), tam model ayarlama ve düşünce zinciri yönlendirmesi gibi teknikler kullanılabilir.
  • 28. Owasp.org 28 3. Oluşturulan çıktıyı bilinen gerçekler veya verilerle çapraz doğrulayabilen (cross-verify) otomatik doğrulama mekanizmaları uygulayın. Bu, ek bir güvenlik katmanı sağlayabilir ve halüsinasyonlarla ilişkili riskleri azaltabilir. 4. Karmaşık görevleri yönetilebilir alt görevlere ayırın ve bunları farklı temsilcilere (agents) atayın. Bu sadece karmaşıklığın yönetilmesine yardımcı olmakla kalmaz, aynı zamanda her temsilci daha küçükbir görevdensorumlututulabileceği için halüsinasyon olasılığını da azaltır. 5. LLM'lerin kullanımıyla ilgili riskleri ve sınırlamaları iletin. Bu, bilgi yanlışlıkları ve diğer riskler için bir potansiyel içerir. Etkili risk iletişimi, kullanıcıları olası sorunlara karşı hazırlayabilir ve bilinçli kararlar almalarına yardımcı olabilir. 6. API'ler ve LLM'lerin bilinçli ve güvenli kullanımını teşvik eden kullanıcı arayüzleri oluşturun. Bu, içerik filtreleri, olası yanlışlıklar hakkında kullanıcı uyarıları ve yapay zeka tarafından oluşturulan içeriklerin açık bir şekilde etiketlenmesi gibi önlemleri içerebilir. 7. LLM'leri geliştirme ortamlarında kullanırken, olası güvenlik açıklarının entegrasyonunu önlemek için güvenli kodlama uygulamaları ve yönergeleri oluşturun. Örnek Saldırı Senaryoları 1. Bir haber kuruluşu, haber makaleleri oluşturmak için çoğunlukla bir yapay zeka modeli kullanıyor. Kötü niyetli bir aktör bu aşırı güveni istismar ederek yapay zekayı yanıltıcı bilgilerle beslerve dezenformasyonunyayılmasınanedenolur.Yapayzekaistemeden içerik aşırır, bu da telif hakkı sorunlarına ve kuruma olan güvenin azalmasına neden olur. 2. Bir yazılım geliştirme ekibi, kodlama sürecini hızlandırmak için Codex gibi bir yapay zeka sistemikullanır. Yapayzekanın önerilerine aşırı güvenmek, güvenli olmayan varsayılan ayarlar veyagüvenli kodlama yöntemlerine uygun olmayan öneriler nedeniyle uygulamaya güvenlik açıkları getirir. 3. Bir yazılım geliştirme firması, geliştiricilere yardımcı olmak için bir LLM kullanıyor. LLM, var olmayan bir kod kütüphanesi veya paketi önerir ve yapay zekaya güvenen bir geliştirici, farkındaolmadan kötüamaçlı bir paketifirmanın yazılımına entegre eder. Bu durum, özellikle üçüncü taraf kod veya kütüphaneler söz konusu olduğunda, yapay zeka önerilerinin çapraz kontrolünün önemini vurgulamaktadır.
  • 29. Owasp.org 29 Kaynak Linkleri • LLM Halüsinasyonlarını Anlamak: https://towardsdatascience.com/llm-hallucinations- ec831dcd7786 • Şirketler Büyük Dil Modellerinin Risklerini Kullanıcılara Nasıl Anlatmalı?: https://techpolicy.press/how-should-companies-communicate-the-risks-of-large-language- models-to-users/ • Bir haber sitesi makale yazmak için yapay zeka kullandı. Bu bir gazetecilik felaketiydi: https://www.washingtonpost.com/media/2023/01/17/cnet-ai-articles-journalism- corrections/ • Yapay Zeka Halüsinasyonları: Paket Riski: https://vulcan.io/blog/ai-hallucinations-package- risk • Büyük Dil Modellerindeki Halüsinasyonlar Nasıl Azaltılır? https://thenewstack.io/how-to- reduce-the-hallucinations-from-large-language-models/ • HalüsinasyonuAzaltmakiçin Pratik Adımlar: https://newsletter.victordibia.com/p/practical- steps-to-reduce-hallucination
  • 30. Owasp.org 30 Bu yazı, kötü niyetli aktörler veya APT'ler tarafından LLM modellerine yetkisiz erişim ve sızma konusuna değinmektedir. Bu durum, tescilli LLM modelleri (değerli bir fikri hakkı olan) tehlikeye girdiğinde, fiziksel olarak çalındığında, kopyalandığında veya işlevsel bir eşdeğer oluşturmak için ağırlıklar ve parametreler çıkarıldığında meydana gelir. LLM model hırsızlığının etkileri arasında ekonomik ve marka itibarı kaybı, rekabet avantajının erozyona uğraması, modelin yetkisiz kullanımı veya modelin içerdiği hassas bilgilere yetkisiz erişim yer alabilir. LLM'lerin çalınması, dil modelleri giderek daha güçlü ve yaygın hale geldikçe önemli bir güvenlik endişesini ortaya çıkarmaktadır. Kuruluşlar ve araştırmacılar, fikri mülkiyetlerinin gizliliğini ve bütünlüğünü sağlayarak LLM modellerini korumak için sağlam güvenlik önlemlerine öncelik vermelidir. Erişim kontrolleri, şifreleme ve sürekli takip içeren kapsamlı bir güvenlik framework'un kullanılması, LLM model hırsızlığı ile ilişkili risklerin azaltılması ve LLM'e güvenen hem bireylerin hem de kuruluşların çıkarlarının korunması açısından çok önemlidir. Yaygın Zafiyet Örnekleri 1. Bir saldırgan, ağ veya uygulama güvenlik ayarlarındaki yanlış yapılandırma yoluyla LLM model havuzuna yetkisiz erişim elde etmek için bir şirketin altyapısındaki bir güvenlik açığından yararlanır. 2. Hoşnutsuz bir çalışanın model veya ilgili eserleri sızdırdığı bir kurum içi tehdit senaryosu. 3. Bir saldırgan, bir gölge model oluşturmak için yeterli sayıda çıktı toplamak üzere dikkatle hazırlanmış girdiler ve komut istemi enjeksiyon teknikleri kullanarak model API'sini sorgular. 4. Kötü niyetli bir saldırgan, LLM'in girdi filtreleme tekniklerini atlayarak bir yan kanal saldırısı gerçekleştirebilirve nihayetinde modelağırlıklarını ve mimari bilgilerini uzaktankontroledilen bir kaynağa aktarabilir. 5. Model ekstraksiyonuna yönelik saldırı vektörü, LLM'in belirli bir konu hakkında çok sayıda istemle sorgulanmasını içerir. LLM'den elde edilen çıktılar daha sonra başka bir modelin ince ayarını yapmak için kullanılabilir. Ancak bu saldırıyla ilgili dikkat edilmesi gereken birkaç nokta var: • Saldırganın çok sayıda hedefli sorgu oluşturması gerekir. Sorgular yeterince spesifik değilse, LLM'den elde edilen çıktılar işe yaramayacaktır. • LLM'lerden elde edilen çıktılar bazen halüsinatif cevaplar içerebilir, yani bazı çıktılar saçma olabileceğinden saldırgan modelin tamamını çıkaramayabilir. • Model ekstraksiyonu yoluyla bir LLM'yi %100 çoğaltmak mümkün değildir. Ancak, saldırgan kısmi bir modeli kopyalayabilecektir.
  • 31. Owasp.org 31 6. İşlevsel model kopyalamaya yönelik saldırı vektörü, yapay eğitim verileri (" self-instruct " olarak adlandırılan bir yaklaşım) oluşturmak için hedef modeli istemler aracılığıyla kullanmayı ve daha sonra bunu kullanmayı ve işlevsel bir eşdeğer üretmek için başka bir temel modele ince ayar yapmayı içerir. Bu, Örnek 5'te kullanılan geleneksel sorgu tabanlı ekstraksiyona ilişkin sınırlamaları atlar ve başka bir LLM'yi eğitmek için bir LLM kullanma araştırmalarında başarıyla kullanılmıştır. Ancak bu araştırma bağlamında, model kopyalama bir saldırı değildir. Bu yaklaşım, bir saldırgan tarafından tescilli bir modeli genel bir API ile çoğaltmak için kullanılabilir. Çalınan bir modelin gölge model olarak kullanılması, modelde yer alan hassas bilgilere yetkisiz erişim de dahil olmak üzere düşmanca saldırıları denemek için kullanılabilir veya gelişmiş istem enjeksiyonlarınıdaha da ileri götürmek için düşmanca girdilerle tespit edilmeden deneyler yapılabilir. Nasıl Önlenir? 1. LLM model havuzlarına ve eğitim ortamlarına yetkisiz erişimi sınırlandırmak için güçlü erişim kontrolleri (Örn. RBAC ve en az ayrıcalık kuralı) ve güçlü kimlik doğrulama mekanizmaları uygulayın. a) Özellikle ilk üç yaygınörnekiçin geçerli olan bu durum, içeridengelen tehditler, yanlış yapılandırma ve/veyakötüniyetlibir aktörün içeriden veya dışarıdan sızabileceği LLM modellerini, ağırlıklarını ve mimarisini barındıran altyapıya ilişkin zayıf güvenlik kontrolleri nedeniyle bu güvenlik açığına neden olabilir. b) Tedarikçi yönetimi takibi (supplier management tracking), doğrulama ve bağımlılık açıkları, tedarik zinciri saldırılarının istismar edilmesini önlemek için önemli odak konularıdır. 2. LLM'nin ağ kaynaklarına, dahili hizmetlere ve API'lere erişimini kısıtlayın. a) Bu, içeriden gelen risk ve tehditleri kapsadığı için tüm yaygın örnekler için özellikle doğrudur, ancak aynı zamanda neticede LLM uygulamasının "neye erişimi olduğunu" kontrol eder ve bu nedenle yan kanal saldırılarını (side-channel) önlemek için bir mekanizma veya önleme adımı olabilir. 3. Şüpheliveyayetkisizdavranışları tespitetmekve bunlara derhal yanıt vermek için LLM model havuzlarıyla ilgili erişim loglarını ve etkinlikleri düzenli olarak takip edin ve denetleyin. 4. Altyapı içindeki erişim ve dağıtım kontrollerini artırmak için yönetim, izleme ve onay iş akışlarıyla MLOps dağıtımını otomatikleştirin. 5. Yan kanal saldırılarına neden olan komut istemi enjeksiyon tekniklerinin riskini azaltmak ve/veya hafifletmek için kontroller ve hafifletme stratejileri uygulayın. 6. LLM uygulamalarından veri sızdırma riskini azaltmak amacıyla uygun olan yerlerde API çağrılarının ve/veya filtrelerin oran sınırlaması veya diğer izleme sistemlerinden veri ekstraksiyonu faaliyetini tespit etmek için tekniklerin uygulanması (Örn. DLP). 7. Ekstraksiyon sorgularını tespit etmeye ve fiziksel güvenlik önlemlerini sıkılaştırmaya yardımcı olmak için düşmanca sağlamlık eğitimi uygulayın. 8. Bir LLM'nin yaşam döngüsünün yerleştirme ve algılama aşamalarına bir watermarking framework uygulamak.
  • 32. Owasp.org 32 Örnek Saldırı Senaryoları • Bir saldırgan, LLM model havuzuna yetkisiz erişim elde etmek için bir şirketin altyapısındaki bir güvenlik açığından yararlanır. Saldırgan, değerli LLM modellerini dışarı sızdırmaya devam eder ve bunları rakip bir dil işleme hizmeti başlatmak veya hassas bilgileri çıkarmak için kullanarak orijinal şirkete önemli mali zararlar verir. • Hoşnutsuz bir çalışan model veya ilgili eserleri sızdırır. Bu senaryonun kamuya açık olması, gri kutudüşman saldırganları için saldırganların bilgisini artırır veyabunaalternatif olarak mevcut mülkiyeti doğrudan çalar. • Bir saldırgan API'yi dikkatlice seçilmiş girdilerle sorgular ve bir gölge model oluşturmak için yeterli sayıda çıktı toplar. • Tedarik zincirinde bir güvenlik kontrolü hatası olması, tescilli model bilgilerinin veri sızıntılarına yol açmaktadır. • Kötü niyetli bir saldırgan, bir yan kanal saldırısı gerçekleştirmek ve model bilgilerini kendi kontrolü altındaki uzaktan kumandalı bir kaynağa almak için girdi filtreleme tekniklerini ve LLM'nin girişlerini atlar. Kaynak Linkleri • Meta'nın güçlü yapay zeka dil modeli internete sızdı: https://www.theverge.com/2023/3/8/23629362/meta-ai-language-model-llama-leak-online- misuse • Kaçak LLaMA : Meta'nın LLaMA NLP modeli nasıl sızdı: https://www.deeplearning.ai/the- batch/how-metas-llama-nlp-model-leaked/ • Ne Gördüğünüzü Biliyorum: https://arxiv.org/pdf/1803.05847.pdf • D-DAE: Savunma Nüfuz Eden Model Ayıklama Saldırıları: https://www.computer.org/csdl/proceedings-article/sp/2023/933600a432/1He7YbsiH4c • Model Ayıklama Saldırılarına Karşı Kapsamlı Bir Savunma Framework'ü: https://ieeexplore.ieee.org/document/10080996 • Alpaca: Güçlü, Tekrarlanabilir Bir Talimat Takip Modeli: https://crfm.stanford.edu/2023/03/13/alpaca.html • Filigran Oluşturma, LLM'lerin Potansiyel Risklerini Azaltmaya Nasıl Yardımcı Olabilir? https://www.kdnuggets.com/2023/03/watermarking-help-mitigate-potential-risks-llms.html
  • 33. Owasp.org 33 Ana Ekip Üyeleri Mavi ile listelenmiştir. aiseclab.org AISecLab Türkçe Çeviri Ekibi
  • 34. Owasp.org 34 Mentor Cihan Özhan Furkan Berk Koçoğlu Şevval Ayşe Kenar Amine Nur Yeşil