Lokal AI Nedir? Şirketinizde ChatGPT Olmadan Yapay Zeka Kullanımı
Verileriniz şirket dışına çıkmadan, internet bağlantısı gerekmeden çalışan yapay zeka sistemleri: maliyet, güvenlik ve uygulama senaryoları.
ChatGPT, Claude, Gemini gibi bulut tabanlı yapay zeka asistanları muhteşem, ama bir kurum perspektifinden bakıldığında ciddi sorunları var: verileriniz şirket dışına çıkıyor, sözleşme bağımlılığı doğuyor, API maliyetleri öngörülemez şekilde büyüyebiliyor ve internet bağlantısı kesilince hizmet duruyor. İşte tam bu sorunları çözen yeni bir yaklaşım yaygınlaşıyor: Lokal AI.
Lokal AI nedir?
Lokal AI, yapay zeka modellerinin (özellikle büyük dil modelleri — LLM'ler) kendi sunucunuzda veya bilgisayarınızda çalıştırılması demektir. Hiçbir veri bulutta saklanmaz, internet bağlantısı gerekmez, API ücreti ödenmez. Donanımınız ve elektrik gideri haricinde marjinal maliyetiniz sıfırdır.
Üç ana kategoride uygulama görüyoruz:
- Bireysel kullanım: Geliştiriciler ve teknik kullanıcılar için kendi makinesinde GPT-4 kalitesinde modeller (LLaMA 3.3, Mistral, Qwen 2.5) — 24-32 GB VRAM'li bir GPU ile çoğu görev için yeterli.
- Kurumsal asistan: Şirket içi dokümanlarınızla konuşan AI (RAG — Retrieval Augmented Generation). "Geçen ay imza yetkisi olan müdür kimdi?" diye sorduğunuzda şirketin sözleşme arşivinden cevap üretir.
- Üretken AI iş akışları: Stable Diffusion ile ürün görseli üretme, Whisper ile toplantı transkripsiyonu, kendi ses tonunuzda sentez (TTS).
Hangi modeller bulutla yarışacak seviyede?
2024 sonu — 2025 başında yayınlanan açık ağırlıklı (open-weight) modellerle artık gerçekten ciddi bir alternatife sahipsiniz:
- LLaMA 3.3 70B (Meta) — GPT-4 mini ile yarışan kalitede, 48 GB VRAM gerektirir.
- Qwen 2.5 32B (Alibaba) — Türkçe dahil çok dilli, kod ve matematik konularında güçlü.
- DeepSeek V3 — Reasoning görevlerinde ön plana çıkıyor.
- Mistral Small 24B — 16 GB VRAM yeterli, ofis görevleri için ideal.
Quantize edilmiş (Q4_K_M, Q5_K_M) sürümleri ile bu modelleri tek bir RTX 4090 üzerinde rahatlıkla çalıştırabilirsiniz.
Donanım: Hangi GPU gerekir?
Çıkarım (inference) için VRAM ana sınırlayıcıdır:
- 8 GB VRAM (RTX 3060 12GB / 4060 Ti 16GB): 7B-13B parametre modeller, kişisel kullanım
- 24 GB VRAM (RTX 3090 / 4090): 32B parametre modeller, küçük takım/KOBİ
- 48 GB VRAM (A6000 veya 2× 4090): 70B parametre modeller, kurumsal kullanım
- 80 GB+ VRAM (A100, H100): büyük modeller veya yüksek paralel kullanım
Apple Silicon (M3 Max, M4 Pro) makineler de unified memory mimarisi sayesinde ilginç alternatifler.
Kullanılan yazılım katmanı
Açık kaynak ekosistemi olgunlaştı. Kurumsal kurulumda genelde şu stack'i kullanıyoruz:
- Ollama: Model indirme, çalıştırma ve REST API sunumu — Docker benzeri kolay komut yapısı
- Open WebUI: ChatGPT benzeri tarayıcı arayüzü, kullanıcı yönetimi, sohbet geçmişi
- LangChain veya LlamaIndex: RAG sistemleri için doküman indeksleme
- Qdrant / Weaviate: Vektör veritabanı — şirket dokümanlarınızı arama için
- vLLM veya TGI: Yüksek throughput'lu inference (production scale)
Kurumsal RAG: Şirket dokümanlarınızla konuşan AI
Kurumsal müşterilerimizin en çok talep ettiği senaryo: kendi PDF arşivleri, sözleşmeleri, prosedür dokümanları ile konuşan bir asistan. Çalışan "müşteri X ile imzaladığımız son sözleşmenin gizlilik maddesi neydi?" diye soruyor, AI ilgili dokümanı bulup özetleyerek cevap üretiyor.
Tipik bir RAG kurulumumuz:
- Şirket dokümanları (PDF, DOCX, Markdown) parse edilip parçalara ayrılır.
- Her parça için embedding (vektör temsili) üretilir ve Qdrant'a yazılır.
- Kullanıcı bir soru sorduğunda, vektör arama ile en alakalı 5-10 parça bulunur.
- LLM bu parçalarla birlikte soruyu görür ve cevabı üretir.
- Cevap kullanıcıya kaynak referansı ile birlikte sunulur — "Bu bilgi şu sözleşmede yer alıyor."
Tipik maliyet karşılaştırması
10 kişilik bir KOBİ için orta seviye senaryo:
| Kalem | Bulut (ChatGPT Team) | Lokal AI |
|---|---|---|
| Yıllık lisans | $30/kullanıcı/ay × 12 × 10 = $3.600 | 0 |
| Donanım | 0 | ₺120.000 (bir defa) |
| Elektrik | 0 | ₺3.000/yıl |
| Veri ihlali riski | Yüksek | Yok |
| Yıllık net | ~₺120.000 | ₺3.000 |
İlk yıl bulut daha ucuz görünür, ama 2. yıldan itibaren lokal AI tasarrufa geçer ve veri güvenliği açısından kıyaslanamaz avantaj sağlar.
Fil Teknoloji'nin lokal AI kurulum paketleri
Müşteri ihtiyacına göre üç paket sunuyoruz:
- Bireysel / geliştirici kiti: 3.500 ₺ — Ollama + Open WebUI kurulumu, model seçimi danışmanlığı.
- KOBİ asistanı: 18.000 ₺ — RAG sistemi, en fazla 1.000 dokümana kadar indeksleme.
- Kurumsal LLM sunucusu: 25.000 ₺+ — Çoklu GPU sunucu yapılandırması, kullanıcı yönetimi, yedeklilik.
Yapay zeka kurumsal stratejinizde nereye konumlanmalı? Bir kahve içip konuşalım.
Bu konuda projeniz mi var?
Fil Teknoloji 30 yıllık BT operasyon birikimiyle bu alanda hizmet vermektedir. Projeniz için fizibilite, danışmanlık veya kurulum talebi almak isterseniz iletişime geçebilirsiniz.