Sesli arayüzler (VUI—Voice User Interface), mobil ve çoklu yüzeyli (telefon, hoparlör, TV, otomotiv, giyilebilir) deneyimleri ekransız ya da ekran destekli biçimde dönüştürüyor. Komut tanıma, doğal dil anlayışı (NLU), konuşma sentezi (TTS) ve diyaloğa dayalı görev yönetimi artık yalnızca “asistan” kategorisinin işi değil; eğitim, sağlık, finans, ev otomasyonu, medya, oyun ve kurumsal saha senaryolarında gittikçe standart hâle geliyor. Yayınlama tarafında da dengeler değişiyor: Bir uygulamayı yalnızca mağazaya yüklemek yetmiyor; ses niyeti ile ekran bağlamını birleştiren çok yüzeyli bir strateji gerekiyor. Üstelik sesli arayüzler; gizlilik, erişilebilirlik, enerji, hataya dayanıklılık ve veri kalitesi gibi alanlarda yeni riskler ve fırsatlar yaratıyor.
1) Sesli Arayüz Mimarisi: VUI + NLU + TTS + Ekran Bağlamı
Çerçeve:
-
ASR (Automatic Speech Recognition): kullanıcı sesini metne çevirir.
-
NLU (Niyet + Varlık çıkarımı): “Yarın 7’ye alarm kur” → niyet:
alarm_set
, varlıklar:time=07:00
. -
Diyalog Durumu (Dialogue State): çok adımlı akışlarda bağlam tutar.
-
TTS: yanıtı doğal sesle sunar.
-
Ekran/cihaz bağlamı: görsel ipucu, dokunmatik kısayol, titreşim/sesli sinyal.
Uygulama önerisi: NLU’yu “niyet ailesi” (ör. arama
, oynat
, ekle
, özetle
, rezervasyon
) olarak modelleyin; her niyete en az bir sessiz geri dönüş (haptik/LED/ton) ekleyin.
2) Yayınlama Hedef Yüzeyleri: Telefon, Hoparlör, TV, Otomotiv, Giyilebilir
Telefon: Ses+ekran hibriti; onboarding, ödeme, doğrulama gibi hassas adımları ekrana taşıyın.
Akıllı hoparlör: Saf ses deneyimi; çok kısa yanıt, “niyeti teyit etme” ve hatayı affedicilik.
TV/10 ft UI: Aile/ortak kullanım; “sesle bul, ekranda seç” akışı.
Otomotiv: Eller-serbest güvenlik öncelikli; kısa cümleler, teyit ve iptal kolaylığı.
Giyilebilir: Mikro görevler; nabızla/ivmeyle tetiklenen komutlar, “kısa yanıt + titreşim”.
Kontrol listesi:
-
Hedef yüzey başına latans hedefi (ör. hoparlörde < 1.0–1.5 sn)
-
Görsel eşlik gerekli mi? Nerede zorunlu?
-
Ağsız mod / sınırlı bağlantıda “en az komut seti”
3) Niyet (Intent) Tasarımı: “Kısa, Doğal, Hatırlanabilir”
İlke: Kullanıcının söyleyeceği cümleler doğal olmalı; sistem “anahtar kelime bekleyen” değil “niyet anlayan” yapıda kurulur.
Örnek şablon:
-
Emir: “X’i başlat / çal / aç / ekle / kaydet”
-
Soru: “Bugünkü özetim ne?”, “Son raporum hazır mı?”
-
Bilgilendirme: “Akşam 6’da beni hatırlat.”
Ölçüm: ASR_confidence
, intent_match_rate
, repair_rate
(tekrar/yeniden ifade).
4) Varlık (Entity) ve Slot Doldurma: Hata Toleransı
Teknik: Çok adımlı sorular yerine tek cümlede mümkün olan en çok varlığı toplama; eksikse soru ile tamamlama.
Örnek: “Bana yarın sabah 7’de, iş takvimimden önce, spor hatırlat.” → time=07:00
, context=work_calendar
, type=fitness
.
Kontrol listesi:
-
“Şunu mu demek istediniz?” teyit tasarımları
-
n-best
ASR hipotezleriyle akıllı düzeltme -
Bölgesel saat/dil farklılıkları (TR-EN karma) için eşleştirme
5) VUI İçin Mağaza Varlıkları: Posterde “Ses Komutu + Sonuç Ekranı”
ASO/PPO kuralı: İlk görsel/video posterde tek bir ses komutu + görünen sonuç.
Örnek: “Sesle ‘gün sonu raporum’ de” → ekranda rapor çıktısı.
Kontrol listesi:
-
7–9 kelimelik fayda cümlesi
-
10–15 sn video storyboard: sorun→komut→sonuç→CTA
-
Kullanıcı “ne söyleyeceğini” ilk bakışta anlıyor mu?
Ölçüm: product_page_view→install
CR, “anlaşılırlık/kolaylık” temalı yorum payı.
6) Çok Dilli Yayınlama ve Yerelleştirme: “Sesin Diyalekti”
Zorluk: ASR/NLU, yalnızca dil değil lehçe, vurgu, yerel kalıp farklarına duyarlıdır.
Taktik:
-
Pazar başına komut eşanlamlıları sözlüğü.
-
Yerel örnekler: TR’de “akşamüstü” gibi yuvarlak zaman.
-
TTS’de doğal tını önemi—marka sesi ile uyum.
Ölçüm: Dil/lehçe kırılımında intent_match_rate
, “anlaşılmadı” şikâyet oranı.
7) Gizlilik, İzin ve Ortak Alanlar
Gerçek: Ses, kişisel ve çevresel veridir. Ortak yaşam alanlarında (salon, ofis) izinsiz dinleme algısı kritik.
İlke:
-
Değer-sonrası izin (ilk faydadan sonra mikrofona erişim iste).
-
“Siyah kutu” yerine açık anlatım: cihaz-üstü işleme/yerel saklama seçenekleri.
-
Görsel/sesli göstergeler: dinleme açık/kapalı.
Ölçüm: İzin kabul oranı, kapatma şikâyetleri, opt-out dönüşleri.
8) Enerji ve Latans: Ses = Gerçek Zaman
Hedef: Son-komut→yanıt döngüsü 1–2 sn; mobilde işlemci/enerji bütçesi sınırlı.
Teknik:
-
On-device küçük ASR/NLU/TTS modelleri (hybrid);
-
Cache (son 5–10 komut), streaming ASR;
-
Düşük güç modunda arka plan dinlemesini kapatma ya da “wake word”e sınırlama.
Ölçüm: end_to_end_latency
, battery_temp_proxy
, wake_word_false_positive
.
9) Erişilebilirlik: VUI = Erişilebilirliğin Kaldıracı
Fırsat: Görme, motor veya bilişsel farklılıkları olan kullanıcılar için VUI temel erişim yolu olabilir.
Uygulama:
-
Tüm ses komutlarının ekran eşdeğeri (buton/kısayol).
-
Kısa cümle—tek eylem—tekrar ilkesi.
-
Hata durumunda dostça rehber ve örnek komut önerisi.
Ölçüm: Erişilebilirlik ayarları kullanılan oturum oranı, görev tamamlama süresi, şikâyet temaları.
10) Pazarlama ve ASO’da “Komut Anlatısı”
Strateji: Ürünü “ne yapabildiği” ile değil “ne söyleyince ne olduğu” ile anlatın.
Örnek mağaza metni:
-
Kısa açıklama: “Sesle ‘bugünüm’ de—özet anında hazır.”
-
Uzun açıklama: 3 örnek komut, 3 sonuç ekranı, 1 güven ifadesi (iade/deneme/erişilebilir plan).
Ölçüm: Komut metinli varyant vs özellik listesi varyantı CR farkı.
11) VUI QA: Gürültü, Aksan, Ortak Konuşma, Çocuk Sesi
Test matrisi:
-
Ortam: sessiz/ev/ofis/kafe/araç.
-
Konuşmacı: yetişkin/çocuk, farklı aksanlar.
-
Cihaz: mikrofon kalitesi farklı sınıflar.
Kontrol listesi:
-
WER
(Word Error Rate) hedefi -
intent_recovery
(yanlış anlaşıldığında kurtarma) -
“Bilmiyorum” yerine güvenli default yanıtlar
12) Telemetri ve Semantik Katman: Ses Sütunları
Funnel (genişletilmiş):impression → product_page_view → install/visit → first_open → mic_permission → voice_command_start → intent_match → action_success → followup_suggestion_click → paywall_view → purchase → renewal_2m
Etiketler:surface(phone/speaker/tv/auto/wear), locale, noise_level, wake_word, asr_confidence_bin, ab_group
Metrikler: intent_match_rate
, repair_rate
, latency_p95
, action_success_rate
.
13) VUI + Görsel Hibritleri: “Sesle Bul, Ekranda Tamamla”
Örnek akış:
-
“Sesle bul”: “Akşam yemeği için 30 dakikalık tarifler” → ekranda liste.
-
“Ekranda tamamla”: seç, başlat—ses rehberi her adımda kısa ipucu verir.
Tasarım: Ekranda büyük tipografi, aşama sayacı, kısayol butonları (duraklat/tekrar et/sonraki adım).
14) Ödeme, Abonelik ve Ses
Kural: Ödemenin doğrulama adımı ses değil, ekran (veya cihaz biyometrisi) olmalı.
Paywall dili: “Sesle rapor → ekranla onay.” Güvence (iade/iptal kolaylığı) ile kısa cümle.
Ölçüm: paywall_view→purchase_success
, drop_after_voice_step
.
15) Bildirim ve Hatırlatma: Sesli Geri Çağırma Etiği
İlke: Gece/sessiz saatlere saygı; hedefli ve nadir tetikleyiciler.
Örnek: “Akşam 7’de ‘özet’ demeyi unutma.” + titreşim/LED. İzin ve kategori tercihi açık.
Ölçüm: Açılma/tıklama, kapatma oranı, şikâyet temaları.
16) TV ve Oturma Odası: Aile Senaryoları
Örnek: “Seyredilecek filmleri öner” → TV’de poster ızgarası; “2 numarayı aç” veya kumanda ile seçim.
Ebeveyn modu: Çocuk profiline göre filtre; yetişkin komutları kilitli.
Ölçüm: TV oturum süresi, birlikte kullanım metrikleri, aile planı dönüşümü.
17) Otomotiv: Eller-Serbest Güvenlik
Kural: Gözler yolda—eller direksiyonda.
-
Komut uzunluğu ≤ 5–7 kelime.
-
Yanıt ≤ 3–5 saniye; teyit ve iptal kolaylığı.
-
Çevrimdışı kısmi komut seti.
Ölçüm: Başarı oranı, yanlış tetikleme, sürüş sırasında hatalı etkileşim.
18) Kriz Protokolü: “Seni Anlayamadım” Fırtınası
Belirti: intent_match_rate
düşer, WER artar, şikâyetler yükselir.
Aksiyon:
-
Canary %5’te özellik kapatma (kill switch), eski modeli devreye alma.
-
Kullanıcıya empatik açıklama: “Bu akşam sesle ilgili sorunu düzeltiyoruz; geçici olarak ekran kısayolları aktif.”
-
Kök neden: mikrofon izin değişimleri, gürültü eşiği, model güncellemesi.
Ölçüm: MTTR, puan toparlanması, “anlaşılmadı” teması azalımı.
19) Erişilebilirlik ve Hukuk: Kaydetme, Saklama, Onay
Şeffaflık: Hangi ses verisi nerede işleniyor? “Kaydedilmiyor/yerelde işleniyor” seçeneklerini belirgin sunun.
Bölgesel kısıtlar: Kurum/ülke politikalarına göre varsayılan kapalı kayıt; sadece işleme için geçici buffer.
Kontrol listesi:
-
“Konuşma verisi politikanız” kısa ve anlaşılır
-
“Hemen sil” seçeneği
-
Çocuk hesaplarında ekstra koruma
20) 30–60–90 Günlük VUI Yayın Planı (Uygulanabilir)
Gün 0–30
-
Niyet envanteri (ilk 10–15 niyet) ve komut eşanlamlıları.
-
Mağaza varlıkları: “ses komutu + sonuç” poster/video.
-
On-device küçük model + bulut yedeği; değerden sonra mikrofon izni.
-
Telemetri şeması:
voice_command_start, intent_match, action_success
.
Gün 31–60
-
TV/10 ft UI seti; “sesle bul, ekranda tamamla” akışı.
-
Gürültü/aksan test matrisi ve
WER/repair
hedefleri; kısa kriz planı. -
Paywall: “sesle değer, ekranla onay” varyantı (A/B).
-
Bildirim ve hatırlatma kategorileri (sessiz saatler).
Gün 61–90
-
Çok dilli yerelleştirme (komut sözlüğü); TTS/marka sesi entegrasyonu.
-
Otomotiv/giyilebilir minimal komut seti; offline set.
-
Erişilebilirlik raporu ve “ses verisi politikası” iyileştirmesi.
-
ADR/kalıcı kurallar: “komut anlatısı”, “değer-sonrası izin”, “kill switch”.
Sonuç
Sesli arayüzlü uygulamalarda yayınlama, üç temel ilkenin birleşimiyle başarıya ulaşır:
-
Niyet Odaklı Tasarım: Kullanıcı “ne söyleyeceğini” bilmelidir. Mağaza varlıklarında komut + sonuç anlatısı, ürün içinde kısa—tek eylem—tekrar ilkesi, varlık/slot doldurmada hata toleransı ve “teyit” tasarımları vazgeçilmezdir.
-
Çok Yüzeyli Uyum ve Güven: Telefon–hoparlör–TV–otomotiv–giyilebilir arasında latans, enerji ve gizlilikdengesi kurulmalıdır. Değer-sonrası mikrofon izni, on-device küçük modeller, “sesle bul—ekranda tamamla” hibriti, ödeme ve kritik adımlarda ekran/biyometri ile güvenli onay şarttır.
-
Ölçüm ve Operasyon Disiplini:
intent_match_rate
,repair_rate
,latency_p95
,action_success_rate
ve erişilebilirlik/gizlilik metrikleri; PPO/ASO testleri ve komut anlatısı ile birlikte ele alınmalıdır. Gürültü/aksan test matrisi, kriz anında kill switch ve canary/rollback prosedürleri, yorum–tema–sprint–ölçülebilir sürüm notudöngüsü yayın ritmini sürdürülebilir kılar.
Kısacası: Kısa söyle, hızlı anla, güvenli onayla, net sonuç göster. Sesli arayüzler, yayınlamayı “ekran” merkezinden “niyet” merkezine taşır. Doğru niyet tasarımı, çok yüzeyli hibrit akışlar, etik gizlilik ve ölçüme dayalı operasyon ile sesli deneyimler; keşif–dönüşüm–retansiyon üçlüsünde güçlü ve sürdürülebilir bir avantaj yaratır.