Jonathan: Bana bu resmi betimler misin?
Be My Eyes Sanal Gönüllü Yapay Zeka: (AI): "Resim gri halılı bir odayı gösteriyor. Sol tarafta kitapların ve diğer eşyaların bulunduğu bir kitaplık var. Sağ tarafta, bir kapının içinde çeşitli eşyaların bulunduğu bir raf var. Odanın ortasında, üzerinde mikrofon bulunan bir mikrofon sehpası var. Odanın sağ tarafında da katlanır bir sandalye var."
Jonathan: Bakalım bana mikrofon hakkında ne söyleyebilecek. Bana resimdeki mikrofon hakkında bilgi verin.
AI: "Resimdeki mikrofon siyah bir mikrofon standına bağlı. Gümüş gövdeli ve siyah ön camlı bir kondansatör mikrofon gibi görünüyor. Mikrofon odanın ortasına yerleştirilmiş."
Jonathan: Kondansatörlü bir mikrofon olup olmadığı konusunda emin değildi, bu yüzden öyle göründüğünü söyledi ama aslında öyle değil. Bu dinamik bir mikrofon.
Odanın çok zengin bir tasviriydi ve sağ tarafta üzerinde çeşitli eşyalar bulunan bir raf olduğundan bahsediyordu. Bana bu konuda daha fazla bilgi verip veremeyeceğini merak ediyorum, o yüzden cevap vereceğim.
Jonathan: Sağ taraftaki raftaki eşyalar nelerdir?
AI: sağ raftaki eşyalar arasında kırmızı bir tencere, siyah bir dizüstü bilgisayar, kırmızı bir klasör, doldurulmuş bir hayvan, siyah bir gömlek ve birkaç saklama kutusu var. Rafta ayrıca birkaç kitap ve bir resim çerçevesi var.
Jonathan: Doldurulmuş hayvanın ne için orada olduğuna dair hiçbir fikrim yok. Sanırım onu oraya Bonnie koymuş olabilir. [Bakalım o doldurulmuş hayvan hakkında daha fazla şey öğrenebilecek miyiz?
Jonathan: Bana resimdeki doldurulmuş hayvandan bahset.
AI: resimdeki doldurulmuş hayvan beyaz karınlı yeşil bir kurbağa. Odanın sağ tarafında üstten ikinci rafta oturuyor.
Kaynak:
Selamlar herkese. Hani derler ya, sözün bittiği yer diye, yukarıda Jonathan Mosen tarafından yapılan Podcast serisinin 222’si tam da buna karşılık geldiği için yazıyı o Podcast içinde yaptığı demodan bir bölümle açmak istedim. Çeviriyi DeepL ile yaptım. Yani bu yazıdaki her şey bir yapay zeka ürünü.
Be my Eyes mart ayında, Open AI firması tarafından geliştirilen GPT 4 görüntü tanıma teknolojisini kullanacağını duyurmuştu. Bunu Open AI de kendi sitelerinde ve tanıtımlarında resmen duyurmuş. Be My Eyes kurucusu Hans Jorgin Wiberg ve Be My Eyes CEO’su Michael Buckley yine Jonathan Mosen tarafından yapılan röportajda aslında Open AI firmasının kendileriyle irtibat kurduğunu söylüyorlar. GPT 4 ile gelen görüntü tanıma teknolojisini test etmenin enfes bir yolu değil mi sizce de? Her neyse böylece hikaye başlıyor ve Be May Eyes içine sanal gönüllü diye bir bölüm daha ekleniyor. Tamamıyla gören gönüllülerle körleri buluşturan uygulamaya bambaşka bir açılım geliyor yani.
Açıkçası bugüne dek Facebook ile başlayan, Seeing AI, Envision, Supersense ve son olarak From Your Eyes gibi birçok uygulamayla karşımıza çıkan yapay zeka betimlemeleri bir betimlemeden çok nesne tanıma işlevi gören, pek de kullanışlı olmayan çalışmalar. Körler buralardaki betimlemelerden çok OCR özelliklerini daha yoğun kullanıp bilgi almaya gayret ediyor. Oradaki performans oldukça başarılı diyebiliriz de. Ancak betimleme meselesi yani görüntünün metne dönüştürülmesi bebek adımları seviyesinde.
İşte tam da O nedenle ben Ramazan Bayramının birinci günü Jonathan’ın demosunu dinleyince aşırı heyecanlandım ve bu heyecanım halen devam ediyor. Çünkü daha önce hiç görmediğim kadar detaylı ve büyüleyici bir şeydi duyduklarım. Bu yazıyı o gün kaleme almaya başladım. Sonrasında Be My Eyes ekibine yazdım. İlk çeviri sürecinde de birlikte çalışmıştık. Sağolsun Hans hemen yanıt verdi. Epey kapsamlı ve Docusoft denen bir sistemle belgeler imzaladım ve beta grubuna katılmış oldum. 30 35 kişi civarında insan uygulamayı test ediyoruz. Beta uygulamayı kurduğumda benim de yaptığım ilk şey salonda şu an bu yazıyı yazdım koltukta rastgele bir fotoğraf çekmek oldu. Bakın salonumuzu Be My Eyes sanal gönüllü nasıl betimledi.
AI: Resim, duvara monte edilmiş bir televizyonun bulunduğu bir oturma odasını gösteriyor. TV ekranında konuşan bir adam var. Resmin sağ tarafında mavi bir kanepede oturan ve kucağında dizüstü bilgisayar olan bir kadın var. Kanepenin önünde, üzerinde siyah bir kupa ve beyaz bir alışveriş çantası da dahil olmak üzere çeşitli nesneler bulunan bir sehpa var. Zemin beyaz ve gri desenli bir halıyla kaplıdır.
Hemen belirteyim uygulamanın arayüzü ve betimlemeler şu an İngilizce geliyor. Ben bu metni Türkçeye çevirdim. Ama en güzel taraflardan birisi dilerseniz yanıtla diyerek yeni sorular sorabilmeniz ve daha detaylı betimlemeler alabilmeniz. Örneğin bu betimlemeyi Türkçe olarak da yapar mısın diye sorduğumda çoğunlukla olumlu yanıt alıyorum. Arada bir nazlanıp şu an yalnızca İngilizce betimleme yapabiliyorum cevabını alsam da çoğunlukla istediğimi veriyor uygulama. Gelelim betimlemenin doğruluna burada tek hatası Sevda’nın oturduğu şeyin kanepe değil ir koltuk olduğu diyebilirim. Ama orada bir çeviri hatası da olabilir emin değilim. Onun dışında duvara monte edilmiş televizyon, orada konuşan bir erkek kişi sehpanın üzerindekiler tamamıyla gerçeği yansıtan betimlemelerdi.
Bu ilk heyecanla hemen bizim betimleme grubumuzdan Emine’ye yazdım ve bana bir iki afiş göndermesini rica ettim. Acaba buralarda nasıl davranacaktı. İşte gelen bir afişin betimlemesi:
AI: Bu, bir basketbol maçından dört görüntüden oluşan bir kolajdır. Görüntüler, iki görüntü üstte ve iki görüntü altta olacak şekilde bir kare şeklinde düzenlenmiştir. Sol üstteki resimde kırmızı formalı bir oyuncu topa vurmak için zıplıyor. Sağ üstteki görsel, biri beyaz diğeri sarı formalı iki oyuncunun topu yakalamak için zıpladığını gösteriyor. Sol alttaki resimde siyah formalı bir oyuncu topa vurmak için zıplıyor. Sağ alttaki resimde kırmızı formalı bir oyuncu şutu engellemek için zıplıyor. Kolajın ortasında beyaz harflerle "IŞIĞIN KEYFİNİ ÇIKARIN" yazan bir metin bulunmaktadır. Arka plan siyahtır. Bu muhtemelen Turkish Airlines EuroLeague Final Four için bir tanıtım görseli.
Ne dersiniz etkileyici değil mi?
Emine benimle 2 afiş daha paylaşmıştı. Gelin onların da betimlemelerine bakalım. Birincisi Marvel filminden bir afiş.
AI: Resim Marvel çizgi romanlarından bir kadın karaktere ait. Yeşil desenli siyah bir takım elbise giyiyor ve başında büyük boynuzları var. Sağ elinde bir silah tutuyor ve mavi bir arka planın önünde duruyor.
Diğer afişte Tap Gun filmine ait.
AI: Resim, yaklaşmakta olan "Top Gun" filmi için bir film afişi: Maverick" filminin afişi. Ortada, kolunda kırmızı bir yama bulunan yeşil bir bombacı ceketi giyen Tom Cruise yer alıyor. Arka planda uçaklar, bir plaj ve filmdeki diğer karakterlerin görüntüleri de var. Posterin alt kısmında gösterim tarihi olan "27 Mayıs" yazmaktadır.
Emine bu afişi yetersiz buldu örneğin. Diğer karakterler, plaj, uçaklar daha detaylı betimlenmeliydi. Ben de yanıtla diyerek tüm bunları sordum sanal gönüllüye ve hepsiyle ilgili detaylı yanıtlar aldım. Ama onları kopyalarken telefonun azizliğine uğradığımdan onları alamıyorum buraya. Amacım size bizi gelecekte neyin beklediğiyle ilgili fikir vermek.
Gelin tekrar Jonathan’a kulak verelim. Bu sefer Jonathan buz dolabındaki bir yemeği gösteriyor Chat GPT destekli sanal gönüllüye:
Jonathan: Bu ne yemeği?
AI: "Bu yemek Fit Food'dan balkabağı ve brokolili rozbif. Büyük boydur ve son kullanma tarihi 4/4/23'tür. Buzdolabında saklanmalıdır."
Jonathan: Bu yemeğin malzemeleri için Fit Food web sitesini kontrol edin.
AI: Fit Food web sitesini kontrol ettim ve balkabağı ve brokoli ile rozbif yemeğinin malzemeleri biftek, balkabağı, brokoli, soğan, sarımsak, kekik, biberiye, tuz, karabiber, zeytinyağı ve sığır eti suyu.
Tabi burada aklınıza şu gelecek. Söylenen tüm betimlemeler doğru mu? Maalesef buna kesin bir evet yanıtı veremiyorum. Örneğin Jonathan’ın gördüğü son kullanım tarihi kesin olmayabilir. Çünkü bu konuda WhatsApp grubunda epeyce yanıltıcı bilgiler verildiği anlatılıyor. Genel olarak OCR kalitesi çok da başarılı değil bence. Yanıltıcı bilgilere bir örnek de ben vereyim. Geçen hafta Bağdat caddesi üzerinde çektiğim rastgele bir fotoyu Instagram üzerinde paylaştım örneğin. Betimleme şuydu:
AI: Resim, sağ tarafında binalar olan bir sokak gösteriyor. "Idea" adında bir mağaza ve 444-708 telefon numarası var. İnsanlar kaldırımda yürüyor ve sol tarafta sarı çiçekler ve ağaçlar var. Yer ıslak, yakın zamanda yağmur yağmış gibi görünüyor.
Buradaki telefon numarası yanlış örneğin. Idea dediği şey ise bir mağaza değil bir asansör reklamı. Bunu sonra fotoğrafı tekrar sanal gönüllüye gösterdim. Sağ taraftaki restoran ise MADO. İkinci gösterdiğimde bunu Vido diye söyledi ama yiyecek restoranı olduğunu bildi.
Bir başka denemeyi bu sefer GETEM’deki fotoğraflı çocuk kitapları üzerinde yaptık. Birkaç zamandır kör anne balar için çocuk kitaplarında fotoları betimleyip yazıya geçiriyoruz. Siz de kontrol edebilirsiniz. Buradaki bir sayfayı rasgele çektiğimizde gelen betimleme, taç takmış bir kediden söz etti. Ama meğerse aslında kedi taç takmamış. Bir adam kedinin kafasını tutup siliyormuş. Yani diyeceğim betimlemeler yüzde yüz doğru diyemem. Yine de bu, sürecin devrimsel olduğu gerçeğini değiştirmiyor bence. Çünkü bunlar bugün böyleyse birkaç yıl sonra neler göreceğimizi kim bile bilir?
Levent sonra Ela ile çektirdikleri bir fotoyu paylaştı benimle bakalım ne olacak diye. Ela bu aralar her yerde foto çekinmeyi pek seviyormuş. Bakın nasıl çıktı WhatsApp üzerinden gönderilen fotonun betimlemesi:
AI: Resim bir baba ve kızından oluşuyor. Baba kızını kucağında tutuyor ve ikisi de gülümsüyor. Arkalarında ağaçlar ve okyanus manzarası var. Baba beyzbol şapkası, kız ise pembe elbise ve sandaletler giyiyor.
Bu betimleme sonrası ben de sanal gönüllüye adam ve kızın tiplerini biraz daha detaylı anlatır mısın diye sorunca şu yanıtı aldım:
Elbette. Adam 30'lu yaşlarının sonunda ya da 40'lı yaşlarının başında, koyu renk saçlı ve kirli sakallı görünüyor. Beyaz bir beyzbol şapkası ve siyah bir tişört giyiyor. Küçük kız 4-5 yaşlarında, koyu renk saçlı ve pembe elbiseli görünüyor. Pembe sandaletler giyiyor ve elinde pembe bir sırt çantası tutuyor. İkisinin de yüzünde kocaman bir gülümseme var.
Levent sürekli şapka takar ama onun beyzbol şapkası olduğunu sanmıyorum. Onun dışındaki bilgiler doğru.
Ailenizle bir bayram ziyaretinde çektirdiğiniz fotoları bu sistemle betimlettiğinizi düşünmek size de güzel geliyor mu?
Bayram ziyareti demişken yine Jonathan demosuna geri dönelim dilerseniz. Jonathan tatilde çektirdikleri bir fotoğrafı betimlemesini istiyor Be My Eyes uygulamasından.
VoiceOver: Canlı fotoğraf. Big Ben ve Westminster, tarih, 13 Eylül. Canlı fotoğraf, London Eye'dan Buckingham Sarayı'nı gösteren Londra.
Bu betimleme Jonathan tarafından fotoya verilen bir etiket.
Jonathan: Bu fotoğrafta çok fazla detay olacak. Bakalım bununla nasıl başa çıkacak.
VoiceOver: Be My Eyes düğmesi ile betimle.
AI: "Resim, birçok bina ve ağacın bulunduğu bir şehrin havadan görünümü. Binalar çoğunlukla beyaz ve gri renkte, bazılarının çatıları yeşil. Resmin ortasından geçen bir nehir ve üzerinden geçen bir köprü var. Arka planda daha yüksek binalar ve puslu bir ufuk çizgisi var."
Jonathan: Hadi eğitelim.
Jonathan: Bu fotoğraf Londra, İngiltere'de çekildi. Binaları ve nehri betimle.
AI: "Fotoğraftaki binalar çoğunlukla süslü detayları ve sütunları olan eski klasik tarzda binalar. Çoğunlukla beyaz ve gri renkte olup bazılarının yeşil çatıları var. Nehir, resmin ortasından geçen Thames Nehri. Nehrin üzerinden bir köprü geçiyor ve nehrin her iki tarafı da ağaçlarla kaplı.
Jonathan: Bazı binaların isimleri nedir?
AI: "Fotoğraftaki binalardan bazıları Dışişleri ve Milletler Topluluğu Ofisi, Hazine Binası ve Horse Guards Parade. Arka planda Admiralty Kemeri ve Buckingham Sarayı da var."
Bültenimiz çıktıktan sonra bir Youtube canlı yayını yapmak istiyorum. Katılıp tatil fotolarınızı paylaşmak isterseniz seve seve deneriz.
Böyle bir betimlemenin belki de bize en çok fayda sağlayacağı nokta alışveriş siteleri olacak. Orada ürünlerin pek çok fotosu var ve bazen yanlış ürünler sipariş edebiliyoruz.
Bir diyagramın betimlemesini Jonathan önce Seeing AI ile betimletmeyi deniyor. Sonra aynı diyagramı Be My Eyes sanal gönüllüye gösteriyor. Bakalım sizin de nefesiniz kesilecek mi?
Burada 300 konumlandırma Dolby Hoparlör 7.1 düzenine uymaktadır.
Jonathan: Şimdi bu tamamen Sonos Era 300 ve hoparlörleri nereye konumlandırmanız gerektiği ile ilgili. Şu anda Sonos subreddit'inde Era 300'ler hakkında çok fazla konuşma var çünkü bunu kaydettiğim sırada yeni piyasaya sürülmüşlerdi. Öncelikle Seeing AI'nin bu diyagramdan ne çıkardığına bir göz atalım.
Metin, Dolby tarafından önerilen konumlandırma 22 derece, sıfır derece, 22 derece, 300 Era 300 öne bakıyor, 0.2700 derece, 30 derece, 30 derece, 90 derece, 90 derece, 22 derece, 30 derece 90 derece, 90 derece, 90 derece, 110 derece, 110 derece, 1.700, 110 derece. Era 300 kanepeye bakan 0.270 300 0 derece, 22 derece, 430 derece, 90 derece, 110 derece, 110 derece, 135, 135 derece, -, 150 derece, 150 derece, 1000, 300, 5100 ve 35 derece, -, 150 derece, 150 derece, 135 derece, 135 derece, 150 derece, 150 derece.
Jonathan: Çok şey okuyor ama pek bir anlam çıkaramıyorum. Eğer sağa fiske vurursam, VoiceOver: Sahne, muhtemelen bir sistem şeması.
Jonathan: Şimdi Be My Eyes'a bakacağız.
VoiceOver: Be My Eyes ile betimle Düğmesi. Lütfen bekleyin. Sanal Gönüllü bir mesaj yazıyor.
AI: "Resim üç farklı hoparlör kurulumunun bir diyagramıdır. İlk kurulum Dolby, önerilen konumlandırma olarak etiketlenmiş ve merkezde büyük bir hoparlör ile 22, 30, 90, 110, 135 ve 150 derecelik açılarda en küçük hoparlörleri gösteriyor. İkinci kurulum Era 300 öne bakacak şekilde etiketlenmiştir ve aynı hoparlör kurulumunu ancak 90 derecelik açıda ek bir hoparlörle gösterir. Üçüncü kurulum Era 300-kanepeye dönük olarak etiketlenmiştir ve ikinci kurulumla aynı hoparlör kurulumunu gösterir, ancak 135 ve 150 derecelik açılarda iki ek hoparlör bulunur. Tüm kurulumlarda önerilen konumlandırmayı göstermek için hoparlörleri birbirine bağlayan noktalı çizgiler vardır.”
Bu betimlemenin üzerine ne söylenir bilemiyorum. Aldığınız ürünlerde resimlerle, diyagramlarla gösterilen birçok şeye hakim olma olasılığı beni çok heyecanlandırıyor. Son dönemlerde hiçbir teknolojik gelişme karşısında bu derece kalbim çarpmamıştı açıkçası.
Böyle giderse bu yazı bitmeyecek. Son olarak sizi Evimin balkonundan çektiğim ve doğruluğunu teyit etiğim betimlemeyle baş başa bırakacağım. Uygulama halen beta aşamasında olduğundan kullanımıyla ilgili detaylara bilinçli girmedim. Ama ilk etapta tek yapmanız gerekeni sanal gönüllü düğmesine basıp fotoğraf çekmek olduğunu belirteyim. Twitter, WhatsApp gibi yerlerdeki fotoları da Be My Eyes ile betimle diyerek betimletebiliyorum. Ama halen Instagram’daki fotoları uygulamaya nasıl göstereceğimi bulamadım. Uygulamanın birkaç ay içinde tamamen ücretsiz olarak tüm kullanıcılara sunulacağı belirtiliyor. En kısa zamanda sizlerin de deneyimlemeniz dileğiyle.
AI: Resim, solda büyük bir bina ve sağda daha küçük pembe bir bina olan bir sokak görüntüsüdür. Sokakta binaların önünde yeşil bir araba park etmiştir. Büyük binanın balkonlarında bitkiler ve "NURCAN APT. NO:51" yazan bir tabela vardır. Pembe binanın girişine çıkan bir merdiven vardır.
Yorumlar
Bu yazı için henüz yorum yok.
Yeni Yorum