Google Dokümanlar İle OCR

Toplam Okunma 71

Giriş

Son zamanlarda ABBYY FineReader’ın OCR performansı benim için tatmin edici olmaktan uzak kalıyor. OCR uyguladığım kaynak taramalar mı çok kötüydü yoksa ben mi bir şeyleri yanlış yapıyorum, doğrusu emin değilim. Ama tarayıp okuduğum son metinler, OCR hatalarını tolere etmeye alışan kulağımı epey tırmalar oldu.

Bu durum, beni farklı OCR çözümleri aramaya, mümkünse yapay zekâ tabanlı çözümler bulmaya yönlendirdi. Yaptığım, yüzeysel sayılabilecek araştırma sonucunda deneyeceğim birkaç araca ulaştım. Ötekileri test etmeye devam edeceğim ama en kolay ulaşılabilir olanı paylaşmak istedim.

Bahsedeceğim bu yöntemle PDF’lerimizi Google Dokümanlar kullanarak OCR işleminden geçireceğiz. Yöntemi zaten bilen veya kullanan vardır. Ama birkaç gün öncesine kadar benim de aralarında olduğum bilmeyen kişiler için bir alternatif olabilir.

Öncelikle Google Drive

Bu yöntem için dosyalarımızı Google Drive’a yükleyeceğiz. Bunun için bilgisayarımıza uygulamasını indirip Drive içeriğimizi bilgisayara bağlı bir disk veya klasör olarak görüntüleyebiliriz. Ya da uygulamayla hiç uğraşmadan Web sayfası üzerinden de kullanabiliriz ki uygulamanın dosya yüklemeyi klasörler arası dosya taşımak kadar kolay hâle getirmesi haricinde bir katkısı olmayacak.

PDF Dosyasını Hazırlama

Google Dokümanlar’ın OCR uygulaması birçok kısıtlama bulunduruyor. Belirli sayfa sayısının altında sayfası olan PDF’leri işlemek, metin katmanı olan PDF’leri işlememek gibi. Bu yüzden dosyaları Drive’a yüklemeden önce ABBYY FineReader PDF veya başka bir uygulamayla belgeyi yalnızca resim içeren PDF belgelerine dönüştürmek gerekiyor.

Ayrıca yaptığım gelişigüzel birkaç denemenin ardından 75 sayfanın Google Dokümanlar tarafından itiraz edilmeksizin OCR işlemine tabi tutulduğunu tecrübe ettim. Bu nedenle PDF dosyamızı 75 sayfalık parçalara bölmemiz de gerekiyor.

Bu işlemlerden sonra Drive’a yüklemek ve OCR işlemini başlatmak için PDF dosyalarımız hazır olacak.

OCR İşlemini Yaptırma

Metin katmanından arındırdığımız ve 75’er sayfalık parçalara böldüğümüz PDF dosyalarımızı Drive’a yüklüyoruz. Kolaylık olması adına Drive içerisinde çalışabileceğimiz boş bir klasör oluşturmak en mantıklısı olacak.

Dosyaların bu klasöre yüklenmesinin tamamlanmasının ardından Google Drive Web arayüzüne girip çalışma klasörümüzü açacağız. Burada yüklediğimiz PDF’ler listelenecek. Her dosyanın “diğer işlemler” menüsünden ya da uygulama tuşuyla ulaşabileceğimiz menüden “Birlikte aç” menüsünü ve Google Dokümanlar seçeneğini bulup Enter ile seçeceğiz.

Yeni sekmede belge işlenmeye başlayacak. İşlem bittiğinde OCR sonucu görüntülenecek. Burada hiçbir işlem yapmaya gerek yok. Bir kere işlem bitip belge açıldıktan sonra sekmeyi kapatabiliriz.

Çalışma klasörü içerisinde artık PDF’lerin yanında GDOC dosyaları da bulunuyor. Web arayüzünde uzantısız olarak görünüyor ama bu GDOC dosyalarını seçip indirdiğimizde Word belgesine dönüştürülüp indirilecek.

İndirilen Word belgelerini tek bir dosyada birleştirmek için ilk parçayı ya da boş bir Word belgesini açacağız. Ardından  Alt + O, N, N, D tuşlarıyla “Dosyadan nesne ekleme” işlemi için dosya seçme penceresini açacağız. Bu kısayolu önce Alt + O, sonra bir kez N, bir kez daha N, son olarak D tuşuna basarak kullanmamız gerekiyor.

Açılan pencerede indirdiğimiz Word belgelerinin hepsini seçeceğiz. Dosya adı kısmında doğru sırayla dizildiklerini teyit etmekte fayda var. Hiçbir sorun yoksa “Ekle” düğmesine basalım.

Bir süre bekledikten, ekran okuyucusu tekrar konuşmaya başladıktan sonra birleştirilen Word belgesini dilediğimiz gibi kullanabiliriz.

Sonuç

Her ne kadar araştırmamın başında karşıma çıkan bu yöntem beklentimi yeterince karşılamıyorsa, hâlâ alışık olduğumuz OCR hatalarını barındırıyor olsa, gereksiz yere satır başı yapıyor olsa ve daha birçok sorunu olsa da benim için sorun yaşadığım PDF’lerde FineReader’dan daha iyi sonuç verdi.

Bu yöntemle edebi metinleri OCR işlemine tabi tuttuğumu, karmaşık unsurlar, tablolar, şemalar, grafikler vb. içerikleri ihtiva eden metinlerle çalışmadığımı anımsatmak isterim.

Bu ufak ipucunun faydalı olmasını dilerim. Biraz da bencilce olacak ama bu yazıyı okuyup daha iyi bir yöntemi bizimle paylaşacak birilerinin olacağını umarım.

Sürçülisan ettiysem affola.

 

 

Yorumlar

Bu yazı için henüz yorum yok.

Yeni Yorum