Basit bir soru: X ülkesinin vatandaşı olan yazarları ve her birisinin kitaplarının listesini getir.

Süre: 2 dakika.

Yukarıdaki işi bir programcı olarak nasıl yapardınız? Mesela X = Türkiye.

Çok basit bir soru gibi görünüyor.

Acaba gerçekten öyle mi? İsterseniz bir deneyin. ;-)

İsterseniz süreyi 20 dakikaya çıkaralım. Yahut 2 saate. Kaç yazarın kaç kitabını getirebilirsiniz? Ne kadarlık bir bilgisayar kodu yazmanız gerekir, o kod hangi kaynaklara bağımlı olur, ne kadar sürede çalışır?

Şimdi siz bunu düşünedurun, dbpedia.org’a SPARQL sorgulama dili ile birkaç soru soralım ve sonuçlarına bakalım:

- ‘American’ ‘writer’ olan kişileri listele (500 tane ile sınırla) (epey bir yazarı barındıran listemiz hazır).

- Yukarıdaki listeden bir yazar seçelim, mesela Ursula K. LeGuin, şimdi LeGuin’in kitaplarını listeleyelim (epey bir kitap gelir).

- ‘Turkish’ ‘writer’ olan kişileri listele (500 tane ile sınırla) (sadece 4 yazarlık bir liste gelir)

- Oğuz Atay’ın kitaplarını listele (sadece tek bir kitap gelir, hangisi tahmin edin).

Sonuç-1: Teşekkürler semantik web, teşekkürler Türkiye.

Sonuç-2: Daha 40 fırın ekmek yememiz gerekiyor gibi görünüyor.

Sonuç-3: Buna da şükür, dbpedia.org, vs. sağolsun insanlar yemiyor içmiyor yığınla metin verisini ele avuca gelir ve semantik olarak otomatik işlenebilir şekilde kodlayıp kamunun erişimine açıyorlar. Semantik web ne işe yarıyor ve neden desteklenmeli ki acaba diye soranlara verilebilecek güzel bir örnek.

Benzer Yazılar / Similar Posts:

This entry was posted on Wednesday, January 28th, 2009 at 6:12 pm and is filed under General, Programlama. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

10 comments so far

 1 

Ben sorunu doğrudan bizim insanların bilgi koruma güdüsünde ve bıkkınlık hissinde görüyorum. Paylaşmayı bilmeyen, aklı üretileni çoğaltmak yerine üstüne çullanmakta gören bir anlayışa sahibiz.

Diğer taraftan veri girişinin yoğun şekilde gerçekleştiği projeler üzerinde çalışmama ve sözde paylaşımın gücüne inanan biri olmama rağmen oturup iki tane API yazmaya üşeniyorum.

Birazda çalışma mantığımız ile ilgili tabi. Adamlar bu tür projeleri ana işleri olarak görüyorlar, bizde ise ancak yetenekli bir kaç yazılımcı vs. boş vakit bulursa “mesai”den sonra yapıyor.

Türkiye’de zaten devlet tarafında hiç bir umudum yok. İş üniversiteler ve “akıllı” firmalarda bitiyor.

Verileri bir saçalım ortaya demekle başlayabilsek.

Çok mu havada kaldı dediklerim acaba bilmiyorum.

January 28th, 2009 at 7:32 pm
Emre Sevinc
 2 

Bilgi koruma güdüsünün burada söz konusu olduğunu düşünmüyorum. Yani kim neden Türk yazarlarını ve onların kitap listesini korusun? Şaka bir yana şu anda gerçekten de bir proje için Türk yazarlarının kitap listesine ihtiyacım var ve bunun için yoğun parsing işlemleri gerçekleştirmeden (ki o durumda dahi problem yaratan veriler söz konusu) veriye ulaşmak mümkün değil.

Bu gibi konularda zaten devletten bir şey beklemeyi anlamlı bulmuyorum, ABD’deki Silikon Vadisi devlet desteği ile mi kuruldu? Ekonomi ve ölçek ve senin de belirttiğin gibi ‘akıllı firma’ meselesi diye düşünüyorum.

January 28th, 2009 at 8:36 pm
 3 

http://tr.wikipedia.org/wiki/Kategori:T%C3%BCrk_yazarlar

veya

http://mksun.mkutup.gov.tr/F/8JP2NCTY1931CP2HGGSGSIJIUM9DKILVATRGECSEAJBYVX9FFM-00815?func=scan&scan_start=000025608&scan_code=AUT&scan_op=PREV

sanırım işinizi en iyi görecek yerler. Vakit bulamazsanız ben parse ederim. Hatta parse edip bir proje olarak sunulanabilinir.

Devlet konusunda ise ABD’den farklı bir noktamız var. Verinin çoğu devlet organlarımızın veya yarı resmi kurumların elinde (Odalar, Birlikler, Sendikalar vs.). Bugün nöbetçi eczane bilgisini bile 50 ayrı siteden çekmek zorunda kalıyorum ki yarısı yanlış. Diğer taraftan e-devlet diye yutturulan sitede malumunuz.

Ama dediğiniz gibi bu tür verileri artık biraz samanlıkta iğne arar gibi toplayıp derlemek gerekiyor, devletin yardımcı olup olmamasına bakmadan.

January 28th, 2009 at 8:53 pm
Emre Sevinc
 4 

O verdiğiniz adreslerin farkındayım ve hatta ben de kolaylıkla şurayı önerebiliyorum (Milli Kütüphane ve başka yerlerden veri çekip getiriyor):

http://tokat.ulakbim.gov.tr/

Mesele şu ki

1- Wikipedia’yı parse etmek gerekiyor (bunda çok sorun yok, çok basitçe halledilir)ç

2- Milli Kütüphane ya da TOKAT’ın verisini parse etmek gerekiyor. Bunda sorun var çünkü imla hataları barındıran kitap başlıkları geldiği gibi aynı kitabın farklı farklı baskılarının gelme durumu (yahut her ikisi birden, buna kabus senaryosu diyoruz) olabiliyor. Kitap derken benim kast ettiğim ve talep ettiğim ise soyut eser, yani filanca yayınevinin falanca yıldaki filanca baskısı değil.

3- Bütün bunları bildiğim için parse etme işine girişmenizi tavsiye etmem şu anda çünkü epey bir efor sarf edersiniz ve sonuçta yine elinizde bir yığın çöp veri olur. Başa dönmüş oluruz.

4- Tüm bunlara rağmen “ben bu işin altından kalkar, tüm bahsedilen o sorunları da çözer, sonra da bunu semantik web standartlarına uygun olarak sunan bir sunucuya koyarım, isteyen gani gani kullanır” derseniz o zaman ceketimi ilikler saygı duruşuna geçerim (ayrıca bizden sonraki nesiller de faydalanır, lakin ben faydalanamam çünkü benim biraz acelem var). :)

Devlet meselesine gelecek olursak, ABD yazarlarına dair epey veriyi 2 satırlık semantik web standartları ile uyumlu olan dbpedia.org’dan çekmemi sağlayan dbpedia.org işinde ABD devletinin katkısı ne kadar acaba? Yahut FreeBase’e hangi devletin ne kadar katkısı var?

Nöbetçi eczane verisini sağlıklı (!) olarak çekme işinde kolay gelsin der ve tüm ilahi güçlerden cümle programlama ekibine sabır dilerim! :) (Programcının halinden programcı anlar, Tim Berners-Lee semantic web diye bir tarafını yırttığında bazıları ona gülüyordu, o gülümsemelerin yerini bazen acı yutkunuşlar alabiliyor).

January 28th, 2009 at 9:12 pm
Emre Sevinc
 5 

Meraklısına egzersiz: 1900 – 1940 arasında doğmuş, halen yaşayan, Kanada doğumlu sinema sanatçıları içinden Vietnam Savaşı karşıtı olup aynı zamanda Vietnam’la ilgili filmlerde rol almış olanları getir çevirdikleri filmlerle birlikte. ;-) (SPARQL ısınma turları)

January 28th, 2009 at 9:15 pm
 6 

Tokat id veya herhangi bir tekil değer ile listeleme yapmıyor. Http request ile işi daha da zorlaştırmışlar. Parse yapılabileceğini sanmıyorum. Milli kütüphanede ise

http://mksun.mkutup.gov.tr/F/?func=find-b&find_code=SYS&request=000009759

şeklinde id bazlı ulaşım mümkün. ancak tokat datası daha geniş ve 20 civarında ana kütüphaneden data çekiyor. İncelediğim kadarıyla hepsinin ortak sunduğu datalar şunlarla sınırlı:

Yazar Materyal Türü Eser Adı Yer Numarası Basım Bilgileri

Milli kütüphaneyi bu gece parse edip json olarak verebilirim bu datalar yeterliyse. Diğerleri içinde Allah kerim.

January 28th, 2009 at 9:56 pm
Emre Sevinc
 7 

Evet yeterli. Yarın sabaha dek JSON ya da CSV (comma seperated value) dosyası olarak

Yazar ismi, eser ismi, materyal türü, basım bilgileri

şeklinde bir içeriği Vikipedi’deki ismi geçen tüm Türk yazarların tüm kitapları için oluşturup (yani Milli Kütüphane veri tabanında olduğu kadarı ile tabii) download edebileceğim bir yere koyarsanız sevinirim. Bu arada tabii Sait Faik Abasıyanık’ın Mahalle kahvesi ; Havada bulut ve Mahalle kahvesi ; gibi eserlerinin aynı eser olup olmadığı, Aziz Nesin’in el-A?malü?l-mesr haytu?l-kâmile isimli kitabı ile al-A?mâlü?l-mesr hayat?ül-Kâmile.kitaplarının aynı eser olup olmadığı, aynı eser ise mükerrer kayıt olarak söz konusu dosyaya girilmemesi gerektiği gibi noktalara da dikkat etmek gerekecek (bunlar göze çarpan ilk birkaç örnek, tahmin edebilirsiniz ki örnekler çoğaltılabilir).

January 28th, 2009 at 10:56 pm
Ert
 8 

alakasız olacak belki, DB hazırsa sql ile 10 sn lik iş , üstüne bir de ufak php kodu işlem tamamdır.Hani 2 dk süre vermişsiniz ya o açıdan cvp vermek istedim :-)

January 29th, 2009 at 10:37 am
Emre Sevinc
 9 

“DB hazırsa” lafı burada kritik. Ne DBsi, ne hazırı. Amerikan yazarları için DB hazır mıydı mesela? Bir yani ile evet, hazırdı, nasıl mı, Wikipedia’daki yılların emeğinin yine bir emekle dbpedia.org’a aktarılması ile 10 sn.de SPARQL sorgusu halledebildim. Elimin altında bir veri tabanı olmasına gerek yoktu, standartlara uygun şekilde veriye ulaşabilmem yeterli idi. Türkçe için bu veriler girilmiş durumda değil. NLP (Natural Language Processing) alanında olduğu gibi burada da görüyoruz ki İngilizce için iş yapmaya geldi mi elimde yığınla veri ve araç var, Türkçe söz konusu olduğunda ise kağnı hızı ile ilerliyoruz ve hep geriden, dezavantajlı olarak başlamamız gerekiyor. Denebilir ki “madem o kadar şikayetçisin git Türk yazarlarını ve kitap listelerini Wikipedia’ya ve dbpedia.org’a işle” bu durumda da derim ki şu anda buna enerjim ve vaktim yok, en kestirme yöntemle o veriyi elde edip üzerinde bazı denemeler yapmam gerekiyor.

January 29th, 2009 at 11:32 am
Elif Kuş
 10 

dbpedia.org 2 üniversite ve bir açık kaynak yazılımlarla ilgili çalışan şirket yapmış. Asıl işi anladığım kadarıyla üniversiteler yapmış.

Şirketin çıkarı yoksa niye yapsın. Muhtemelen o şirket de bu işten para kazanacak bir şekilde.

February 6th, 2009 at 7:13 pm

One Trackback/Ping

  1. Sosyal İm - Teknoloji haberleri » Semantik Web ile Türkiye - ABD Kıyaslaması: Ursula K. LeGuin ve Oğuz Atay » Blog Arşivi » Semantik Web ile Türkiye - ABD Kıyaslaması: Ursula K. LeGuin ve Oğuz Atay    Jan 28 2009 / 9pm:

    [...] Devamı: burada… [...]

Leave a reply

Name (*)
Mail (will not be published) (*)
URI
Comment