10 comments so far
Ben sorunu doğrudan bizim insanların bilgi koruma güdüsünde ve bıkkınlık hissinde görüyorum. Paylaşmayı bilmeyen, aklı üretileni çoğaltmak yerine üstüne çullanmakta gören bir anlayışa sahibiz.
Diğer taraftan veri girişinin yoğun şekilde gerçekleştiği projeler üzerinde çalışmama ve sözde paylaşımın gücüne inanan biri olmama rağmen oturup iki tane API yazmaya üşeniyorum.
Birazda çalışma mantığımız ile ilgili tabi. Adamlar bu tür projeleri ana işleri olarak görüyorlar, bizde ise ancak yetenekli bir kaç yazılımcı vs. boş vakit bulursa “mesai”den sonra yapıyor.
Türkiye’de zaten devlet tarafında hiç bir umudum yok. İş üniversiteler ve “akıllı” firmalarda bitiyor.
Verileri bir saçalım ortaya demekle başlayabilsek.
Çok mu havada kaldı dediklerim acaba bilmiyorum.
Bilgi koruma güdüsünün burada söz konusu olduğunu düşünmüyorum. Yani kim neden Türk yazarlarını ve onların kitap listesini korusun? Şaka bir yana şu anda gerçekten de bir proje için Türk yazarlarının kitap listesine ihtiyacım var ve bunun için yoğun parsing işlemleri gerçekleştirmeden (ki o durumda dahi problem yaratan veriler söz konusu) veriye ulaşmak mümkün değil.
Bu gibi konularda zaten devletten bir şey beklemeyi anlamlı bulmuyorum, ABD’deki Silikon Vadisi devlet desteği ile mi kuruldu? Ekonomi ve ölçek ve senin de belirttiğin gibi ‘akıllı firma’ meselesi diye düşünüyorum.
http://tr.wikipedia.org/wiki/Kategori:T%C3%BCrk_yazarlar
veya
sanırım işinizi en iyi görecek yerler. Vakit bulamazsanız ben parse ederim. Hatta parse edip bir proje olarak sunulanabilinir.
Devlet konusunda ise ABD’den farklı bir noktamız var. Verinin çoğu devlet organlarımızın veya yarı resmi kurumların elinde (Odalar, Birlikler, Sendikalar vs.). Bugün nöbetçi eczane bilgisini bile 50 ayrı siteden çekmek zorunda kalıyorum ki yarısı yanlış. Diğer taraftan e-devlet diye yutturulan sitede malumunuz.
Ama dediğiniz gibi bu tür verileri artık biraz samanlıkta iğne arar gibi toplayıp derlemek gerekiyor, devletin yardımcı olup olmamasına bakmadan.
O verdiğiniz adreslerin farkındayım ve hatta ben de kolaylıkla şurayı önerebiliyorum (Milli Kütüphane ve başka yerlerden veri çekip getiriyor):
Mesele şu ki
1- Wikipedia’yı parse etmek gerekiyor (bunda çok sorun yok, çok basitçe halledilir)ç
2- Milli Kütüphane ya da TOKAT’ın verisini parse etmek gerekiyor. Bunda sorun var çünkü imla hataları barındıran kitap başlıkları geldiği gibi aynı kitabın farklı farklı baskılarının gelme durumu (yahut her ikisi birden, buna kabus senaryosu diyoruz) olabiliyor. Kitap derken benim kast ettiğim ve talep ettiğim ise soyut eser, yani filanca yayınevinin falanca yıldaki filanca baskısı değil.
3- Bütün bunları bildiğim için parse etme işine girişmenizi tavsiye etmem şu anda çünkü epey bir efor sarf edersiniz ve sonuçta yine elinizde bir yığın çöp veri olur. Başa dönmüş oluruz.
4- Tüm bunlara rağmen “ben bu işin altından kalkar, tüm bahsedilen o sorunları da çözer, sonra da bunu semantik web standartlarına uygun olarak sunan bir sunucuya koyarım, isteyen gani gani kullanır” derseniz o zaman ceketimi ilikler saygı duruşuna geçerim (ayrıca bizden sonraki nesiller de faydalanır, lakin ben faydalanamam çünkü benim biraz acelem var).
Devlet meselesine gelecek olursak, ABD yazarlarına dair epey veriyi 2 satırlık semantik web standartları ile uyumlu olan dbpedia.org’dan çekmemi sağlayan dbpedia.org işinde ABD devletinin katkısı ne kadar acaba? Yahut FreeBase’e hangi devletin ne kadar katkısı var?
Nöbetçi eczane verisini sağlıklı (!) olarak çekme işinde kolay gelsin der ve tüm ilahi güçlerden cümle programlama ekibine sabır dilerim!
(Programcının halinden programcı anlar, Tim Berners-Lee semantic web diye bir tarafını yırttığında bazıları ona gülüyordu, o gülümsemelerin yerini bazen acı yutkunuşlar alabiliyor).
Meraklısına egzersiz: 1900 – 1940 arasında doğmuş, halen yaşayan, Kanada doğumlu sinema sanatçıları içinden Vietnam Savaşı karşıtı olup aynı zamanda Vietnam’la ilgili filmlerde rol almış olanları getir çevirdikleri filmlerle birlikte.
(SPARQL ısınma turları)
Tokat id veya herhangi bir tekil değer ile listeleme yapmıyor. Http request ile işi daha da zorlaştırmışlar. Parse yapılabileceğini sanmıyorum. Milli kütüphanede ise
http://mksun.mkutup.gov.tr/F/?func=find-b&find_code=SYS&request=000009759
şeklinde id bazlı ulaşım mümkün. ancak tokat datası daha geniş ve 20 civarında ana kütüphaneden data çekiyor. İncelediğim kadarıyla hepsinin ortak sunduğu datalar şunlarla sınırlı:
Yazar Materyal Türü Eser Adı Yer Numarası Basım Bilgileri
Milli kütüphaneyi bu gece parse edip json olarak verebilirim bu datalar yeterliyse. Diğerleri içinde Allah kerim.
Evet yeterli. Yarın sabaha dek JSON ya da CSV (comma seperated value) dosyası olarak
Yazar ismi, eser ismi, materyal türü, basım bilgileri
şeklinde bir içeriği Vikipedi’deki ismi geçen tüm Türk yazarların tüm kitapları için oluşturup (yani Milli Kütüphane veri tabanında olduğu kadarı ile tabii) download edebileceğim bir yere koyarsanız sevinirim. Bu arada tabii Sait Faik Abasıyanık’ın Mahalle kahvesi ; Havada bulut ve Mahalle kahvesi ; gibi eserlerinin aynı eser olup olmadığı, Aziz Nesin’in el-A?malü?l-mesr haytu?l-kâmile isimli kitabı ile al-A?mâlü?l-mesr hayat?ül-Kâmile.kitaplarının aynı eser olup olmadığı, aynı eser ise mükerrer kayıt olarak söz konusu dosyaya girilmemesi gerektiği gibi noktalara da dikkat etmek gerekecek (bunlar göze çarpan ilk birkaç örnek, tahmin edebilirsiniz ki örnekler çoğaltılabilir).
alakasız olacak belki, DB hazırsa sql ile 10 sn lik iş , üstüne bir de ufak php kodu işlem tamamdır.Hani 2 dk süre vermişsiniz ya o açıdan cvp vermek istedim
“DB hazırsa” lafı burada kritik. Ne DBsi, ne hazırı. Amerikan yazarları için DB hazır mıydı mesela? Bir yani ile evet, hazırdı, nasıl mı, Wikipedia’daki yılların emeğinin yine bir emekle dbpedia.org’a aktarılması ile 10 sn.de SPARQL sorgusu halledebildim. Elimin altında bir veri tabanı olmasına gerek yoktu, standartlara uygun şekilde veriye ulaşabilmem yeterli idi. Türkçe için bu veriler girilmiş durumda değil. NLP (Natural Language Processing) alanında olduğu gibi burada da görüyoruz ki İngilizce için iş yapmaya geldi mi elimde yığınla veri ve araç var, Türkçe söz konusu olduğunda ise kağnı hızı ile ilerliyoruz ve hep geriden, dezavantajlı olarak başlamamız gerekiyor. Denebilir ki “madem o kadar şikayetçisin git Türk yazarlarını ve kitap listelerini Wikipedia’ya ve dbpedia.org’a işle” bu durumda da derim ki şu anda buna enerjim ve vaktim yok, en kestirme yöntemle o veriyi elde edip üzerinde bazı denemeler yapmam gerekiyor.
dbpedia.org 2 üniversite ve bir açık kaynak yazılımlarla ilgili çalışan şirket yapmış. Asıl işi anladığım kadarıyla üniversiteler yapmış.
Şirketin çıkarı yoksa niye yapsın. Muhtemelen o şirket de bu işten para kazanacak bir şekilde.
[...] Devamı: burada… [...]