Boğaziçi Üniversitesi’ndeki araştırmacılar ve hocalar ile 6 aylık yoğun bir ekip çalışması sonucunda ortaya çıkan “Syntactic tools for text watermarking” başlıklı makalemiz 28 Ocak – 1 Subat 2007 tarihleri arasinda San Jose, California, ABD’de düzenlenecek olan Security, Steganography, and Watermarking of Multimedia Contents IX (EI120) konferasında sunulacak bu günlerde.

Böylece Türkçe doğal dil damgalama konusu ile ilgili önemli aşamalardan biri tamamlanmış oldu. Bundan sonra yeni araçlar geliştirilmesi, mevcut araçların hassasiyetinin artırılması ve doğal dil damgalama ile şifreleme yöntemlerinin daha detaylandırılması gibi şeyler var.

Bu çalışma süreci içinde benim açımdan en önemli şey farklı bölümlerden araştırmacılar ve hocalarla birlikte çalışmanın inceliklerini öğrenmek ve Türkçenin işlenmesine dair pek çok bilgi edinmek oldu. Dikkatimi çeken şeylerden biri de, benzer konu üzerinde çalışan ancak İngilizce dili ile ilgili damgalama yapan araştırmacıların pek çok hazır DDİ (Doğal Dil İşleme – NLP – Natural Language Processing) aracı kullanmak sureti ile bazı şeyleri çok daha kolay gerçekleştirebildiklerini görmek oldu. Türk bilgisayarcıların uluslararası platformlarda İngilizceye hizmet ettiklerini görmek de ilginç bir deneyimdi. Maalesef şu anda Türkçe otomatik dil işleme konusunda hala hazır teknolojiler bakımından İngilizce, Almanca gibi dillere kıyasla çok daha geri durumdayız. İngilizce, Almanca gibi diller için tabiri caiz ise “ayağa düşmüş”, Internet’ten kolayca indirilip farklı dil işleme uygulamaları için kullanılabilecek pek çok teknolojik araç Türkçe için ya yok, ya o kadar gelişmiş değil ya da üniversite laboratuvarlarında devlet sırrı gibi korunuyor halde.

Söz konusu süre içinde yoğun olarak Common Lisp ve kısmen Perl ve Java kullanmak da projenin benim açımdan önemli kısmı idi. Böylece şimdiye kadarki GNU/Linux ortamında Emacs + SLIME + SBCL deneyimime yine Linux ve MS Windows ortamlarındaki Allegro Common Lisp eklendi. Görebildiğim kadarı ile Allegro Common Lisp, MS Windows ortamı için tam teşeküllü çalışırken GNU/Linux ortamı için ufak tefek bazı özelliklerden taviz veriyor durumda ancak bu çalışmamı ve taşınabilirliği pek etkilemedi, yarıyolda bırakmadı.

======= Syntactic tools for text watermarking (ABSTRACT) =======

Hasan M. Meral1, Emre Sevinç 3, Ersin Ünkar 2, Bülent Sankur 4, Sumru Özsoy 1, Tunga Güngör 2

1 Department of Linguistics, Boğaziçi University,
2 Department of Computer Engineering, Boğaziçi University,
3 Department of Cognitive Science, Boğaziçi University,
4 Department of Electrical and Electronic Engineering, Boğaziçi University,

Corresponding author: Hasan Mesut Meral

ABSTRACT

This paper studies the characteristics of an agglutinative language, Turkish, and explores its relevant syntactic tools for text watermarking. We particularly focus on various syntactic manipulations on the texts that leave the semantics intact. In that respect, Turkish provides a good ground for the syntax-based natural language watermarking with its relatively free word order possibilities, and variations on morphosyntactic structure. The syntactic manipulation is illustrated via tree diagrams and one or more synonymous tree variety is mapped to one logical bit value, while the varieties in the remaining group to the alternate bit value. For the syntactic manipulations, we have developed a software tool which is sensitive to the semantic properties of the lexical items. This software tool takes sentences in tree format in which the syntactic hierarchies and the functional dependencies are coded as input and automatically operates on these sentences. Since there is no recognizable meaning difference between the two tree varieties, a watermark is inserted to the original text via this syntactic change without any recognition by the reader. We also study the dependence of watermarking capacity of Turkish texts depending upon their vulnerability to non-intentional or malicious attacks.

Key words: Natural language watermarking, text watermarking, morphosyntax

Benzer Yazılar / Similar Posts:

This entry was posted on Tuesday, January 30th, 2007 at 5:19 pm and is filed under FunctionalProgramming, General, Linguistics, Lisp, Programlama, Science. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

3 Trackbacks/Pings

  1. FZ Blogs » Lucien Tesnière ve farklı bir dilbilim modeli    Feb 08 2007 / 12pm:

    [...] Pierre M. Nugues’in “An Introduction to Language Processing with Perl and Prolog – An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German” kitabını okumaya devam ediyorum. Kitabın dependency grammar bölümü benim için ayrı bir önem taşıyordu son çalışmalarımızdan biri ile ilgili olarak (koyu renkli ve altı çizili vurgular bana ait): Although dependency and constituency are often opposed, stemmas embed sorts of constituents that Tesnière called n?uds. Deriving a n?ud from a dependency graph simply consists in taking a word, all its dependents, and dependents of dependents recursively. It then corresponds to the subtree below a certain word. And in many cases stemmas and phrase-structure trees yield equivalent structures hinting that dependency and constituency are in fact comparable formalisms. [...]

  2. FZ Blogs » Doğal dil damgalama ve dilbilimsel steganografi    Feb 09 2007 / 3pm:

    [...] Bu konu ile ilgili Rights Protection for Natural Language Text ve A Comprehensive Bibliography of Linguistic Steganography web sayfaları önemli makalelerin özetlerini içeriyor ve başlangıç noktası teşkil ediyor. Türkçe doğal dil damgalama için burada tarif edilen çalışma da bir başka başlangıç noktası olarak okunabilir.   [...]

  3. FZ Blogs » Bir doğal dil işleme projesine geribildirimde bulunmak için 15-20 dakikanızı ayırır mısınız?    Jun 04 2007 / 3pm:

    [...] Elektronik mühendisliği, bilgisayar mühendisliği, dilbilim ve bilişsel bilimler bölümünün ortaklaşa gerçekleştirdikleri bilimsel bir proje ile ilgili olarak geribildirimde bulunup 15-20 dakikanızı ayırmak sureti ile destek vermek ister misiniz? [...]

Leave a reply

Name (*)
Mail (will not be published) (*)
URI
Comment