15 Kasım 2015 Pazar

Kim bu Trabzonlular? Neden otozomal analizlerde MDLP kullanmamamız gerektiğine dair örnek!


Trabzonlu olup benim gibi 23andMe,FTDNA veya Ancestry  gibi ticari firmalarından otozomal test alan kişiler, test sonuçlarını Gedmatche yükleyip MDLP kalkülatörlerinden (% kaç nerelisin diye bilgi veren bir program) etnik kompozisyon sonuçlarını gördüklerinde ve Oracle dediğimiz hangi populasyona daha yakın olduğunu gösteren opsiyona baktıklarında  Turk_Trabzon olarak belirtilen ortalamaya değil daha çok Ermenilerin popülasyon ortalamalarına yakın görünüyorlardı. Eğer MDLP deki Turk_Trabzon ortalaması gerçek Trabzonlularca oluşturulmuşsa neden MDLP k23b’yi çalıştıran Trabzonluların sonuçları Turk_Trabzon ortalamasına değil de daha çok Ermenilere veya Süryanilere yakın çıkıyordu? Bunun sebebini bulmak adına MDLP de kullanılan Turk_Trabzon örneklerinin DNA ham dosyasına ulaşmam gerekiyordu. Böylece bu kişiler gerçekten Trabzonlu değil mi yoksa MDLP kalkülatörü oluşturulurken ciddi bir hata mı yapılmıştı anlayabilecektik.

Sorunu biraz daha detaylı anlatmak gerekirse:

MDLP k23b Populasyon ortalamalarında Turk_Trabzon ortalaması olarak gösterilen populasyon ortalaması aşağıdaki şekilde görüldüğü üzere gerçek Trabzonluların*(Ticari firmalardan test alıp bunu gedmatche yükleyen ve herhangi bir akademik çalışmanın konusu olmayan 13 örnek)  sonuçlarından farklı görünüyor



 Gedmatch kalkülatörleri  “Oracle” dediğimiz, sizin değerlerinizin hangi popülasyonu ortalamasına en yakın olduğunu gösteren bir opsiyon sunar. Bu mesafeyi ölçmek için kullanılan yöntem en yakın kareler yöntemi olduğundan sizin kalkülatör sonucunuz ile populasyon ortalaması arasındaki değerler arasında oransal bazda özdeşlikler daha önemli oluyor. Fakat yukarda göreceğiniz üzere Gerçek Trabzonluların South Central Asian (Afganistan, Doğu İran)  Near East ve EEF komponent değerleri  populasyon ortalamasından yüksekken, ana dominant komponent olan Caucasian ortalamanın altında duruyor. Bu tezatlık Trabzonluları kendi ortalamaları olduğu söylenen popülasyon ortalamasıyla arasındaki mesafeyi daha da artıran bir durum oluşturuyor.  Bu durumda ya Trabzonlulara referans olarak kullanılan örnekler gerçekten Trabzonlu değil yada bu oranlar hesaplanırken ciddi hatalar yapılıyor. Peki kim bu Turk_Trabzon değerlerini oluşturan kişiler?
MDLP nin yaratıcısı Vadim Verenich kendi kalkülatörünü oluştururken Turk_Trabzonlulara referans olarak Mahley ve Hodoğlugil (2012) in bir akademik çalışmasındaki örnekleri kullandı. Ben de bu örneklerin dosyalarını inceleyerek neden MDLP’nin Trabzonlu kişilerin sonuçlarından farklı olduklarını anlamaya çabaladım. Ve en sonunda bunun sebebini buldum!

Detaya girmeden durumu burada özetleme gerekirse;  Vadim Vernich kendi populasyon ortalamalarını oluştururken elmaları ve armutları aynı sepetin içine koyarak oluşturdu. Bizim gibi Trabzonlular bu sepetteki Trabzonlular ile karşılaştırmak istedik fakat Vadimin sepetinde Trabzonlu olarak görünenler daha çok elmalardan oluşuyordu, oysa bizim test sonucumuz armut formatındaydı. Aradaki farktan kaynaklı MDLP programı bize elindeki Trabzonlu örneklerinden farklı sonuçlar verdi.  Oysa Vadimin referans olarak gördüğü Turk_Trabzon örnekleri de Trabzonlu biz de Trabzonluyuz. Farklı sonuçlar vermiş olması Mahley  ve Hodoğlugil'in çalışmasında kullanılan DNA laboratuvarının farklı standartta bir test sonucu sunmasıdır. Bu nedenle özellikle Doğu karadenizliler 8hatta tüm Türkiye) gedmatch kalkülatörü olarak MDLP yerine Harappa kullanmaları daha sağlıklı olacaktır.

Şimdi konun detayına inelim.
Mahley ve Hodoğlugil DNA analizlerini farklı SNP kodlamaları kullanarak yaptı. Bu SNP kodlarının bir çoğunun ticari firmalardaki SNP listelerinde karşılığı yok. Vadim Verenich kendi kalkülatörünü oluştururken bu SNP lerin ancak sınırlı sayıda SNP’nin ticari formattaki karşılıklarına çevirebildi  ama çoğunun bir karşılığı yoktu. Karşılığı olmayan SNP leri de kendi kalkülatöründe hesaplamaya katılabilecek şekilde koydu. Bu nedenle Mahley’in Trabzonlu örneklerinin MDLP k23b sonucu daha farklı sonuçlar verdi. Ama bizim gibi ticari formatta test yaptıranların ham dosyalarında Mahley’in örneklerinde Karadenize ve kafkasyaya özgü SNP lerin çoğu listelenmediğinden daha farklı sonuçlar veriyor. Yani eğer biz Mahley ve Hodoğlugilin test yaptırdığı laboratuvarda test yaptırmış olsaydık, MDLP k23b yi çalıştırdığımızda MDLP k23b nin Turk_Trabzon ortalamasına yakın bir sonuç elde etmiş olacaktık.
Aşağıdaki matriste 23Andme, FDNA ve Mahleyin ham dosyalarındaki SNP ortaklıklarını görüyorsunuz. Bu üç farklı ham dosya formatında tanımlı ortak SNP’lerin sayısı sadece 120 bin 408 adet. 
Datasetler arasındaki ortak SNP sayıları;


Mahley ve Hodoğlugili datasetinde bulunan 9 Turk_Trabzon örneğini 23andme veri formatına uygun olarak (SNP Listesi Mahley’ in listesi) gedmatche yükledim. Bunlardan birincisi bu datasetin referans listesi olarak kullanılmadığı Harappa sonuçları. Harrappa da hesaba katılan SNP ler Mahleyin örnekleri için ortalama olarak 56bin 660. Oysa benim ve birçoğunuzun Harrappa sonuçlar 180 bin civarında SNP yi hesaba katarak oluşturuluyor (Benim Harrappa sonucum 184 bin SNP'nin değerlerine göre oluşturulmuş).  Diğer yandan MDLP k23b de Mahley’in Türk_Trabzon örnekleri için hesaba katılan SNP ler ortalama olarak 107 bin 256. Oysa bizim gibi ticari firmalardan sonuç elde edenlerin MDLP k23b de hesaba katılan SNP’lerin sayısı 71bin 500 civarında. Yani MDLP K23b yaklaşık bizden %50 daha fazla SNP yi hesaba katarak kendi popülasyon ortalamasını oluşturmuş oldu. Aradaki fark Mahleyin örneklerinde olup bizde olmayan bu 36 bin kadar SNP den kaynaklı olduğunu düşünüyorum.
(Mahley & Hodoğlugil Türk Trabzon örnekleri Harappa ortalamaları)


(Mahley & Hodoğlugil Türk Trabzon örnekleri MDLPK23b)




Mahleyin veritabanında sadece Trabzon değil aynı zamanda İstanbul,  Kayseri, Aydın, Balıkesir ve Adana örnekleri de mevcut. Bu yerlerden gelip MDLP k23b sonucu poopülasyon ortalamasına uzak olan birileri varsa aşağıda yorum kısmına yazarsa sevinirim. Bu koşulda benim kanaatimce MDLP (Yada Mahley’in verielrini kullanan herhangi bir kalkülatörü) kalkülatörleri yerine Harappayı kullanmak ve ticari formattaki kiterin sonuçlarından oluşturulmuş yeni “Oracle” lar yapmak en uygunu olacaktır.

1.     Referans gösterilen Kaynak:  Turkish Population Structure and Genetic Ancestry Reveal Relatedness among Eurasian Populations(Uğur Hodoğlugil1 and Robert W. Mahley1,2,* 2012)
http://onlinelibrary.wiley.com/doi/10.1111/j.1469-1809.2011.00701.x/abstract

6 Eylül 2015 Pazar

Anadolu penceresinden Gedrosia K11'e bakış

Bu yazı bloğumun ilk yazısı olmasına rağmen okuyucuların belli bir kısmı için ( en azından henüz otozomal DNA testi almayanlar için) gereğinden fazla teknik detay ve bu teknik detayların arkaplanını oluşturan antropolojik literatür içerebilir. Bu nedenle konu başlığını oluşturan Gedrosia K11 otozomal karışım hesaplayıcısının (Açıkçası uygun bir Türkçe isim bulamadım. Önerisi olan lütfen yorum yapsın)  değerlendirmesini  yapmada önce bu konunun aşinası olmayan okuyucular için otozomal testlerin ihtivasını anlatmak açısından bu yazıya özel olarak kısa bir özet geçmeyi düşünüyorum.

Otozomal testler insan vücudunda bulunan 23 çift kromozomdan 22'sinin (Geri kalan 1 kromozomun ayrı bir testin konusudur)  içersinde bulunan ve belli bir fonksiyonu tanımlayan genetik kodların listesini veren testlerdir. Sanılanın aksine tüm kromozomun dizlimini değil bir nevi tespit edilmiş "gen listesi" şeklinde sonuçlar verdiğinden görece ucuz bir testtir. (Piyasada ortalama 100 dolara bu testi yapan firmalar mevcuttur, fakat maalesef yerli bir firma henüz yok)

Bu testin sonucunda üç önemli sonuç elde edilebiliyor.

  • Bunlardan birincisi aynı testi yaptıran insanlarla akrabalık ilişkileriniz, kaç kuşak öncesinden ortak ataya sahip olabileceğiniz ortaya çıkabiliyor. Buna babalık veya annelik testi diyebileceğimiz gibi diğer yandan aynı test son 300-400 yıl içersinde ortak ataya (ister anne ister baba tarafından) sahip olabileceğiniz aynı testi yapmış kişilerin listesini ve akrabalık derecesini verir. Sizinle 5 kuşak öncesinden ortak ataya sahip olan bir kişiyle DNA'nızın toplamda kaç centimorganlık  kısmının ortak olduğunu görebilirsiniz. Yani bu test bir nevi akraba bulucu işlevi görmektedir. DNA testini yaptırdığınız firma size online bir liste sunup kimlerle ne derecede eşleştiğinizi söyler. Dünyanın bir çok yerinden uzak akrabalarınızla tanışabilirsiniz.
  • Her ne kadar çok tartışmaya açık olsa da ve şuan faaliyet gösteren DNA test firmalarının yasal olarak kapsam dışında tuttuğu bir durum da bu testin sağlık veya fiziksel özellikle alakalı veriler sunabilmesidir. Sizin kalp krizine ne denli yatkın olduğunuz, saçınızın rengi, kelleşecekmisiniz vs gibi cevapları bu tarz bir testle öğrenebilirsiniz. Fakat DNA firmalarının bu denli bir bilgi sunması etik ve toplum sağlığı açısından doğru bulunmadığından ABD'de yasaklanmıştır. Keza hangi genin tam olarak neye yaradığına dair kesinleşmiş çalışmalar sınırlıdır. DNA testlerinden doğru sağlıkla alakalı yorumlar yapmak insanları yanlış davranışlara sevk edebilir.
  • Üçüncü ve benim en çok ilgilendiğim konu ise bu testlerin sizin etno-coğrafik (sadece "etnik" terimini bilerek kullanmıyorum keza aynı genetik kompozisyona sahip birden fazla etnik grup vardır) kökeninize dair bilgi sunabilmesidir. Yani sizin DNA nızı oluşturan genlerin en çok hangi coğrafik populasyonlarda bulunduğu ve bunun genlerinizin kaçta kaçını oluşturduğunu görebilirsiniz. Bir nevi sizin genetik  haritanızı çıkartan bu sonuç aynı zamanda bulunduğunuz topluluğun oluşumunda hangi coğrafik katmanların katkısı olduğunu yani bulunduğunuz topluluğun ve sizin göç haritanızı çıkarmaya ışık tutmaktadır.
Yazının ana konusu olan "Gedrosia K11" de açık kaynaklı bir otozomal genetik kompozisyon hesaplayıcısı programıdır. GedrosiaDNA projesi diğer bir çok açık kod kaynaklı programlar (MDLP, Eurogenes, Harappa vs.)  gibi Gedmatch platformu üzerinden kullanıcılara hizmet veriyor. FTDNA, 23andme veya Ancestry gibi DNA test firmalarından (Türkiye'ye maalesef sadece FTDNA hizmet verebiliyor) test alan kullanıcılar isterlerse Gedmatch'a otozomal dosyalarını yükleyerek diğer firmalardaki kullanıcılarla da  genetik olarak eşleşip eşleşmediklerini yada az önce bahsettiğim açık  kod kaynaklı programlarla nasıl bir etno-coğrafik genetik kompozisyona sahip olduklarını görebiliyorlar.

Gedrosia K11'i özellikle yorumlamak istememdeki temel sebep ülkemizi de içine alan Batı Asyalılar için özellikle tasarlanmış olduğu yönündeki iddiadır. Bu iddiaya göre batı asyalı populasyonlar (Türk, Laz, Kürt, Ermeni, Rum, Arap, İran, Baluci, Kalash, Pashtun vs gibi) arasındaki genetik kompozisyonlar arasındaki farkı bu kalkülatörde daha etkin bir şekilde görülebilecektir. Hem bu iddiayı sınamak hemde Anadolu'nun doğu batı, kuzey güney ve etnik açıdan nasıl farklılıklara yada benzerliklere sahip olduğunu görmek açısından kökenleri Anadoluya ait olan insanların sonuçlarını değerlendirdim. Çalışmada kullandığım Anadolu'ya ait bazı populasyonlar ve örneklem sayıları aşağıdaki gibi.

PopulasyonlarÖrnek sayısı
Batı_Orta_Anadolu25
Dersim_Ermeni3
Ermeni4
Gürcü Rumu3
Hemsin5
Laz6
Karadeniz_Rumu10
Turk_Trabzon19
Dersim Alevi                         13

Her ne kadar 10 dan az örneklemler için populasyon istatistiği gerçekçi bir sonuç veremeyebilse de elimdeki verilerle genel bir kompozisyon görüntüsü çıkarmak anlamlı olur. Yine de sonuçları birbiriyle tutarlı örnekleri aynı kategori içerisinde düzenledim. Örneğin elimdeki Ermeni örneklerin sayısı 6. Fakat bu örneklerden 2 Ermeni örneği diğer 4 örnekle uyuşmayan sonuçlar veriyordu. Bunun sebebi çıkartılan örneklerden biri Adana Ermenisine diğeri ise Ermenistan Ermenilerine ait olmasından kaynaklı. Geri kalan 4 Ermeni ise doğu anadolu ermenilerine ait. Görüleceği üzere aynı etnik populasyona ait fakat farklı coğrfyalardan gelen topluluklar da kendi arasında farklılıklar gösteriyor. Bu da coğrafyanın etnik kompozisyondan daha çok belirleyici olduğunun bir göstergesi. Diğer populasyonlardan  biri hariç diğerleri doğrudan belli bir coğrafya ile ilişkilendirilebilecek durumda. Orta ve Batı Anadolulu Türk örnekler geniş bir yelpazeyi tanımlıyor. Kuzeyde Ordu-Giresundan güneyde Adana'ya, Orta anadoluda Kayseri ve Eskişehirden batıda Muğlaya kadar. Bu nedenle Orta ve Batı Anadolu'yu değerendirirken örneklerin bu geniş yayılımını göz önünde bulundurarak değerlendrime yapmak daha doğru olacaktır.

Gedrosia K11 test sonuçlarını yorumlamadan önce Gedrosia K11 deki koponentlere dair açıklamada bulunmak en doğrusu olur. Gedrosa K11 adından da belli olduğu gibi 11 komponente göre otozomal sonuçlarınızı sınıflandırıyor. Bunlar sırayla aşağıdaki gibi listelenmiştir.

1- WHG (W European Hunter Gatherer) - Loushbour  & NE Europeans- (Paleotik ve Neoletik dönemlerde yaşamış avcı toplayıcı avrupalıların izlerini gösteren komponenttir. Aynı zamanda Kuzey doğu avrupalıları temsil eder)
2- S Indian - Çeşitli güney hindistan kabilelerin genetik kompozisyonunu gösterir, örneğin Hakkipikki ve Nihali
3- Gedrosian -Baloch, Brahui, ve  Makrani gibi Pakistan- Doğu İran merkezli bir

genetik kompozisyonu  temsil eder
4- SW_Asian - Saudis, Yemenis, ve Bedouin gibi arap yarımadası ve güney mezopotamya
5- Siberian - Nganasans
6- EEF ( Early European Farmers) - LBK ve Stuttgart da ortaya çıkan Neoletik dönem (6-8 bin yıl öncesi) tarımcı avrupalıların genetik kompozisyonunu temsil eder. Anadoludan avrupaya tarımı taşıyanların EEF ağırlıklı olduğu düşünülüyor. Muhtemelen Çatalhöyük insanı daha çok bu komponente sahipti. Dünyada en çok şu an Sardinya adasındakiler bu komponenti ağırlıkla taşıyor. Güney avrupada yoğunlukla mevcut. (Balkanların güneyi, Yunanistan vs )
7- E Asian - Ulchis
8- Caucasus - Gürcü, Abhaza, Adige, and Balkar. Klasik kafkasyalılar
9- Kalash - Pakistannın izole bir topluluğu olan Kalaşlara ait bir komponent
10- Indo-Chinese - Kusunda toplulukları,
11- SE Asian - Ami & Dai.


 Gedrosia K11 Yukarda bahsettiğim topluluklar aşağıdaki ortalamaları vermektedir.









88 bireyin Gedrosia K11 sonuçlarında görüleceği gibi başta Lazlar olmak üzere Anadolu'nun tüm topluluklarında hakim komponent olan "Kafkasyalı" komponent batıya ve güneye doğru gittikçe azalmaktadır. Bununla beraber EEF olarak adlandırdığımız ve kısaca mizansel olarak Çatalhöyük insanı olarak tariflenebilecek komponent Karadeniz Rumlarında ve Hemşinlilerde  Lazlara ve Trabzonlulara oranla daha fazla iken nıspeten bu topluluklarda daha düşük bir Kafkasyalılık söz konusudur. Yinede EEF en yoğun olarak Karadeniz topluluklarında görülüyor. Eğer Gedrosia K11 in tasarımında sorun yoksa burda doğru şu yorumu yapabiliriz.

  • "Kafkasyalı komponent ile EEF muhtemelen tarih öncesi bir zamanda, orta yada geç neoletik dönemde birbirlerine karışmışlardır.
  • Karadeniz bu dönemden bu yana nıspı ölçüde izole kalmış başta SW_asian olmak üzere sınırlı sayıda diğer komponentlerin etkisi altına girmiştir.
  • Batı anadoluda EEF nin daha yoğun görülmesi beklenirken (keza yoğunluklu olarak güney avrupada görülmekte) karadenize oranla daha düşük oranda bulunuyor oluşu, bununla beraber Kuzey Avrupalı (WHG)'nin, Hintli ve Asyatik komponentlerin Batı anadoluda çok daha yüksek oranda bulunuyor oluşunu başta steplerden Asyalı ve Avrupalı kavimlerin Tunç çağı, Demirçağı ve Ortaçağ boyunca Anadoluya yarattığı göçlerle açıklayabiliriz.
  • Bu kavimlerin ilki muhtemelen Hint Avrupalı kavimler olup  yoğun olarak WHG  göreceli olarak Hint ve Gedrosa komponentlerini içeriyor olmaları gerekir. Buna rağmen EEF açısından fakir olmalılar ki EEF batı anadoluda daha düşük çıkmaktadır.
  • Batı Anadoluda Uzak Asyalı komponentler domine olmasa da görünürlüğü gayet açıktır. Bu durumu Türki kavimlerin etkisiyle açıklayabiliriz.
  • SW Asian güneyde Ermenilerde ve Dersim Alevilerinde daha yüksek çıkmaktadır. Bu da güneye yani SW Asian komponentinin merkezine yakınlığı itibariyla tutarlı bir veridir.
  • Aynı şekilde Dersim Alevilerindeki Gedrosia komponentinin fazlalığını İrani etkilerle de açıklayabiliriz. Benzer bir şekilde SW-Asian değeri Ermenilere nazaran daha az çıkmaktadır. Bu da aynı coğrafyayı paylaşıyor oluşlarına rağmen irdelenmesi gereken ilginç bir sonuçtur.

Bu genel ortalamaları geçtikten sonra benim şahsen önemli bulduğum başka bir istatistiki veriyi sizlerle paylaşmak istiyorum. Anadolulu olan bu 88 örneğin hem kendi populasyonlaır içinde hem de genel toplam içinde her bir komponent için ne kadar değişkenliği olduğunu görmek önemlidir. Burda değişkenlik dediğim parametre, bir komponentin ne kadar düzgün bir şekilde toplumun geneline yayıldığını gösterir. Değişkenlik fazla ise o komponent daha parçalı ve düzgün olmayan bir şekilde , ne kadar az ise o kadar düzgün dağıldığını gösterir. Dağılımı düzgün olan komponentler için daha köklü, düzgün olmayanlar içinse daha lokal ve yeni olduğu söylenebilir. Değişkenlik değeri Standart Sapma/Ortalama ile bulunur. Örneklem sayısı düşük populasyonlar için gerçekçi sonuçlar vermeyebilir. Fakat geniş örneklemli populasyon grupları için çok daha anlamlı sonuçlar verir.

Değişkenlk Tablosu





Tablodan görüleceği üzere Genel toplamda en düzgün dağılan komponent EEF olarak görülüyor. Bunu sırayla Caucaus ve SW_Asian izlemekte. Karadenizde  ise EEF nin değişkenlik değerleri diğer değişkenlik değerlerine göre daha az olan populasyonlar Hemşinliler ve Trabzonlular.



EEF nin bu denli düzgün dağılmasının sebebini EEF nin en eski anadolu topluluklarda hakim olan bir komponent olmasına bağlıyorum. Her ne kadar oransal olarak Kafkasyalı komponent hakim ve domine komponent gibi görünse de yayılım düzgünlüğü açısından EEF daha eski bir komponent olduğunun izlerini taşıyor. Bu savın gerçekliğini ıspatlamak için Anadoluda yapılacak tarih öncesi gömülerden elde edilecek antik DNA örneklerine ihtiyacımız olacak. Yakın bir zamanda böyle bir çalışmanın sonuçlarının açıklanacağına dair duyumlar aldım. Umarım bir şehir efsanesi değildir.