spring-yukidaruma’s diary

自分の日々の雑感や勉強したネタの覚書の目的ではじめました。 特に勉強したネタに関しては、自分の理解が誤っている可能性が多分に含まれているので、決して信用しないでください。本当に本当に、自分への覚書以上のなにものでもありません。

GWASのQCおぼえがき

<あくまで一例>

・gender mismatch (この時点でmismatch多いとデータの信用性低い…)

SNPs mapped on autosomal chromosome 常染色体上のみ

・individual call rate : mind 0.01 = 1%以上のmissing genotypeのindividualを除外する

・missing genotype rate per SNP : geno 0.01 = 1%以上missingのvariantを除外する

・HWE 0.000001

・minor allele frequency : maf 0.01 = maf 1%以上のSNPのみ

 

・LD prunning : the default LD r^2 value 0.5 as a cutoff: LD pruning < 0.5
plink --file data --indep-pairwise 50 5 0.5
the command above that specifies 50 5 0.5 would a) consider a window of 50 SNPs, b) calculate LD between each pair of SNPs in the window, b) remove one of a pair of SNPs if the LD is greater than 0.5, c) shift the window 5 SNPs forward and repeat the procedure.

 

IBD (Identity-by-descent) : PI_HAT>0.25 : 近親者(親子や兄弟など)は除外

一卵性双生児(あるいはサンプル重複)IBD=2

親子 IBD=1

他人 IBD=0

しかしIBS(Identity-by-state)は上記のような1対1対応をとらない

 

・Principal Component Analysis (PCA)

PCAについてよくわかる論文

The American Journal of Human Genetics 2008

日本の本土と琉球で違うクラスターを示した

特にHLA領域(chromosome6)とEDAR gene(髪質)、ABCC11 gene(耳垢のタイプ)

そしてこれらのpopulation stratificationがGWASの関連解析に及ぼす影響(spurious association(疑陽性)のリスク↑)