GWASのQCおぼえがき
<あくまで一例>
・gender mismatch (この時点でmismatch多いとデータの信用性低い…)
・SNPs mapped on autosomal chromosome 常染色体上のみ
・individual call rate : mind 0.01 = 1%以上のmissing genotypeのindividualを除外する
・missing genotype rate per SNP : geno 0.01 = 1%以上missingのvariantを除外する
・HWE 0.000001
・minor allele frequency : maf 0.01 = maf 1%以上のSNPのみ
・LD prunning : the default LD r^2 value 0.5 as a cutoff: LD pruning < 0.5
plink --file data --indep-pairwise 50 5 0.5
the command above that specifies 50 5 0.5 would a) consider a window of 50 SNPs, b) calculate LD between each pair of SNPs in the window, b) remove one of a pair of SNPs if the LD is greater than 0.5, c) shift the window 5 SNPs forward and repeat the procedure.
・IBD (Identity-by-descent) : PI_HAT>0.25 : 近親者(親子や兄弟など)は除外
一卵性双生児(あるいはサンプル重複)IBD=2
親子 IBD=1
他人 IBD=0
しかしIBS(Identity-by-state)は上記のような1対1対応をとらない
・Principal Component Analysis (PCA)
PCAについてよくわかる論文
The American Journal of Human Genetics 2008
特にHLA領域(chromosome6)とEDAR gene(髪質)、ABCC11 gene(耳垢のタイプ)
そしてこれらのpopulation stratificationがGWASの関連解析に及ぼす影響(spurious association(疑陽性)のリスク↑)