2008년 7월 27일 일요일

PED 파일

페드파일은 스페이스 혹 탭 분리파일로, 앞 6컬럼은 필수다.

Family_ID Individual_ID Paternal_ID Maternal_ID Sex Phenotype

* Sex; 1=male, 2=female, unknown = other
* ID는 알파뉴메릭이다. 패밀리와 개인 ID는 반드시 개인을 구별할 수 있도록 유닉해야한다. PED파일은 반드시 1개여야하고, 오직 1개의 페노타입만 가져야 한다.
* 페노타입은 quantitative trait or affection status 0. 1. 2. or missing genotype code

2008년 7월 15일 화요일

Quantile normalization

퀀타일 노말라이제이션 (사분위수 표준화?)

  • 테리스피드 (Terry Speed) 그룹이 소개한 비모수 방법에 의한 표준화이며, 합성칩에 주로사용. 
  • 유전자 abundance의 분포는 모든 시표에서 거의 같다는 가정.  편의를 위해 모든 칩들상의 프로브의 pooled 분포를 취한다.

2008년 7월 14일 월요일

GWA-WTCCC 데이터분석방법

CHIAMO
CHIAMO는 어피 500K 매핍칩으로부터 지노타입들을 불러내는 프로그램이다. 이 프로그램은 잠재적으로 서로다른 인텐시티 특성을 가짐으로서, 전장유전체에서 증가된 위양성율을 이끄는 다중 코호트를 허락한다 (The program allows for multiple cohorts which have potentially different intensity characteristics that can lead to elevated false-positive rates in genome-wide studies). [이말인즉슨, 다중코호트분석은 위양성이 증대된다는 뜻인거 같은데]. 사용된 모델은 계측구조 (hierarchical structure)를 가지는데, 이는 각 코호트의 파라미터들간의 correlation을 가능케 한다. 아마 보다 자세한 설명은 곧 논문으로 나올 것 같음. CHIAMO에 의해 생성된 파일은 SNPTEST와 IMPUTE라는 프로그램에 사용되어 진다. CHIAMO는 WTCCC에 의해 수행된 7개의 GWAS를 위한 지노타입들을 불러내는데 사용되었다.

SNPTEST
SNPTEST는 전장유전체연구에서 단일SNP association의 분석에 사용되는 프로그램이다. 수행되는 테스트는 바이너리(케이스-콘트롤)와 정량된 표현형으로 제공될 수있고, covariates의 임의의 세트의 조건과 지노타입의 uncertainity에 대한 account로서 제공될 수 있다. 이 프로그램은 IMPUTE, GTOOL, 및 CHIAMO에서 호출된 지노타입에 대한 결과파일 모두에 대해 균일한 작업을 위해 디자인되었다.

IMPUTE
이것은 알려진 haplotype들의 세트에 기초하여 (HapMap Phase II의 hyplotype들 처럼) 전장유전체 케이스-콘트롤 연구들에서 unobserbed genotype들을 imputing하는 프로그램이다. CHIAMO와 HAPGEN의 결과파일을 입력파일로 쓸수있고, IMPUTE의결과파일은 SNPTEST의 입력파일로 쓸수있다.

HPAGEN
HPAGEN은 SNP 마커들에서 케이스-콘트롤 데이터세트들을 시뮬레이션하며, IMPUTE, SNPTEST, GTOOL에 의해 사용되는 파일형태에서 결과테이터를 시물레이션할 수 있다. 이방법은 LD에서 마커들을 다룰수있고, 전장염색체와같이 커다란 영역에 대한 데이터세트를 시뮬레이션할 수 있다. HAPGEN은

2008년 7월 10일 목요일

HapMap project

HapMap 프로젝트

인간은 23쌍의 염색체를가진다.  염기서열분석결과 30억개의 염기로 구성되어 있음이 나타났다. 인간의 지놈서열은 거의 동일하다. 그러나 평균 1200개 염기당 한개의 비율로 염기차이가 존재한다.  대략 250만개의 단일염기다형성이 존재한다. 다른 염기혹 염기추가 혹 결손 등의 변이가 존재한다.  SNP 혹은 스닙 이라고도 한다. 대략 천만개 정도의 스닙이 존재할 것으로 예상.