개념
보스와 연구실의 T, L과 같이 써서 조만간 출판되는 논문이 있다. 다중대체법에 대한 비교와 약간의 시뮬레이션이 그 논문의 골자이다. 지난 주, 관례대로 연구실 학생들 모두가 교정을 봐 주었다. 그 과정에 발생한 문제가 있다. 암만 봐도 이론적 배경의 설명이 알아먹지 못하게 서술되었다. 문제의 핵심인 결측 매커니즘과 결측치의 대체 가능성과 그 매커니즘이, 어느 정도 설문조사와 통계학 지식이 있는 사람도 이해하기 어려웠다. 곰곰히 생각해본 결과, 서술상에서 양자를 정확히 구분짓지 않고 퉁쳐서 서술한 게 문제라 판단했다. 그래서 가능한 한 정밀하게 1)어떻게 설문지에서 결측이 발생하는가? 2) 결측된 값에 원래 채워져야 할 관측치가, 다른 관측치에 의해 설명되는가? 의 두 가지를 구분하여 3형식 문장으로 짧게 끊어썼다. 막판에 전체 설문 서른 개 문항에 대한 세 가지 방법, 그러니깐 완전제거법과 재조사법, 그리고 다중대체법을 비교한 표가 한 눈에 들어오지 않아, error bar 를 사용한 R로 간단한 그림을 그린 건 여흥.
그런데 진짜 문제는 그 다음이었다. 실제 이런 서술 방향에 대해 이야기해보니, 저자인 T와 L이 다중대체법의 매커니즘을 정확하게 이해하고 있어 보이지 않았다. 나중에 저자로 들어온 L은 논의를 따라가는 것 자체를 버겨워했다. T의 설명대로 이해하자면, 결측치의 대체에 대한 매커니즘이 무임의결측과 구분되지 않았다. 결국 미궁에 빠진 T와 L은, 적당히 서술하는 방향으로 틀었다고 했다.
왜 이런 일이 발생했을까. 저자들마저도 자신의 논문에서 제시하고 있는 개념을 명확하게 설명하지 못할까. 통계 "패키지"의 사용 때문이 아닐까. T는 SAS의 다중대체법 프로시저를 그대로 가져와서 사용했다. 그때까지만 해도 가장 큰 난관이 시뮬레이션의 적용이었으니까 간편한 패키지를 쓰는 것은 좋은 전략이었다. 하지만 보스 표현대로, 그냥 'cook book'찾아보는 식으로 패키지를 쓰다 보면, 도대체 이게 내부적으로 어떻게 돌아가느냐를 놓치게 된다.
어젯 밤까지 골드버거의 계량경제 책을 복습하다 잠자리에 들었다. 꽤 오랜동안 고민한 문제가 Y의 분산행렬의 구조를 어떻게 이해하느냐였는데, 이에 대한 일치추정량으로서의 MSE 성격을 정확히 이해하고나니, 왜 함부로 Y의 분산행렬을 그냥 분산 구하듯 못하는지를 비로소 이해했다. 아 정말 갈 길 멀다. 정말 계량 잘 하고 싶다. 기승전계량타령이구만. 썅.