打字錄2014. 7. 25. 15:54

재능보다 태도가 중요하다. 반짝반짝 하는 아이디어 내놓아서 빛나 보이는 건 정말 잠깐이다. 그 반짝거리는 아이디어를 가다듬어 누구나 알아볼 수 있게 시간과 노력을 일을 들이는 일이 진짜다. 진짜 재능은 바로 전자가 아니라 '시간과 노력을 들일 수 있는 끈기와 자기통제능력'에 있다고 생각한다. 그러나 보통 사람들은 전자에 현혹된다. 


보스도 이 함정에 빠진 게 아닌가 고개를 갸웃거릴 때가 있다. 나는 죽었다 깨어나도 K의 깊이를 가질 수 없다. 뭔 짓을 하더라도 L처럼 반짝반짝한 질문을 던질 수 없다. 그저 내가 할 수 있는 건, 회사때나 지금이나 걸레 빨아 행주 만드는 일이 전부다. 이런 노가다성 적합도를 떠올릴 때마다 난 양가적 감정에 빠져 허우적댄다. 내가 가지지 못한 재능을 가진 이들에 대한 열등감, 그리고 잡일이 되든 뭐가 되었든 대다수가 만족은 못해도 인정은 할 정도의 수준까지는 끝까지 매끄럽게 만들어 낼 수 있다는 우월감. 그런 열등감 머신이다 나는. 


L은 후자를 그다지 파지 않는다. 아마 그게 큰 걸림돌이 될 거라 생각해왔다. 녀석은 그걸 넘을 수 있을까. 

Posted by mannerist
學人2014. 7. 23. 11:09

SPSS교재 만들기는 정말 영혼없이 끝내자면 두세 시간에 싹 끝내버릴 수 있는 일이다. 여기서 영혼없다는 말은, 내부 논리나 수식 이런거 개무시하고 어떻게 이 툴을 다룰 지를 서술하고, 결과 해석하는 법을 달면 게임 끝이라는 말 되겠다. 그런데 이걸 제대로 잡아 들어가자면 한량없다. 회귀진단에서 영향점을 파악하는 논리를 제대로 알고자 한다면 추정치에 대한 신뢰구간을 구할 줄 알아야 하고, 그러자면 이넘의 분산이 가진 성질을 제대로 파악해야 한다. 여기에 플러스 알파, 보스가 써 둔 교재와의 간극을 최소화하기 위해 하나하나, 라인 바이 라인으로 잡아가다보면 손 댈 구석이 한 두 개가 아니다. 그러다보면 별것도 아닌 걸로 개삽질을 하게 될 때가 있다. 어제의 개삽질은 그런 거다. 회귀모형에 대한 영향점을 변수별로 그리는 DFBEATS를 잡고 있는데, 아무리 봐도 동일한 모형으로 굴렸는데 보스의 그림과 내 그림이 다른 거다. 두시간을 이걸 가지고 씨름하다 알아낸 결과는 허무하기 그지없었다. 관측치의 정렬 순서가 달랐다. 허탈함이 밀려왔다. 


취직 후 인사차 사무실에 들른 S 덕택에, 연구실 사람 모두와 저녁을 함께 했다. 첫 직장생활을 하는 S를 앞에 두고, 내가 옛 직장에서 벌인 여러가지 뻘짓을 이야기하며 낄낄댔다. 그리고 돌아오는 길, 보스의 차 안에서 내가 한 삽질을 이야기하며 자학했다. 보스의 평소 스타일대로, 공부하는 사람은 그런 삽질을 많이 해 봐야 한다는 말이 이어졌다. 문제는 그 다음 이야기가 내게 좀 걸린다는 것. 


너랑 그 누구야, K가 한 걸 잘 비교해보면, 너보다 K가 훨씬 자세하고 꼼꼼하게 잘 봐. 왜그런지 아니? 너가 좀 많이 해 봐서 안다고, 익숙한 거 그냥 그려려니 하고 넘어가는 걸, 처음 보는 사람은 하나하나 다 짚고 넘어가기 때문이야. 


솔직히 자존심이 많이 상했다. 까놓고 말해, 오만 잡일 여기저기 다 땜빵 메워가느라 내 공부시간도 쪼개는 판국에, 다들 지 공부 한다고 손에 놓다시피한 원고 교정 눈빠지게 봐서 얻은 평가가 고작 저건가. 그 판국에 쓰는 원고도 다 집어치우고 집에 가서 맥주나 한 잔 하고 쳐 자고 싶었다. 그러나 그럴 수 있나. 보스에게, 그리고 연구실 동료들에게, 월요일까지 다 끝낼 수 있다고 큰소리 뻥뻥 쳤던 거 쪽팔려서라도 마무리해야지. 글자 그대로 자리에 앉아 썅소리를 물어가며 간신히 간신히 원고를 닫았다. 하루 동안 그림 캡쳐 오십여개와 만 이천자의 원고로 마무리했다. 아마 내가 삽질하다가 썼다 지운 걸 생각하면 그 세 배쯤 될 거다. 


돌아오는길에 곰곰히 생각해봤다. 내가 정말 원고 교정을 잘못 본 건가. 듬성듬성 본 부분이 분명히 있었다. 이번에 SPSS교재를 만들면서도 절감한 거니까. 그러다 든 생각. 보스는 내가 교정을 못 봤다고 평가를 내린 게 아닐지도 모르겠다. 다만, 내가 보고 싶어도 볼 수 없는 부분이 있다는 걸 말했던 게 아닐까. K가 나보다 더 꼼꼼하게 본다는 게 그런 게 아닐까. 이미 몇 사이클을 돌아버린 나는, 제 아무리 꼼꼼하게, 초심자의 눈으로 보려 노력한다 해도 볼 수 없는, 아예 무지 상태의 학생이 될 수 없어서 그런 거 아닐까. 농담삼아 연구실 동료들에게 내가 쓴 글 다시 읽을때는, 내 안의 또다른 나를 끄집어내거나 내 밖의 제 3의 인격을 소환해서 보는 습관을 들이라고 이야기하는데, 만약 이게 완벽하게 된다면 그게 사람새낀가. 이중인격자겠지. 


그제서야 조금 마음이 가벼워졌다. 내 나잇대에서 반드시 알아야 할 게 있다면, 그건 세상일에는 할 수 있는 일과 할 수 없는 일, 될 일과 안 될 일이 따로 나누어져있다는 걸 인정하는 자세라고 생각한다. 기분 더러워도 어쩔 수 없다. 할 수 있는 일을 하고, 손 닿지 않는 일에 대해서는 기도하는 수 밖에 없다. 오늘은 기승전 우정사, 우리가 정말 사랑했을까(당연히 노희경 드라마). 이 세상에서 인간이 할 수 있는 일이란 기도와 최선밖에 없다는 이야기. 


p. s. 현실 데이터를 가지고 보는 omitted variable bias를 왜 short regression과 long regression의 일반적 설명방법을 준용해서 설명할 때 삑사리가 나는지에 대해 엑셀로 직접 행렬 계산을 해 보다가 한달만에 깨달았다. 현실의 데이터에서 공분산 행렬이 CR모델의 가정을 완벽히 만족할리가 없잖아! 그걸 쌩노가다 끝에 제대로 아는 데 한 달이 걸리다니!! 난 아직 멀었어, 망했어, 젠장. 

Posted by mannerist
學人2014. 7. 13. 09:02

보스와 연구실의 T, L과 같이 써서 조만간 출판되는 논문이 있다. 다중대체법에 대한 비교와 약간의 시뮬레이션이 그 논문의 골자이다. 지난 주, 관례대로 연구실 학생들 모두가 교정을 봐 주었다. 그 과정에 발생한 문제가 있다. 암만 봐도 이론적 배경의 설명이 알아먹지 못하게 서술되었다. 문제의 핵심인 결측 매커니즘과 결측치의 대체 가능성과 그 매커니즘이, 어느 정도 설문조사와 통계학 지식이 있는 사람도 이해하기 어려웠다. 곰곰히 생각해본 결과, 서술상에서 양자를 정확히 구분짓지 않고 퉁쳐서 서술한 게 문제라 판단했다. 그래서 가능한 한 정밀하게 1)어떻게 설문지에서 결측이 발생하는가? 2) 결측된 값에 원래 채워져야 할 관측치가, 다른 관측치에 의해 설명되는가? 의 두 가지를 구분하여 3형식 문장으로 짧게 끊어썼다. 막판에 전체 설문 서른 개 문항에 대한 세 가지 방법, 그러니깐 완전제거법과 재조사법, 그리고 다중대체법을 비교한 표가 한 눈에 들어오지 않아, error bar 를 사용한 R로 간단한 그림을 그린 건 여흥. 


그런데 진짜 문제는 그 다음이었다. 실제 이런 서술 방향에 대해 이야기해보니, 저자인 T와 L이 다중대체법의 매커니즘을 정확하게 이해하고 있어 보이지 않았다. 나중에 저자로 들어온 L은 논의를 따라가는 것 자체를 버겨워했다. T의 설명대로 이해하자면, 결측치의 대체에 대한 매커니즘이 무임의결측과 구분되지 않았다. 결국 미궁에 빠진 T와 L은, 적당히 서술하는 방향으로 틀었다고 했다. 


왜 이런 일이 발생했을까. 저자들마저도 자신의 논문에서 제시하고 있는 개념을 명확하게 설명하지 못할까. 통계 "패키지"의 사용 때문이 아닐까. T는 SAS의 다중대체법 프로시저를 그대로 가져와서 사용했다. 그때까지만 해도 가장 큰 난관이 시뮬레이션의 적용이었으니까 간편한 패키지를 쓰는 것은 좋은 전략이었다. 하지만 보스 표현대로, 그냥 'cook book'찾아보는 식으로 패키지를 쓰다 보면, 도대체 이게 내부적으로 어떻게 돌아가느냐를 놓치게 된다. 


어젯 밤까지 골드버거의 계량경제 책을 복습하다 잠자리에 들었다. 꽤 오랜동안 고민한 문제가 Y의 분산행렬의 구조를 어떻게 이해하느냐였는데, 이에 대한 일치추정량으로서의 MSE 성격을 정확히 이해하고나니, 왜 함부로 Y의 분산행렬을 그냥 분산 구하듯 못하는지를 비로소 이해했다. 아 정말 갈 길 멀다. 정말 계량 잘 하고 싶다. 기승전계량타령이구만. 썅. 

Posted by mannerist