2009년 03월 26일
비음수 행렬 인수분해(NMF)를 이용한 문서 클러스터링
NMF(non-negative matrix factorization)을 이용해서 문서를 비슷한 주제로 분류하는
방법이 있다. 이는 행렬을 인수분해를 이용하는 방법인데 직접 테스트해 보니 결과가
아주 만족스러운 편이다. 실제 신문기사를 대상으로 테스트한 결과가 아래에 나와있다.
[제재,안보리,담화,유엔,대응,핵무기,]
32.39=北 ‘6자불참’ 시사…5자대응 ‘주목’
26.98=北, 로켓 제재시 6자회담 불참 위협
17.54=北 “미사일발사 안보리제재땐 6자회담 파탄”
[재판,지정,항소,유죄,법원,판결,]
30.57=檢, 정몽준 항소포기…의원직 유지 확정
30.28=檢, 정몽준 항소포기…의원직 유지 확정
23.41=[뉴스테이션]‘재판개입 의혹’ 사법부에 무슨 일 있었기에…
[언론,서민,덧셈,나서,외치,각오,]
49.80=“전주 출마 재고” “원내서 돕겠다”…丁-鄭 담판 결렬
6.95=DJ “무소속 출마 않길” 동교동 찾은 鄭에 충고
4.27=정세균-정동영 공천담판 결렬
[추경,올해,포항,규모,확보,편성,]
26.33=재정적자 52조, 국가채무 367조…나라살림 `빨간불’
23.81=98년-2009년 비교하니 GDP 고려하면 3% 규모로 비슷
21.24=이상득 "올해는 포항시 제 2도약의 해"
[일자리,추경,본예산,창출,빚더미,대책,]
28.24=6개월짜리 고용·소득보전…‘일자리 추경’ 무색
27.15=민주 "사상 최악의 빚더미 추경"
22.09=모습 드러낸 당정 ‘슈퍼 추경’…재정안정성 우려
[부사장,사위,투자,무혐의,장인,당의,]
39.82=李대통령 사위 조현범 부사장 무혐의
12.85=[배인준 칼럼]남과 북이 사는 법
7.30=丁-鄭, 공천갈등 해소 실패…재보선 차질
[신문사,지원,신문,세금,언론,주인,]
49.41=최문순 의원 “경영난 신문사에 추경 지원하자”
2.07=대학생 학자금 지원 2000억, 인턴교사 채용 478억
1.84=조선신보, 로켓 강경대응론 日 비난
[인지도,상품,마케팅,이론,디자인,소비자,]
42.29=마케팅 교수 5人이 본 ‘정동영 출마’ 상품가치
8.49=이재복 진해시장 "日 자위대 음악대 초청 취소"
2.61=DJ “어떤 일 있어도 당 깨지면 안돼”
[기후,런던시,탄소,연구,영국,나서,]
49.34=[사람들] 英기후변화전문가 사이먼 밀러
2.46=한나라, 이번엔 WBC 패러디 ‘김인식=MB’
1.91=‘눈감은 정부’ 제2 롯데월드 허용
[북측,관계,참사,쟁점,우리,남측,]
44.72=北관계자들, 방북단체들에 "인공위성" 강조
21.70=北관계자들, 방북단체들에 “인공위성” 강조
17.17=北관계자들, 방북단체들에 "인공위성" 강조
[신문,교훈,대처,비난,조직,기회,]
26.40=조선신보, 로켓 강경대응론 日 비난
23.67=DJ “무소속 출마 않길” 동교동 찾은 鄭에 충고
15.12=정세균 “선대위원장 맡아라” 불출마 권유
위에서 주제와 해당 주제에 가까운 기사의 제목을 가중치와 함께 3개씩 보여주고 있다.
결과를 보면 분류가 썩 좋은 편이라는 걸 알 수 있는데 비감독 방법으로 이정도의 결과를
보인다는 것이 아주 인상적인 느낌이다.
[기후,런던시,탄소,연구,영국,나서,]
49.34=[사람들] 英기후변화전문가 사이먼 밀러
2.46=한나라, 이번엔 WBC 패러디 ‘김인식=MB’
1.91=‘눈감은 정부’ 제2 롯데월드 허용
이 주제의 경우 첫번째 문서와 다른 문서의 가중치 차이가 매우 크기 때문에 이 주제에
해당하는 문서는 하나밖에 없다는 걸 알 수 있다.
NMF에서 한가지 문제점은 행렬의 크기 문제이다. 문서의 수가 D이고 전체 단어의 수가 W라면
D*W 행렬을 다루어야 하는데 단어의 수가 커지면 메모리나 계산량이 엄청나게 늘어난다는 점이
가장 큰 문제점이다. 그리고 계산시 특성의 수를 지정해 주어야 하는데, 이는 실험적인 방법으로
구할 수 밖에 없을 것 같다.
대규모 행렬 연산 문제만 해결할 수 있다면 문서를 분류하는데 NMF만큼 좋은 결과를 보여주는 방법을
찾기 어렵지 않을까 싶다.
# by | 2009/03/26 18:20 | 검색엔진 | 트랙백 | 덧글(4)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
테스트하실때 형태소 분석한 텀을 가지고 행렬을 만드셨는지 궁금합니다.( 추출된 키워드로봐서는 형태소 분석을 하신것 같긴한데요, 뉴스 타이틀이면 필요 없을것 같기도 하구요)
뉴스는 RSS로 수집했는데 제목뿐만 아니라 Description도 이용했기 때문에
좀 더 정확한 결과를 위해 형태소 분석 후 처리했습니다.
자주 찾아 뵙네요 ^^
LSI 찾아 보다가 저기 위에 고요한 하늘님이 NMF를 보라고 하셔서 찾아 보니 다시 여기로 오게 도네요 ^^ ㅋ