비음수 행렬 인수분해(NMF)를 이용한 문서 클러스터링


NMF(non-negative matrix factorization)을 이용해서 문서를 비슷한 주제로 분류하는
방법이 있다. 이는 행렬을 인수분해를 이용하는 방법인데 직접 테스트해 보니 결과가
아주 만족스러운 편이다. 실제 신문기사를 대상으로 테스트한 결과가 아래에 나와있다.


[제재,안보리,담화,유엔,대응,핵무기,]
32.39=北 ‘6자불참’ 시사…5자대응 ‘주목’
26.98=北, 로켓 제재시 6자회담 불참 위협
17.54=北 “미사일발사 안보리제재땐 6자회담 파탄”

[재판,지정,항소,유죄,법원,판결,]
30.57=檢, 정몽준 항소포기…의원직 유지 확정
30.28=檢, 정몽준 항소포기…의원직 유지 확정
23.41=[뉴스테이션]‘재판개입 의혹’ 사법부에 무슨 일 있었기에…

[언론,서민,덧셈,나서,외치,각오,]
49.80=“전주 출마 재고” “원내서 돕겠다”…丁-鄭 담판 결렬
6.95=DJ “무소속 출마 않길” 동교동 찾은 鄭에 충고
4.27=정세균-정동영 공천담판 결렬

[추경,올해,포항,규모,확보,편성,]
26.33=재정적자 52조, 국가채무 367조…나라살림 `빨간불’
23.81=98년-2009년 비교하니 GDP 고려하면 3% 규모로 비슷
21.24=이상득 "올해는 포항시 제 2도약의 해"

[일자리,추경,본예산,창출,빚더미,대책,]
28.24=6개월짜리 고용·소득보전…‘일자리 추경’ 무색
27.15=민주 "사상 최악의 빚더미 추경"
22.09=모습 드러낸 당정 ‘슈퍼 추경’…재정안정성 우려

[부사장,사위,투자,무혐의,장인,당의,]
39.82=李대통령 사위 조현범 부사장 무혐의
12.85=[배인준 칼럼]남과 북이 사는 법
7.30=丁-鄭, 공천갈등 해소 실패…재보선 차질

[신문사,지원,신문,세금,언론,주인,]
49.41=최문순 의원 “경영난 신문사에 추경 지원하자”
2.07=대학생 학자금 지원 2000억, 인턴교사 채용 478억
1.84=조선신보, 로켓 강경대응론 日 비난

[인지도,상품,마케팅,이론,디자인,소비자,]
42.29=마케팅 교수 5人이 본 ‘정동영 출마’ 상품가치
8.49=이재복 진해시장 "日 자위대 음악대 초청 취소"
2.61=DJ “어떤 일 있어도 당 깨지면 안돼”

[기후,런던시,탄소,연구,영국,나서,]
49.34=[사람들] 英기후변화전문가 사이먼 밀러
2.46=한나라, 이번엔 WBC 패러디 ‘김인식=MB’
1.91=‘눈감은 정부’ 제2 롯데월드 허용

[북측,관계,참사,쟁점,우리,남측,]
44.72=北관계자들, 방북단체들에 "인공위성" 강조
21.70=北관계자들, 방북단체들에 “인공위성” 강조
17.17=北관계자들, 방북단체들에 "인공위성" 강조

[신문,교훈,대처,비난,조직,기회,]
26.40=조선신보, 로켓 강경대응론 日 비난
23.67=DJ “무소속 출마 않길” 동교동 찾은 鄭에 충고
15.12=정세균   “선대위원장 맡아라” 불출마 권유

위에서 주제와 해당 주제에 가까운 기사의 제목을 가중치와 함께 3개씩 보여주고 있다.
결과를 보면 분류가 썩 좋은 편이라는 걸 알 수 있는데 비감독 방법으로 이정도의 결과를
보인다는 것이 아주 인상적인 느낌이다.

[기후,런던시,탄소,연구,영국,나서,]
49.34=[사람들] 英기후변화전문가 사이먼 밀러
2.46=한나라, 이번엔 WBC 패러디 ‘김인식=MB’
1.91=‘눈감은 정부’ 제2 롯데월드 허용

이 주제의 경우 첫번째 문서와 다른 문서의 가중치 차이가 매우 크기 때문에 이 주제에
해당하는 문서는 하나밖에 없다는 걸 알 수 있다.


NMF에서 한가지 문제점은 행렬의 크기 문제이다. 문서의 수가 D이고 전체 단어의 수가 W라면
D*W 행렬을 다루어야 하는데 단어의 수가 커지면 메모리나 계산량이 엄청나게 늘어난다는 점이
가장 큰 문제점이다. 그리고 계산시 특성의 수를 지정해 주어야 하는데, 이는 실험적인 방법으로
구할 수 밖에 없을 것 같다.

대규모 행렬 연산 문제만 해결할 수 있다면 문서를 분류하는데 NMF만큼 좋은 결과를 보여주는 방법을
찾기 어렵지 않을까 싶다.



by 미노 | 2009/03/26 18:20 | 검색엔진 | 트랙백 | 덧글(4)

트랙백 주소 : http://wyb330.egloos.com/tb/4099071
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 고요한하늘 at 2009/05/27 10:21
안녕하세요 가끔 검색해서 들어오다가 처음으로 글을 남깁니다.
테스트하실때 형태소 분석한 텀을 가지고 행렬을 만드셨는지 궁금합니다.( 추출된 키워드로봐서는 형태소 분석을 하신것 같긴한데요, 뉴스 타이틀이면 필요 없을것 같기도 하구요)
Commented by 미노 at 2009/05/28 16:11
녜 형태소 분석을 한 후 행렬을 만들었습니다.
뉴스는 RSS로 수집했는데 제목뿐만 아니라 Description도 이용했기 때문에
좀 더 정확한 결과를 위해 형태소 분석 후 처리했습니다.
Commented by 고요한하늘 at 2009/05/28 17:03
Description도 사용하셨군요... 답변 감사합니다.
Commented by 강재호 만해 at 2009/12/05 02:17
안녕하세요 만해입니다 ^^
자주 찾아 뵙네요 ^^
LSI 찾아 보다가 저기 위에 고요한 하늘님이 NMF를 보라고 하셔서 찾아 보니 다시 여기로 오게 도네요 ^^ ㅋ

:         :

:

비공개 덧글

◀ 이전 페이지다음 페이지 ▶