형태소 분석기 완료 계획

1. 코퍼스 분석 프로그램
- 입력 : mysql 데이터 파일
- 출력 : 컴파일된 사전 파일
- 컴파일 사전의 상세 내용
   . 어절 사전
   . 형태 사전
   . 품사 연쇄 사전
   . 형태 연쇄 사전
   . 형태품사 연쇄 사전

2. 사용자 이용 프로그램
- 입력 : 컴파일된 사전 파일, 형태소 분석 대상 파일
- 출력 : 형태소 분석 파일

by iaminsik | 2008/06/10 10:43 | As a Developer | 트랙백 | 덧글(0)

독백...

"세상에서 가장 어려운 일은 사람이 사람에게서 마음을 얻는 일이란다."
"내 비밀은 이런 거야. 매우 간단한 거지.
 오로지 마음으로 보아야만 정확하게 볼 수 있다는 거야.
 가장 중요한 것은 눈에는 보이지 않은 법이야."

..............

그냥 떠나버리고 싶다.

by iaminsik | 2008/04/14 13:28 | 인생 | 트랙백 | 덧글(0)

[꿈꾸는 고니님의 글] '프로그래머는 왜 연습하지 않는가'

'꿈꾸는 고니'님의 블로그에서 본 글이다. '프로그래머는 왜 연습하지 않는가'... 정말 많이 느꼈던 점이다.
프로그래머도 계속 연습해야 한다. 사회에서 인정받는 전문분야의 사람들이 왜 인정받는가...연습을 하기 때문이다.
프로그래머들도 연습을 해야 한다. 자격증이라도 만들어서 매년 갱신하게 하면 될까?
현재와 같이 프로그래머들이 처한 열악한 상황을 개선하려면, 힘들더라도 자신들의 분야를 좀더 열정적이고,
발전하는 모습으로 만들어야 한다. 그렇지 않으면, 40대에 들어서 대체 뭘 할 수 있단 말인가...

자기 분야에서 열정적이지 못하면 도태된다. 열정이 없거나 안주하는 사람들이 많은 집단은 소멸한다.

P.S. 그리고, 왜 프로그래머들은 서로 결속하지 않는가... 서로 아껴주지 않는가... ( 프로그래머라고 뭐 기계들인가? )
왜 분야별 프로그래머 협회같은 것들은 없단 말인가... 아무나 프로그램 짜게... 심지어 프로게이머 협회도 있건만...
서로 대화능력이 부족한 건가.... 그냥 개인으로 인정받기를 원하는 심정이 큰 걸까? (나 잘났소...하고...)

프로그래머들이 가혹한 착취에 시달리는 것은 외부적인 요인도 있겠지만, 자신들의 문제도 있다고 생각된다.

외부의 착취는 내부의 발전과 결속이 부족한 때 발생한다.

친구들에게도 농담삼아 말한 적 있지만, '프로그래머 자격증 없이 컴파일하면 구속시켜야 해'....
(약간 과장이긴 합니다;;; )

by iaminsik | 2008/03/18 22:07 | As a Developer | 트랙백 | 덧글(0)

문서 유사도에 적용되는 Cosine Similarity Measure

TFIDF를 이용하여 어휘 가중치(W_t)를 계산하였다. 이때, 각 문서들은 어휘들(N)의 가중치 값으로 이루어진 N차원의 Vector Space 상의 한 점으로 생각할 수 있다.  N차원의 Vector Space에서 Cosine의 각(Angle)이 작을수록 유사도가 높다고 가정할 수 있으므로, 내적 코사인 (Inner Cosine)을 이용하여 문서의 유사도를 비교한다. 어휘 비교에 사용되는 어휘 목록과 갯수 선정은 실험자에게 전적으로 달려있다.








위키피디아의 Tanimoto Coefficient (Extended Jaccard Coefficient) 유사도를 참고하기 바란다.
정보 검색 이론이 가장 쉽게 정리된 사이트는 이곳이다.
 Dot Product에 대해서는 위키피디아를 참고하라.

(%1 수식은 온라인 라텍스 수식 편집기에서 편집하였다.)
(%2 확장가능한 수식편집기도 지원한다.)


by iaminsik | 2008/03/07 19:08 | 어휘유사도 | 트랙백 | 덧글(0)

◀ 이전 페이지다음 페이지 ▶