Nice programing

Porter 및 Lancaster Stemming 알고리즘의 주요 차이점과 이점은 무엇입니까?

nicepro 2021. 1. 6. 20:50
반응형

Porter 및 Lancaster Stemming 알고리즘의 주요 차이점과 이점은 무엇입니까?


Java에서 문서 분류 작업을하고 있습니다.

두 알고리즘 모두 적극 권장되었습니다. 각각의 장점과 단점은 무엇이며 자연어 처리 작업에 대한 문헌에서 더 일반적으로 사용되는 것은 무엇입니까?


기본적으로 포터와 lancaster 스테 밍 알고리즘의 주요 차이점은 lancaster 스테 머가 포터 스테 머보다 훨씬 더 공격적이라는 것입니다. 오늘날 사용되는 세 가지 주요 형태소 분석 알고리즘은 Porter, Snowball (Porter2) 및 Lancaster (Paice-Husk)이며 기본적으로 동일한 라인을 따르는 공격성 연속체입니다. Porter는 가장 덜 공격적인 알고리즘이며 각 알고리즘의 세부 사항은 실제로 상당히 길고 기술적입니다. 그래도 여기에 대한 분석이 있습니다.

Porter : 의심 할 여지없이 가장 일반적으로 사용되는 형태소 분석기이자 가장 부드러운 형태소 분석기 중 하나입니다. 실제로 Java를 지원하는 몇 안되는 형태소 분석기 중 하나이며 이는 알고리즘의 가장 계산 집약적이지만 (매우 큰 차이가 없음). 또한 가장 오래된 형태소 분석 알고리즘이기도합니다.

Porter2 : 거의 보편적으로 포터보다 개선 된 것으로 간주되며 그럴만 한 이유가 있습니다. Porter 자신은 실제로 그것이 그의 원래 알고리즘보다 낫다는 것을 인정합니다. 포터보다 계산 시간이 약간 빠르며 주변에 상당히 큰 커뮤니티가 있습니다.

Lancaster : 매우 공격적인 형태소 분석 알고리즘, 때로는 오류가 있습니다. 포터와 눈덩이를 사용하면 어간 표현은 일반적으로 독자에게 상당히 직관적입니다. Lancaster에서는 그렇지 않습니다. 많은 짧은 단어가 완전히 난독 화되기 때문입니다. 여기에서 가장 빠른 알고리즘은 작업 단어 집합을 크게 줄이지 만 더 많은 구별을 원한다면 원하는 도구가 아닙니다.

솔직히 눈덩이가 보통가는 길이라고 생각합니다. Lancaster가 작업 세트를 엄청나게 줄이는 특정 상황이 있는데, 이는 매우 유용 할 수 있지만 제 생각에는 눈덩이보다 한계 속도 증가는 정확성이 부족할 가치가 없습니다. Porter는 대부분의 구현을 가지고 있으므로 일반적으로 기본 이동 알고리즘이지만 가능하면 snowball을 사용하십시오.

참조 URL : https://stackoverflow.com/questions/10554052/what-are-the-major-differences-and-benefits-of-porter-and-lancaster-stemming-alg

반응형