미국의 언어학자 GeorgeZipfs (1902-1950) 는 영어로된 책들에 나오는 단어들의 빈도수를 계산
자주사용되는 단어는 소수이고, 나머지들은 적은 빈도로만 쓰인다는, 그것도 PowerLaw를 따르면서 감소한다는 법칙을 발견. 언어학계의 ParetoRule.
순위권단어들
- 영어 : the, of, and, to, I, or, say, really, quality
- 한국어 : 사람, 때, 일, 말, 사회, 속, 문제, 문화, 집, 경우(이상 일반명사), 한국(고유명사), 하다(동사), 없다(형용사), 그러나(접속사)
숫자에도 적용됩니다. 지구상에 존재하는 모든 호수의 부피를 다 구한 다음, 그 첫번째 숫자의 분포도를 보면 어떨까요? ZipfsLaw가 적용됩니다. 오늘짜 신문에 나온 모든 숫자의 첫번째 숫자의 분포도도 마찬가지입니다. 이를 특별히 BenfordsLaw라고 하지요. --JuneKim
1,2... 등이 가장 많이 쓰이는 숫자겠군요~