본문 바로가기
자유게시판

투르 드 프랑스에서 작동하는 신비한 수학

by godfeeling 2024. 7. 17.

세계에서 가장 유명한 자전거 대회의 이전 우승자들이 어디 출신인지 살펴보면, 놀랍게도 흔한 패턴이 드러납니다.

투르 드 프랑스는 의심할 여지 없이 세계에서 가장 유명한 사이클 경기입니다. 전 세계 다양한 국가 의 선수들이 유명한 노란색 저지를 놓고 3주 동안 경쟁합니다. 수십억 명의 다른 사람들과 함께 저는 아름다운 프랑스 지형에서 거의 초인적인 선수들이 절대 한계에 도전하는 광경을 보는 것을 즐깁니다.

올해 투르 드 프랑스에 참가하는 사이클 선수들은 지프의 법칙을 알지 못할 수도 있지만, 그것은 그들의 스포츠 통계에 숨겨져 있습니다(출처: 게티 이미지)

많은 팬들과 마찬가지로, 저도 다가오는 레이스에 대한 정보를 읽으며 여름을 시작합니다.하지만 얼마 전 전에는 본 적이 없는 그래픽을 발견했습니다. 국가별 투르 우승 횟수 입니다.좌측에서 우측으로 감소하는 곡선의 매끄러운 호가 인상적이었습니다.특히, 우승 횟수 18회로 2위를 차지한 벨기에가 프랑스 라이더의 36회의 우승의 정확히 절반을 차지했습니다.옐로우 저지를 가장 많이 받은 나라인 스페인은 프랑스의 우승 횟수의 정확히 3분의 1(12)을 차지했습니다.다음으로 많은 나라인 이탈리아는 프랑스의 우승 횟수의 4분의 1(10)보다 단 1회 더 많았습니다.

랜스 암스트롱의 7명을 제외한 103명의 투르 드 프랑스 우승자의 국적별 분포는 지프의 법칙을 연상시키는 패턴을 만들어낸다

이것은 많은 실제 세계 데이터 세트가 겉보기에 일치하는 신비롭고 편재하는 분포를 매우 강하게 떠올리게 했습니다. "지프의 법칙"은 아마도 글에서 단어의 빈도를 특성화하는 것으로 가장 잘 알려져 있습니다. 이 맥락에서 이 법칙은 충분히 큰 텍스트의 경우 단어를 빈도가 감소하는 순서대로 줄을 세우면 특별한 패턴을 보인다고 말합니다. 구체적으로, 두 번째로 가장 빈번한 단어는 가장 빈번한 단어의 약 절반 정도 발생합니다. 세 번째로 가장 빈번한 단어는 첫 번째 단어의 약 1/3 정도 발생하고, 네 번째 단어는 1/4 정도 발생합니다. 투르 드 프랑스 우승자들의 경우와 마찬가지입니다.

테스트해 보기 위해, 제 책 중 하나의 단어 빈도를 분석했을 때, lo and behold, 저는 아래 그래프에서 볼 수 있는 Zipf의 법칙과 놀라울 정도로 잘 일치한다는 것을 발견했습니다. 제가 책에서 가장 많이 사용한 단어는 "the"로 6,691회였습니다. 두 번째는 "of"로 3,330회 나타났습니다. "the"가 나타나는 횟수의 거의 정확히 절반이었습니다. 그 다음은 "to"가 2,445회 나타났고, "the"의 빈도의 1/3이 조금 넘었습니다. 우연히도 "life"와 "mathematics"라는 단어는 64회 나타났고, "death"는 책 제목이 "The Maths of Life and Death"임에도 불구하고 42회만 나타났습니다.

위의 문단을 보더라도 "the"와 같은 극히 흔한 단어가 "startlingly"와 "appearances"와 같은 희귀한 단어와 섞여 있는 것을 볼 수 있습니다. 충분히 큰 텍스트에서 "startlingly"와 같은 특정 희귀 단어가 "the"와 같은 특정 흔한 단어보다 나타날 가능성은 훨씬 낮지만, Zipf의 법칙은 흔한 단어보다 희귀한 단어가 훨씬 더 많다는 것을 말해줍니다. 실제로 Zipf의 법칙은 이러한 요소들이 서로 균형을 이룬다고 제안합니다. 즉, 텍스트에서 무작위로 단어를 뽑으면 많은 희귀 단어 중 하나일 가능성이 몇 안 되는 흔한 단어 중 하나일 가능성과 마찬가지로 많습니다.

영어: 큰 텍스트에서 단어 빈도에 대한 지프의 법칙은 보편적입니다. 그것은 영어에만 적용되는 것이 아니라, 인공 언어인 에스페란토를 포함한 다른 많은 언어에도 적용되는 듯합니다. 흥미롭게도, 이 거의 마법 같은 관계는 투르 드 프랑스 사례에서 보았듯이 텍스트의 단어에만 국한되지 않습니다. 또한 과학자들이 쓴 논문 수 , 정착지의 인구 규모 , 면역 관련 아미노산 서열 길이 , 심지어 달의 분화구 직경 과 같이 매우 다양한 시나리오에서도 발견되었다고 보고되었습니다 .

지프의 법칙은 거듭제곱 법칙 이라고 불리는 보다 일반적인 규칙의 특별한 경우입니다 . 이 맥락에서 거듭제곱 법칙은 한 변수(예: 지구 중력의 힘)가 다른 변수(지구 중심에서의 거리)를 어떤 수학적 "제곱"으로 올렸을 때 반비례한다는 것을 암시합니다. 중력의 경우 지구 중심에서의 거리가 짧을수록 인력이 강해지고, 거리가 멀수록 인력이 약해집니다. 큰 텍스트의 단어에 대한 지프의 거듭제곱 법칙은 거듭제곱 법칙의 "제곱" 또는 "지수"가 1인 특별한 경우입니다. 즉, 한 변수를 두 배로 늘리면 다른 변수가 반으로 줄어들고 첫 번째 변수를 세 배로 늘리면 두 번째 변수가 3분의 1로 줄어드는 식입니다.

그러나 일반적인 거듭제곱 법칙의 경우 일반적으로 그렇지 않습니다. 예를 들어 중력의 "역제곱 법칙"은 지수(또는 거듭제곱)가 2인 거듭제곱 법칙을 따릅니다. 현재 앉아 있는 곳보다 지구 중심에서 두 배 더 멀리 이동한다면 새로운 위치에서 경험하게 될 힘은 현재 위치보다 네 배(2제곱) 약할 것입니다. 세 배 더 멀리 이동한다면 힘은 아홉 배(3제곱) 약할 것입니다.

거듭제곱 법칙은 서식지 면적에 따른 종 다양성 변화 부터 미국에서 하루에 발생하는 토네이도 수의 빈도, 심지어 예술가 수가 작품의 평균 가격에 따라 어떻게 달라지는지에 이르기까지 다양한 자연적으로 생성된 데이터 세트를 설명하는 것으로 밝혀졌습니다. Lewis Richardson은 1809년에서 1949년 사이의 전쟁에 대한 데이터를 분석하여 치명적인 갈등의 빈도는 지수 ½  거듭 제곱 법칙에 따라 사망자 수에 따라 다르다는 것을 발견했습니다. 100만 명이 사망한 전쟁은 1만 명이 사망한 전쟁보다 10배, 100명이 사망한 갈등보다 100배 낮은 것으로 나타났습니다. 아마도 지금까지 발견된 가장 중요한 거듭제곱 법칙 중 하나는 Charles Richter와 Beno Gutenberg가 1956년에 발표한 것으로, 지진의 빈도가 규모에 따라 어떻게 달라지는지 설명합니다.

전력 법칙이 광범위한 실제 세계 현상을 설명하는 데 중요하다는 것은 분명하지만, 왜 그렇게 널리 퍼져 있는 것처럼 보일까요? 수학적으로 전력 법칙은 시스템이 규모 불변성 또는 자기 유사성을 보일 때 발생한다는 것을 보여줄 수 있습니다. 이러한 관련 속성을 보이는 시스템은 확대하거나 축소할 때 동일(또는 거의 동일)하게 보입니다. 프랙탈 해안선은 자기 유사성의 자주 인용되는 예입니다. 해안선의 윤곽을 감안할 때 보고 있는 규모를 정확히 말하기는 어렵습니다(아래 이미지의 웨일스 해안선 윤곽에서 볼 수 있듯이). 확대하면 해안선의 구조는 유사하게 유지됩니다. 인터넷과 같은 네트워크에서 눈송이와 같은 자연적으로 발생하는 물리적 현상, 고사리와 같은 생물학적 구조에 이르기까지 많은 실제 세계 현상은 자기 유사 속성을 보입니다. 전력 법칙은 이러한 자기 유사 속성을 수학적으로 포착합니다.

웨일스 해안선을 손으로 그린 ​​이 그림의 규모를 자세히 살펴보면 두 개의 스케치가 다른 스케치의 일부를 확대한 것임을 알 수 있습니다(출처: Kit Yates)

아마도 지프의 법칙 자체에 대한 가장 설득력 있는 설명은 여러 구성 요소를 혼합하는 데 작용하는 잠재적 또는 관찰되지 않은 변수가 있으며, 그 자체로는 지프의 법칙을 따르지 않지만 결합하면 따른다는 것입니다. 예를 들어 단어 빈도의 맥락에서 구성 요소는 다양한 품사(예: 형용사, 접속사, 명사, 전치사, 동사 등)입니다. 예를 들어, 이들은 일반적이며 맥락과 관계없이 문장에서 사용되기 때문에 서로 다른 접속사(예: "and", "because")가 매우 적고 각각은 비교적 흔합니다. 대조적으로 명사는 훨씬 더 많지만(예: "speech", "law" 등) 각각은 정확한 사물을 포함하는 비교적 소수의 특정 맥락에서만 사용할 수 있으므로 각각은 비교적 드뭅니다. 이러한 구성 요소는 개별적으로 지프의 법칙을 따르지 않지만 이러한 품사가 다른 품사와 혼합되어 언어를 형성하면 따릅니다.

투르 드 프랑스는 지프의 법칙이 성립하는 유일한 스포츠 맥락이 아닙니다. 올림픽 메달 순위  스누커 상금 과 같은 상황에서 발생합니다 . 그러나 지프의 법칙이 투르 드 프랑스 우승자에게 적용되는 정확한 이유는 명확하지 않습니다. 사실 예상할 수 있듯이 실제 데이터 위에 지프의 분포를 표시하면 일치가 완벽하지 않습니다. 투르에서 가장 많이 우승한 유럽 국가인 프랑스와 그 가까운 이웃 벨기에, 스페인, 이탈리아는 과대 표현됩니다. 어떤 면에서 이는 놀라운 일이 아닙니다. 초기 투르 드 프랑스의 구성은 프랑스가 주도했고 나중에는 이웃 국가가 주도했습니다. 예를 들어 1903년 투르의 첫 번째 에디션에서는 참가한 60명의 사이클 선수 중 49명이 프랑스인이었습니다 . 1차 세계 대전 이전의 모든 우승자를 제거하면 지프의 법칙과 더 잘 일치합니다(아래 그래프 참조).

1919년 이후 투르 드 프랑스 우승자 91명의 분포는 검은색 십자가로 표현된 것처럼 지프의 법칙과 매우 유사합니다

1985년 이후로 가장 유명한 스포츠 행사에서 프랑스가 우승하지 못했기 때문에, 대표성이 부족한 일부 국가가 우승 후보가 될 수 있는 기회를 얻었습니다.

하지만 올해 레이스에 대한 의미는 무엇일까요? 슬프게도, 지프의 법칙은 일반적인 내용만 말하고 그런 구체적인 질문에 대한 답을 제공하지 않습니다. 하지만 무슨 일이 일어나든, 마지막 우승에 대한 기억이 대중의 의식에서 사라지더라도 프랑스가 투르를 일찍 지배했다는 증거가 데이터에서 사라지려면 몇 년 더 걸릴 것입니다.

댓글