벤포드의 법칙이란걸 접했다. 상당히 흥미가 갔다. 내가 하는 업무가 빅데이터를 다루기도 하고… 데이터 검증을 해야 하기도 하니….상당히 흥미가 갔다.
도입부 설명이 아래와 같았다.
1~100만의 숫자중 랜덤으로 100만번 선택했을 경우 골라진 숫자의 맨 첫자리 숫자가 1일 확률이 가장 높고 그다음이 2.. 3…
이게 실제로 적용되는지 스크립트로 짜서 돌려봤다. 

굉장히 신기했다. 이게 말이 돼 ? 랜덤으로 뽑는건데 ? 실제로 적용되는지 궁금했다.

 

 

-MacBookPro benford % cat sss.sh

#!/bin/sh

 

num=1

 

while [ $num -le 1000000 ]

do

random_num="$(($RANDOM% 9999+1))"

first_num="${random_num:0:1}"

echo "$first_num" >> 123123.txt

((num++))

done

 

랜덤함수가 32767 까지밖에 안나오니 1부터 9999까지 랜덤으로 뽑도록 해보고… 결과는 아래와 같다.

 

MacBookPro benford % cat 123123.txt | sort | uniq -c

135337 1

128771 2

105152 3

105292 4

105207 5

105114 6

105024 7

105305 8

104798 9

1이랑 2가 많긴 하지만…이건 벤포드의 법칙보다는 내가 뭔가 간과한 부분이 있는것같다. 어쨌든 벤포드의 법칙을 설명할 때 적잖은 유튜버, 블로거들이 했던 설명인"1~100만의 숫자중 랜덤으로 100만번 선택했을 경우 골라진 숫자의 맨 첫자리 숫자가 1일 확률이 가장 높고" 은 잘못된 예제같다. 일단 패스.

 

벤포드의 법칙이 적용되려면 광범위한 데이터여야 하고 비선형의구조를 보이는? 데이터여야 한다고 한다.(정확히 이해한건지 모르겠다..)
그럼 진짜로 이게 실 데이터에 적용되는지… 실제 회사내의 데이터를 가지고 확인해보았다.

약 200 개 앱(게임)들의 365일간의 일일 매출들. 즉 약 7만개(200개 앱 * 365일)데이터가 벤포드 법칙에 적용이 되는지 확인해보았다.

 

결과는

 

MacBookPro benford % awk '{print $2}' benford.txt| sort | uniq -c

14610 1 (33프로) 

8585 2 (18프로) 

4893 3 (10프로) 

4447 4 (9.6프로) 

3479 5 (7.5프로) 

3013 6 (6.5프로)

2116 7 (4.6프로)

1870 8 (4프로)

2002 9 (4.3프로)

null값이나 오입력된 값(0 입력)등도 있어서 퍼센티지가 100이 되진 않는다.

 

이정도면 상당히 적용된다고 볼수 있다. 신기하다… 근데 9로 시작하는게 많네… 벤포드 법칙에 따르면 9로 시작하는 값들중 오입력된 값들이 많다는 뜻이겠다. 또한 1로 시작하는게 실제 벤포드의 법칙보다는 수치가 살짝 높고 그렇다. 

9로 시작하는 값들을 먼저 봐볼까..

MacBookPro benford % cat benford.txt| awk '{ if ($2==9) print $1}' |  sort -n | uniq -c  | sort -rn | more
 189 9.99
 135 9.98
  28 9.97
  25 9.95
  11 9.96
   6 9.9
   6 9.2161
   4 9.94
   4 9.59

 

9.99 가 굉장히 수상하다.

 

        "d250": 9.99,
        "d251": 1.99,
        "d252": 15.99,
        "d253": null,
        "d254": 4.99,
        "d255": 4.99,
        "d256": 9.99,
        "d257": null,
        "d258": 3.98,
        "d259": 9.99,
        "d260": 8.98,
        "d261": 19.97,
        "d262": 1.99,
        "d263": 14.97,
        "d264": 9.99,

 

위와같이 1.99 2.99 9.99 등 오입력된 값들이 많음을 실제로도 볼 수 있었다. 왜 오입력이 됐는지는 개발자들에게 문의를 해야할것이고 ... 매출이 n.99 가 나올 가능성이 얼마 안될 듯 한데... 저것들 다 오입력된것같다. 그중 1.99나 2.99 등은 워낙 분포가 많으니 티가 안났겠지만 9의 경우 분포가 작으니 이렇게 티가 나는듯 ? 

여튼 데이터가 잘못된것을 찾아냈다. 상당히 유의미하다. 
처음 접했을땐 말이되나 ? 신기하다. 였는데  벤포드의 법칙에 대해서 위키등 설명을 더 자세히 읽어보니 이런 데이터가 나오는게 수긍이간다. 1 > 2로 가려면 2배 2 > 3은 1.5배 3 > 4는 1.3배....  점점 진입하기가 쉬워지기 때문이다.

 

흠..이걸 실제 데이터 검증에 쓸 수 있는 방법은 없을까 ? 서버 파일들의 용량을 점검한다면 ?

 

#!/bin/sh
ls -latr /bin/ | grep -v lrwx | awk '{print $5}' > /root/sss.txt
num=`cat /root/sss.txt`
for i in $num; do
first_num="${i:0:1}"
echo "$i $first_num" >> benford1.txt
done
awk '{print $2}' benford1.txt | sort | uniq -c

 

 

위와 같이 /bin/ 디렉토리내 파일들의 용량도 벤포드의 법칙이 적용된다. 변조여부 확인하는데 참고정도는 할 수 있을지도 ?

'일상 > 기타' 카테고리의 다른 글

ISMS인증 안내서 요약  (0) 2021.04.27

키사에서 제공되는 안내서는 (구)ISMS는 현재 사장된 인증이고 현재는 ISMS-P로 봐야 한다.
isms-p 에서 isms & isms-p로 나뉜다. isms-p는 개인정보가 포함된 인증

 

의무대상자

 

ISMS-P_인증제도_안내_리플릿.pdf
1.12MB

간략한 내용은 위 pdf를 참고하면 되고

 

ISMS-P_인증기준_세부점검항목(2019.01.17).xlsx
0.05MB

세부항목은 위 파일을 참고하면 된다.

 

 

인증 절차 및 소요 기간
ISMS 구축(N개월) -> ISMS 운영(2개월) -> 신청서 접수 -> 인증심사(1개월) -> 보완조치 (100일) -> 인증위원회 심의, 의결(1개월) -> 인증서발급

 

 

최초인증시에는 준비된 서류가 없기때문에 굉장히 힘들다고 한다. 그래서 컨설팅업체를 끼고하는게 대부분이다. 

 

---------------아래는 isms 준비하면서 공부 된것들, 몰랐던것들, 중요하다고 내가 판단한것들 두서없이 적어본다.
1.isms 정책 문서는 정보보호 정책&지침과 이를 이행하기 위한 방법,절차,주기등이 규정된 메뉴얼들은 CEO(or 위임받은) 의 승인을 받아 모든 조직원이 접근하기 쉬운 형태로 제공

 

'일상 > 기타' 카테고리의 다른 글

benford's law  (0) 2022.05.09

버블 삽입 선택 중 어떤 방법으로 정렬이 되지 ? 속도를 더 올리는 방법을 찾아보자

+ Recent posts