통신 산업은 시내와 시외전화 서비스로부터 시작하여 음성, 팩스, 삐삐, 핸드폰, 이미지, 전자메일, 컴퓨터와 웹 데이터 전송과 같은 많은 다른 포괄적인 통신서비스 공급까지 빠르게 진화해 왔다. 통신과 컴퓨터 네트워크, 인터넷, 통신과 컴퓨팅의 많은 다른 수단들의 통합 또한 진행 중이다. 게다가, 많은 나라에서 통신 산업 규제의 철폐와 새로운 통신기술과 컴퓨터의 발달로 인하여 전자통신 시장은 매우 경쟁적이며, 빠르게 확산되고 있다. 이것은 관련된 사업을 이해하고, 통신 패턴을 확인하고, 부정행동을 찾아 내고, 더 나은 자원을 활용하고, 서비스의 질을 향상시키기 위해 데이터마이닝에 대한 요구를 증가시킨다.
다음은 통신 서비스의 질을 향상시키는 데이터마이닝의 몇 가지 시나리오들이다.
통신 데이터의 다차원 분석 : 통신 데이터는 본질적으로 통화시간, 지속기간, 수신자의 위치, 발신자의 위치, 통화의 타입과 같은 차원들로 다차원적이다. 그러한 데이터의 다차원 분석은 데이터 트래픽, 시스템 부하량, 사용자 그룹 행동, 이익 등을 확인, 비교하는 데 이용되어질 수 있다. 예를 들면, 산업에서 분석가들은 통화출처, 목적지, 총화량, 하루 사용 시간 패턴을 고려해 정기적으로 차트나 그래프 결과를 볼 수 있기를 희망한다. 그러므로, 통신 데이터를 큰 데이터웨어하우스로 통합하고, OLAP과 시각화 도구들을 사용한 다차원 분석은 유용하다.
부정패턴 분석과 특이패턴의 확인 : 통신 산업에 부정행동은 연간 수백만달러의 비용을 수반한다. 특히, (1) 잠재적인 부정 사용자들과 그들의 불규칙적인 사용패턴을 확인하고, (2) 고객구좌로 부정한 진입 시도를 탐지하며, (3) 바쁜 시간의 통화 실패 및 통화지체 시 경로를 변경하여 보내는 것과, 팩스같이 부적절하게 프로그램된 자동다이얼로 주기적인 전화를 하는 것 같은 특별한 주의가 필요한 특이패턴을 발견한다. 이런 패턴의 많은 종류들은 다차원 분석, 군집분석, 이상치 분석을 수행함으로써 발견되어질 수 있다.
다차원 연관과 순차패턴 분석 : 다차원 분석에서 연관성과 순차패턴의 발견은 통신 서비스를 증진시키는데 이용될 수 있다. 예를 들면, 고객그룹과 월, 일별 시간에 의해서 통신 서비스를 위한 사용패턴을 찾고자 한다고 가정하자. 통화기록은 다음의 형식으로 고객별로 그룹화 된다.
<customer_ID, residence, office, time, date, service_1, service_2, ...>
"만약 Los Angeles에 거주하는 한 고객의 근무지가 다른 도시라면, 이 고객은 오후 5시쯤에 두 도시 사이에서 첫 시외전화를 사용할 것 같으며, 주중 5시 이후 한 시간 내에 적어도 30분 동안 핸드폰을 사용할 것 같다."와 같은 순차패턴은 특정 도시 쌍과 특정 그룹의 사람들(엔지니어, 의사...)에 대하여 성립하는지 결정하기 위해 데이터를 세분화하거나 요약해 봄으로써 조사될 수 있다. 이것은 특정 시외통화와 핸드폰의 조합에 대한 서비스 판매를 촉진시키고, 그 지역에서 특정서비스의 가용성을 증진시키는데 도움을 준다.
이동통신 서비스 : 이동통신, 웹과 정보서비스, 이동 컴퓨팅은 우리 일과 생활에 점차적으로 통합되고 일반화 되고 있다. 이동통신 데이터의 중요한 특성은 시공간적 정보의 연관성이다. 시공간 데이터 마이닝은 특정 패턴을 찾는 데 중요하다. 예를 들어, 어떤 지역의 통상을 벗어난 핸드폰 사용량은 그 지역의 이상한 사건의 발생을 나타낸다. 게다가 사용의 편리함은 곡객에게 새로운 이동 서비스에 관심을 끌도록 한다. 데이터마이닝은 사용자에게 적은 버튼 사용으로 유용한 정보를 얻도록 하는 적응형 방법의 설계를 찾는 데 중요한 역할을 할 가능성이 있다.
통신 데이터 분석에서 시각화 도구의 활용 : OLAP 시각화, 연결 시각화, 연관 시각화, 군집화와 이상치 시각화에 대한 도구들은 통신 데이터 분석에서 매우 유용함을 보여왔다.
출처 : 데이터 마이닝 - 개념과 기법