①제 33회 데이터분석 준전문가 (ADsP) 문제 복원
33회 데이터분석 준전문가 기출문제 변형하여 문제와 해답에 대한 설명입니다.
1. 데이터 사이어티스트의 소프트 스킬 요구역량이 아닌 것은?
① 통찰력 있는 분석 ② 설득력 있는 전달 ③ 다분야간 협력 ④ 이론적 지식
하드스킬 | 소프트 스킬 |
빅데이터에 대한 이론적 지식 빅데이터 분석 기술 |
통찰력있는 분석 - 창의적인 사고, 호기심, 논리적 비판 설득력 있는 전달 - 스토리 텔링, 비주얼라이제이션 다분야간 협력 - 커뮤니케이션 |
2. 데이터 양의 크기 순으로 옳은 것은? ④
① 페타바이트 < 엑사바이트 < 제타바이트 < 요타바이트
② 엑사바이트 < 제타바이트 < 요타바이트 < 페타바이트
③ 제타바이트 < 엑사바이트 < 요타바이트 < 페타바이트
④ 엑사바이트 < 페타바이트 < 요타바이트 < 제타바이트
3. 데이터베이스 일반적인 특성 아닌 것은?
① 정형화데이터만 저장
② 통합된 데이터 (Intefrated Data)
③ 저장된 데이터 (stored Data)
④ 공용 데이터 (Shared Data)
* 변화되는 데이터 (Changable Data) : 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.
4. 미래의 빅데이터 관점에서 볼 때 사물인터넷과 가장 관련이 큰 것은?
① 알고리즘 ② 데이터화(Datafication) ③ 인공지능 ④ 데이터사이언티스트
5. 빅데이터 시대의 위기 요인과 그에 대한 통제 방안이 바르게 연결된 것은?
가) 사생활침해 - 동의제에서 책임제로 나) 책임원칙 훼손 - 알고리즘 접근허용 다) 데이터 오용 - 선택 공개 |
① 가 ② 나 ③ 가, 나 ④ 나, 다
* . 책임원칙 훼손의 통제방안은 결과기반의 책임 원칙 고수이며, 데이터 오용의 통제방안은 알고리즘 접근 허용 이다.
6. 빅데이터가 만들어 내는 본질적이 변화에 대한 설명이 틀린 것은?
① 표본조사의 중요성이 높아 졌다.
② 사전처리에서 사후처리 시대로 변화
③ 질보다 양으로
④ 인과관계에서 상관관계로
변화 | 내용 |
사전처리 -> 사후처리 | 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 많은데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄 |
표본조사 -> 전수조사 | 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다. |
질 -> 양 | 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다. |
인과관계 -> 상관관계 | 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이특 인과관계에 의한 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다. |
7. 빅데이터의 활용에 대한 설명 중 적절하지 않는 것은?
① 단순한 세계화에서 복잡한 세계화로 변화
② 경제와 산업의 논리가 생산에서 시장창조로 바뀜
③ 서비스업은 증가하고 제조업은 감소한다.
④ 비즈니스의 중심이 제품생산에서 서비스로 이동
8. NoSQL 아닌 것 고르기?
① Mysql ② Mongo DB ③ Cassandra ④ Hbase
* Mysql은 SQL, SQL 종류로는 ORACLE, MariaDB, SQLite, MySQL , MSSQL 등이 있다.
9. 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스를 무엇이라 하는가?
정답 : 데이터웨어하우스
10. 데이터로부터 의미 있는 정보를 추출해내는 학문이며, 정형 또는 비정형 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 하며, 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념을 무엇이라 하는가?
정답 : 데이터 사이언스
11. 빅데이터 분석 방법론에서 분석기획 단계의 task로 적절하지 않은 것은?
① 비지니스 이해 및 범위 설정
② 필요 데이터 정의
③ 프로젝트 정의 및 계획 수립
④ 프로젝트 위험 계획 수립

12. 분석마스터 플랜 수립 과정 단계시 분석과제 우선순위 평가기준으로 적절하지 않는 것은?
① 실행 용이성 ② 기술적용 수준 ③ 전략적 중요도 ④ 데이터 필요 우선 순위

13. 하향식 접근 방식 프로세스 단계의 순서로 적절한 것은?
① 문제정의 →해결방안탐색 → 문제정의 → 타당성검토
② 문제정의 → 문제탐색단계 → 해결방안탐색 → 타당성검토
③ 문제탐색단계 → 문제정의 → 해결방안탐색 → 타당성검토
④ 문제탐색단계 → 문제정의 → 타당성검토 → 해결방안탐색
14. 상향식 접근 방식 프로세스에 대한 설명으로 적절하지 않는 것은?
① 기존 하향식 접근 방식의 한계를 극복하기 위해 등장
② 데이터를 활용하여 생각지도 못했던 인사이트 도출 및 시행착오를 통한 개선이 가능
③ 데이터 기반으로 문제의 재정의 및 해결방안을 탐색하는 방식
④ 상향식 접근 방식의 데이터 분석은 지도학습 방법에 의해 수행된다.
15. 빅데이터 분석방법론의 계층적 프로세스 모델에 대한 설명으로 적절하지 않는 것은?
① 데이터 분석을 효과적으로 기업에 정착하기 위해서는 체계화하는 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적
② Task는 단계를 구성하는 단위 활동으로 input, output로 구성된 단위프로세스
③ 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전 관리 등을 통하여 통제 된다.
④ Task는 물리적 또는 논리적 단위로 품질 검토의 항목이 된다..
16. 포트폴리오 사분면 분석을 통한 과제 우선순위를 선정하는 기법 중 분석 과제의 적용 우선순위를 ‘시급성’에 둔다면 결정해야 할 우선순위는?

① Ⅰ→ Ⅱ→ Ⅲ
② Ⅲ → Ⅳ → Ⅱ
③ Ⅱ → Ⅳ→ Ⅲ
④ Ⅲ→Ⅰ→Ⅱ
*. 분석 과제의 적용 우선순위를 ‘시급성’에 둔다면 Ⅲ→Ⅳ→Ⅱ 영역순이며, 난이도를 기준 으로 둔다면 Ⅲ→Ⅰ→Ⅱ 영역순으로 의사결정을 할 수 있다.
17. 분석과제 프로젝트에 대한 설명 중 적절하지 않는 것은?
① 분석 과제의 주요 5가지 특성 관리 영역은 데이터 복잡성, 데이터 크기, 속도, 정확도/정밀도, 분석복잡성 이다.
② 텍스트, 오디오, 비디오 등 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행할 때는 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다.
③ 정밀도는 실제값이 true인 관측치 중 예측치가 적중한 정도이고 정확도는 예측한 것이 true 일 때 실제값이 true인 것을 의미한다.
④ 분석과제 정의서는 향후 프로젝트 수행계획의 입력물로 사용되기 때문에 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다.
18. 분석과제 평가 및 선정에 대해서 적절하지 않는 것은?
① 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도 역시 중요한 기준이다.
② 시급성 판단 기준시 가치와 비용으로 평가한다.
③ 업무별 도출된 분석과제를 우선순위 평가 기준에 따라 평가한 뒤 과제 수행의 선 후행 관계를 고려하여 적용 우선순위를 조정해 최종 확정한다.
④ 정보전략계획(ISP)과 같은 일반적인 IT프로젝트 과제의 우선순위 평가를 위해 전략적 중요도, 실행 용이성 등 기업에서 고려하는 중요 가치기준에 따라 관점에서의 우선순위 기준을 수립하여 평가한다.
19. 아래 빈칸에 알맞은 분석 주제 유형은?

① Optimization ② Solution ③ Discovery ④ Insight
20. 다음 아래 설명은 어떤 분석 모델 프로세스에 관한 설명인가?
"반복을 통하여 점증적으로 개발하는 방법으로써 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다."
정답 : 나선형(Spiral)모델
22. 확률변수 X에 대하여 확률밀도함수가 f(x) 일 때 이산형 확률변수 X의 기대값은?
① E(X) = ∫xf(x)dx
② E(X) = Σxf(x)
③ E(X) = ΣP(En)
④ E(X) = a^2 Var(X
22. 신경망에서 입력되는 데이터를 출력하기 위해 변환하는 함수는?
① 비용 함수 ② Input 함수 ③ 활성화 함수 ④ 로직 함수
23. 아래의 오분류표를 이용하여 F1 값을 구하면?

① 0.38 ② 0.30 ③ 0.50 ④ 0.40
24. K-평균(K-means)군집의 단점이 아닌 것은?
① seed값에 따라 결과가 달라질 수 있음
② 군집의 수, 가중치와 거리 정의가 어려움
③ 사전에 주어진 목적이 없으므로 결과 해석이 어려움
④ 한 번군집에 포함되면 다른 군집으로 이동할 수 없다.
25. 연관성 규칙의 단점이 아닌 것은?
① 항목의 수를 결정하기 어려움
② 드물게 발생하는 항목에 대해서 처리가 어려움
③ DBMS등과 같은 전산화환경 미비시 동일한 거래를 추적하기 어려움
④ 결과가 명확하고 이해하기가 용이하다.
26. 유클리드 거리를 계산하면?

① √20 ② √30 ③ √50 ④ √10
27. 아래는 피자와 햄버거의 거래 관계를 나타낸표로,Pizza와 Hamburges는 피자/햄버거를 포함하는 거래수를 의미하고 (Pizza)/(Hamburgers)는 피자/햄버거를 포함하지 않는 거래수를 의미한다. 아래표에서 피자 구매와 햄버거 구매에 대한 설명으로 옳는 것은?
① 향상도가 1보다 크므로 햄버거와 피자는 연관성이 매우 높다.
28. 다음 중 과대적합(Overfitting)에 대한 설명 중 가장 적절하지 않은 것은?
①과대적합을 방지하는 여러 가지 방법에는 학습 조기종료(Early stopping) 방법이 있다.
②과대적합(overfitting)이란 머신러닝 모델을 학습할 때 학습 데이터셋에 지나치게 최적화하여 발생하는 문제 이다.
③생성된 모델이 훈련데이터에 최적화되어 있기 때문에 평가용 데이터의 작은변화에 민감하게 반응하지 못한다.
④파라미터 수가 적은 모델을 선택하거나, 모델에 제약을 가하여 단순화 할 수 있다.
29. 주성분분석에 대한 설명 중 적절하지 않는 것은?
데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법
정답 : comp2 로딩벡터 모두 양의 방향을 가지고 있다.
30. 자기조직화지도(SOM)에 대한 설명으로 적절하지 않는 것은?
① 코호넨에 의해 제시 및 개발되었으며 일명 코호넨 맵이라고 한다.
② 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하였다.
③ 역전파 알고리즘을 이용하여 예측값과 실제값의 오차를 계산한다.
④ 실제 공간의 입력 변수가 가까이 있으면 지도상에서도 가까운 위치에 있게된다.
31. 신뢰구간에 대한 설명으로 가장 적절하지 않는 것은?
① 표본을 재 추출해서 구간추정을 해도 신뢰구간이 동일하게 나온다.
② 신뢰구간은 모수가 실제로 포함될 것으로 예측되는 범위를 말한다.
③ 신괴 구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.
④ 신뢰 수준 95%라는 의미는 n개의 표본을 사용하여 신뢰구간을 구하는 과정을 100회 반복하였을 때 그중 95개의 구간은 실제 모수를 포함한다는 것을 뜻한다.
32. 일반적으로 스피어만 상관계수를 계산할 때 대상이 되는 자료의 종류는 무엇인가?
① 등간척도 ② 비율척도 ③ 명목척도 ④ 서열척도
33. 표본조사에 대한 설명 중 적절하지 않는 것은?
① 표본추출 방법에 따라 분석결과의 해석은 크게 차이난다.
② 표본편의는 모형추론방법으로 최소화하거나 없앨 수 있다.
③ 표본추출방법에는 단순랜덤 추출법, 계통추출법, 집락추출법, 층화추출법이 있다.
④ 모수는 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
34. 다음중 주성분분석에 대한 설명 중 올바른 것은?
① 여러개의 양적변수(Quantiative Variable)들 사이의 분산-공분산 관계를 이용하여 변수들의 선형결합(linear combination)으로 표현 기법
② 변소들간의 상관관계를 고려하여 내재된 개념인 요인들을 추출해내는 분석기법
③ 집단을 구분할 수 있는 설명변수를 통하여 집단 구분 함수식을 도출하고 소속된 집단을 예측하는 목적으로 사용
④ 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 규명하는 통계 분석 방법
35. 주성분분석에서 주성분 수를 선택할 때 고려하지 않아도 되는 것은?
① 변수간 다중공선성
② 연관성
③ 고유값(분산의 크기)
④ 개별 고윳값의 분해 가능 여부
36. 의사결정나무모형에 관한 내용이다. 적절하지 않은 것은?
① 의사결정나무 모형 결과는 설명이 용이하다.
② 의사결정 문제를 시각화해 의사결정의 시점과 성과를 한눈에 볼 수 있다.
③ 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않는다.
④ 수치형/범주형 변수를 모두 사용할 수 있음
37. 최적회귀방정식의 변수선택 방법에 대한 설명으로 적절하지 않는 것은?
①
②
③ 전진선택법은 변수를 추가해도 영향을 받지 않는다.
④
38. 앙상블 기법에 대한 설명 중 적절하지 않는 것은?
① 보팅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식이다.
② 부스팅 방식은 배깅에 비해 성능이 좋지만, 속도가 느리고 과적합이 발생할 가능성이 존재하므로 상황에 따라 적절하게 사용
③ 부스팅은 배깅의 괴정과 유사하여 재표본과정에서 각 자료에 동일한 확률을 부여하여 여러 모형을 만들어 결합하는 방식
④ 배깅은 데이터 샘플링을 통해 모델을 학습시키고 결과를 집계하는 방법
39. 질병률 계산문제?
정답 : 0.45
40.재현율 계산문제?
정답 : 3/10
41. age_jobclass 관련 틀린문제?
정답 : 유의하지 않다.
42. 분해시계열에 대한 설명 중 옳지 않는 것은?
정답 : 이동평균법
43. 나무 5개 종의 나이, 둘레에 따른 분석결과로 옳지 않은 것은?
정답 : 나무 age와 두께, 키가 유의한 관계를 가진다.
44. 오렌지 우상향 산점도
정답 : 종별로 관계를 나타낼수 있다
45. 로지스틱 회귀모형에서 exp(x1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공(Y=1)의 ( )가 몇 배 증가하는지를 나타낸다. ( )에 들어가는 용어는?
정답 : 오즈
46. 덴드로 그램을 결과의 height 60일 때 군집수는?
정답 : 4
47. ‘이것’은 귀무가설 H0가 실제로는 사실이어서 채택하여야 함에도 불구하고이를 기각하는 오류를 말한다.
정답 : 제1종오류
48. 입력받은 값을 출력으로 0~1 사이의 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 다범주 분류에 활용되는 신경망 활성함수를 무엇이라 하는가?
정답 : 소프트맥스함수
49. 은닉층이 다층인 신경망을 학습하다 보면 역전파 과정에서 초기 부분의 입력층으로 갈수록 기울기가 점차적으로 작아지는 현상은?
정답 : 기울기소실 문제
50. 분류모형평가에서 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 평가지표를 무엇이라 하는가?
정답 : 특이도
'슬기로운 회사 생활' 카테고리의 다른 글
엑셀 여러 시트 한번에 비교해서 보기 (수식 걸때 편리함) (0) | 2022.12.14 |
---|---|
[엑셀]Round 함수 사용법 한 번에 이해하기! (소수점 첫 자리는 1) (0) | 2022.11.06 |
데이터베이스의 활용 (0) | 2022.08.16 |
데이터베이스의 정의와 특징 (0) | 2022.08.16 |
[엑셀] 셀 병합하지 않고 가운데 정렬[선택 영역 가운데 정렬] (0) | 2022.08.16 |