동서대학교 소프트웨어중심대학사업단

◆ 2021학년도1학기 게시판

목 록

[AI시스템설계(102)] 프로젝트 진행시 사용할 데이터 공유

날짜:2021-06-04조회수:3178작성자:김영훈

20171470 김영훈

사용 데이터 : Stroke Prediction Dataset

링크 : https://www.kaggle.com/fedesoriano/stroke-prediction-dataset

설명 : 환자가 뇌졸중에 걸릴 가능성을 예측하는 데 사용되는 데이터입니다.

성별, 나이, 질병 유무와 같은 여러 종류의 특성들로 분류되어 있고 뇌졸중 여부가 라벨입니다.

첨부파일 1

첨부파일 2

작성자 : 이승용
사이킷 런에서 제공하는 유방암 데이터를 사용하겠습니다. 유방암 세포 특징 10개에 대해서 평균, 표준오차, 최대 이상치가 기록되어 있습니다.
유방암 데이터 샘플이 악성 종양인지 양성 종양인지 이진분류합니다.

2021-06-06 21:34:17

작성자 : 20191600 채종빈
https://www.kaggle.com/c/tensorflow-speech-recognition-challenge
30개의 레이블로 구성된 음성 데이터셋입니다. feature는 음성 데이터에서 특성을 추출하는 알고리즘을 사용할 예정입니다.
2021-06-08 23:57:27

작성자 : 20161500_김민수
링크 : https://aihub.or.kr/aidata/13594
설명 : 한국 음식 데이터로150개의 음식 클래스를 가지고 있으며 각 음식마다 1000개의 이미지가 있습니다. 150개의 클래스를 모두 하기 힘들어서 제가 좋아하는 음식 5개를 골라서 5개의 label을 선정하였습니다.
2021-06-09 15:52:33

작성자 : 20161654 최민성
비행기의 위성 사진 데이터로 8000장의 비행기 사진과 24000장의 다른 사진으로 구성되어 있습니다.
https://www.kaggle.com/rhammell/planesnet
2021-06-10 17:50:28

작성자 : 20191615황세인
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine
sklearn 에서 제공하는 와인 데이터 입니다.

2021-06-11 09:14:31

작성자 : 20181632_최형문
https://archive.ics.uci.edu/ml/datasets/wine+quality
레드 와인 샘플 1599개를 등급과 맛, 산도를 측정하여 분석한 것을 기반으로 품질을 판별합니다.

2021-06-11 03:40:24

작성자 : 20191424 강소현
링크: https://www.kaggle.com/datamunge/sign-language-mnist
설명: 수화를 위한 손동작 이미지 세트입니다. 24가지의 클래스로 이루어져 있으며 훈련 데이터 27,455개, 테스트 데이터 7172개로 구성되어 있습니다.
2021-06-07 14:36:44

작성자 : 김선용
사용할 학습데이터에서 features와 label를 어떻게 결정할지도 언급해주면 좋을 것 같습니다^^
2021-06-07 14:54:33

작성자 : 20171512 박준혁
sklean 에서 제공하는 당뇨병 환자 데이터를 사용하여 질병의 진행을 측정해보겠습니다.
2021-06-08 17:38:28

작성자 : 20161563 송성헌
36개의 각각 다른 과일과 야채의 데이터로 총 4,291개의 이미지로 구성되어 있으며 train 이미지 각 100개, test 이미지 각 10개, validation 이미지 각 10개로 나누어져 있습니다.
https://www.kaggle.com/kritikseth/fruit-and-vegetable-image-recognition
2021-06-08 09:44:37

작성자 : 20191565 이채원
https://www.kaggle.com/tongpython/cat-and-dog/code?datasetId=23777&sortBy=voteCount&searchQuery=mlp
개와 고양이 이미지로 구성되어있고 이미지 전처리를 통해 개와 고양이를 구분하려 합니다.
이미지는 약 8000개정도 존재합니다.
2021-06-11 06:09:10

작성자 : 20171467-김성훈
scikit-learn에서 제공하는 breast cancer데이터 셋을 사용할 예정입니다. 총 30개의 속성으로 악성과 양성을 판단 할 수있습니다
2021-06-11 21:51:05

작성자 : 20191595 조수빈
skleanr에서 제공하는 wine 데이터셋을 사용합니다.
이 데이터셋은 총 3개의 클래스를 가지며, 각 59,71,48개의 샘플 데이터를 가지고 있습니다. 또한 13개의 특성을 가지고 있습니다.
2021-06-10 22:23:11

작성자 : 20191555 이은채
https://www.kaggle.com/c/Kannada-MNIST/data
칸나다어 손글씨 숫자 0~9 mnist 데이터 입니다.
2021-06-10 18:59:09

작성자 : 20191433 김가은
https://www.kaggle.com/andrewmvd/animal-faces
고양이, 개, 야생동물의 얼굴 이미지 데이터세트입니다.
고양이, 개, 야생 동물 3개의 클래스가 존재하며 각각 약 5000개의 이미지를 제공합니다.
2021-06-11 21:32:25

작성자 : 20171525 서부원
sklearn에서 제공하는 0부터 9까지의 숫자를 손으로 쓴 이미지 데이터셋을 사용했습니다.
이미지 데이터는 1797장이 들어있고, 64가지의 feature를 가지고 있습니다.
2021-06-11 08:24:27

작성자 : 20171517 박찬일
https://www.kaggle.com/primaryobjects/voicegender
이 데이터베이스는 음성 및 음성의 음향 특성을 기반으로 음성을 남성 또는 여성으로 식별하기 위해 만들어졌습니다.
데이터 세트는 남성 및 여성 화자로부터 수집 한 3,168 개의 녹음 된 음성 샘플로 구성됩니다.
2021-06-11 03:54:48

작성자 : 20171569-이승용
sklearn에서 제공하는 위스콘신 유방암 데이터를 사용하겠습니다.
위스콘신 데이터는 종양의 크기, 모양 등의 다양한 속성값을 기반으로 해당 종양이 악성인지 양성인지를 분류한 데이터입니다.
569개의 샘플과 30개의 특성을 가집니다.
타겟값은 음성과 양성을 나타내는 0, 1 그리고 타겟값의 수는 212개의 정상종양(0)과 357개의 악성종양(1)개가 존재합니다.

전처리는 StandardScaler() 사용, 및 구현 과 최소-최대 정규화 함수로 전처리를 진행합니다.
이 데이터를 MLP, SVM, KNN 세가지 기법을 이용하여 정확률을 비교해보겠습니다.
설명이 부족한것 같아 다시 댓글 작성합니다.

2021-06-11 13:07:13

작성자 : 20161661 하민혁
사이킷런에서 제공하는 와인 데이터셋을 사용했습니다.
3개의 클래스, 13개의 특성을 가지고 있고 178개의 샘플 데이터를 가지고 있습니다.
2021-06-11 13:58:03

작성자 : 20171507 박영준
sklearn에서 제공하는 와인데이터로 와인구분을 13개의 피처를 3개의 라벨로 구분을 측정해보겠습니다.
2021-06-11 22:56:07

작성자 : 20191477 김현주
링크 :
https://www.kaggle.com/crowww/a-large-scale-fish-dataset
설명 :
9가지 해산물 각각 1000개의 이미지가 있습니다. 이 중 5종류의 해산물을 사용하겠습니다.
2021-06-12 00:50:51

작성자 : 20152599 박청운
sklearn에서 제공하는 위스콘신 유방암 환자 데이터셋을 활용하였습니다.
2021-06-12 10:39:58

작성자 : 20171546 심준영
링크: https://www.kaggle.com/camnugent/california-housing-prices
설명: 사용한 데이터는 캘리포니아의 인구조사 데이터로 20640개의 데이터와 10개의 특성을 가집니다.
이 데이터를 통하여 캘리포나의 집값을 예측해 보았습니다.
2021-06-12 18:20:16

작성자 : 20162522 이창길

20162522/이창길
온라인 뉴스 인기데이터 셋
해당 뉴스의 sns공유횟수를 예측하는 데이터셋입니다.
https://archive.ics.uci.edu/ml/datasets/Online+News+Popularity#
2021-06-15 22:42:12

목 록

삭 제

수 정

동서대 소프트웨어중심대학사업단,동서대SW중심대학사업단

사용 데이터 : Stroke Prediction Dataset