OpenML

JavaScript is required to properly view the contents of this page!

Explore
- Data
- Task
- Flow
- Run
- Study
- Task type
- Measure
- People
Help
Blog
Contact
Please cite us

Diabetes130US_seed_1_nrows_2000_nclasses_10_ncols_100_stratify_True

active ARFF Publicly available Visibility: public Uploaded 17-11-2022 by David Wilson
0 likes downloaded by 0 people , 0 total downloads 0 issues 0 downvotes

Issue	#Downvotes for this reason	By

Loading wiki

Help us complete this description Edit

Subsampling of the dataset Diabetes130US (4541) with seed=1 args.nrows=2000 args.ncols=100 args.nclasses=10 args.no_stratify=True Generated with the following source code: ```python def subsample( self, seed: int, nrows_max: int = 2_000, ncols_max: int = 100, nclasses_max: int = 10, stratified: bool = True, ) -> Dataset: rng = np.random.default_rng(seed) x = self.x y = self.y # Uniformly sample classes = y.unique() if len(classes) > nclasses_max: vcs = y.value_counts() selected_classes = rng.choice( classes, size=nclasses_max, replace=False, p=vcs / sum(vcs), ) # Select the indices where one of these classes is present idxs = y.index[y.isin(classes)] x = x.iloc[idxs] y = y.iloc[idxs] # Uniformly sample columns if required if len(x.columns) > ncols_max: columns_idxs = rng.choice( list(range(len(x.columns))), size=ncols_max, replace=False ) sorted_column_idxs = sorted(columns_idxs) selected_columns = list(x.columns[sorted_column_idxs]) x = x[selected_columns] else: sorted_column_idxs = list(range(len(x.columns))) if len(x) > nrows_max: # Stratify accordingly target_name = y.name data = pd.concat((x, y), axis="columns") _, subset = train_test_split( data, test_size=nrows_max, stratify=data[target_name], shuffle=True, random_state=seed, ) x = subset.drop(target_name, axis="columns") y = subset[target_name] # We need to convert categorical columns to string for openml categorical_mask = [self.categorical_mask[i] for i in sorted_column_idxs] columns = list(x.columns) return Dataset( # Technically this is not the same but it's where it was derived from dataset=self.dataset, x=x, y=y, categorical_mask=categorical_mask, columns=columns, ) ```

50 features

readmitted (target)	nominal	3 unique values 0 missing
nateglinide	nominal	4 unique values 0 missing
repaglinide	nominal	3 unique values 0 missing
chlorpropamide	nominal	1 unique values 0 missing
glimepiride	nominal	4 unique values 0 missing
acetohexamide	nominal	1 unique values 0 missing
glipizide	nominal	4 unique values 0 missing
glyburide	nominal	4 unique values 0 missing
tolbutamide	nominal	1 unique values 0 missing
pioglitazone	nominal	3 unique values 0 missing
rosiglitazone	nominal	4 unique values 0 missing
acarbose	nominal	3 unique values 0 missing
miglitol	nominal	2 unique values 0 missing
troglitazone	nominal	1 unique values 0 missing
tolazamide	nominal	2 unique values 0 missing
examide	nominal	1 unique values 0 missing
citoglipton	nominal	1 unique values 0 missing
insulin	nominal	4 unique values 0 missing
glyburide.metformin	nominal	2 unique values 0 missing
glipizide.metformin	nominal	1 unique values 0 missing
glimepiride.pioglitazone	nominal	1 unique values 0 missing
metformin.rosiglitazone	nominal	1 unique values 0 missing
metformin.pioglitazone	nominal	1 unique values 0 missing
change	nominal	2 unique values 0 missing
diabetesMed	nominal	2 unique values 0 missing
num_procedures	numeric	7 unique values 0 missing
patient_nbr	numeric	1973 unique values 0 missing
race	nominal	5 unique values 43 missing
gender	nominal	2 unique values 0 missing
age	nominal	10 unique values 0 missing
weight	nominal	5 unique values 1945 missing
admission_type_id	numeric	6 unique values 0 missing
discharge_disposition_id	numeric	18 unique values 0 missing
admission_source_id	numeric	10 unique values 0 missing
time_in_hospital	numeric	14 unique values 0 missing
payer_code	nominal	16 unique values 812 missing
medical_specialty	nominal	43 unique values 959 missing
num_lab_procedures	numeric	94 unique values 0 missing
encounter_id	numeric	2000 unique values 0 missing
num_medications	numeric	55 unique values 0 missing
number_outpatient	numeric	15 unique values 0 missing
number_emergency	numeric	10 unique values 0 missing
number_inpatient	numeric	14 unique values 0 missing
diag_1	nominal	269 unique values 2 missing
diag_2	nominal	266 unique values 2 missing
diag_3	nominal	279 unique values 27 missing
number_diagnoses	numeric	10 unique values 0 missing
max_glu_serum	nominal	4 unique values 0 missing
A1Cresult	nominal	4 unique values 0 missing
metformin	nominal	4 unique values 0 missing