OpenML

JavaScript is required to properly view the contents of this page!

Explore
- Data
- Task
- Flow
- Run
- Study
- Task type
- Measure
- People
Help
Blog
Contact
Please cite us

kick_seed_3_nrows_2000_nclasses_10_ncols_100_stratify_True

active ARFF Public Domain (CC0) Visibility: public Uploaded 17-11-2022 by David Wilson
0 likes downloaded by 0 people , 0 total downloads 0 issues 0 downvotes

Issue	#Downvotes for this reason	By

Loading wiki

Help us complete this description Edit

Subsampling of the dataset kick (41162) with seed=3 args.nrows=2000 args.ncols=100 args.nclasses=10 args.no_stratify=True Generated with the following source code: ```python def subsample( self, seed: int, nrows_max: int = 2_000, ncols_max: int = 100, nclasses_max: int = 10, stratified: bool = True, ) -> Dataset: rng = np.random.default_rng(seed) x = self.x y = self.y # Uniformly sample classes = y.unique() if len(classes) > nclasses_max: vcs = y.value_counts() selected_classes = rng.choice( classes, size=nclasses_max, replace=False, p=vcs / sum(vcs), ) # Select the indices where one of these classes is present idxs = y.index[y.isin(classes)] x = x.iloc[idxs] y = y.iloc[idxs] # Uniformly sample columns if required if len(x.columns) > ncols_max: columns_idxs = rng.choice( list(range(len(x.columns))), size=ncols_max, replace=False ) sorted_column_idxs = sorted(columns_idxs) selected_columns = list(x.columns[sorted_column_idxs]) x = x[selected_columns] else: sorted_column_idxs = list(range(len(x.columns))) if len(x) > nrows_max: # Stratify accordingly target_name = y.name data = pd.concat((x, y), axis="columns") _, subset = train_test_split( data, test_size=nrows_max, stratify=data[target_name], shuffle=True, random_state=seed, ) x = subset.drop(target_name, axis="columns") y = subset[target_name] # We need to convert categorical columns to string for openml categorical_mask = [self.categorical_mask[i] for i in sorted_column_idxs] columns = list(x.columns) return Dataset( # Technically this is not the same but it's where it was derived from dataset=self.dataset, x=x, y=y, categorical_mask=categorical_mask, columns=columns, ) ```

33 features

IsBadBuy (target)	nominal	2 unique values 0 missing
MMRAcquisitionAuctionCleanPrice	numeric	1702 unique values 2 missing
MMRAcquisitionAuctionAveragePrice	numeric	1684 unique values 2 missing
MMRAcquisitionRetailAveragePrice	numeric	1718 unique values 2 missing
MMRAcquisitonRetailCleanPrice	numeric	1715 unique values 2 missing
MMRCurrentAuctionAveragePrice	numeric	1670 unique values 11 missing
MMRCurrentAuctionCleanPrice	numeric	1685 unique values 11 missing
MMRCurrentRetailAveragePrice	numeric	1729 unique values 11 missing
MMRCurrentRetailCleanPrice	numeric	1725 unique values 11 missing
PRIMEUNIT	nominal	2 unique values 1919 missing
AUCGUART	nominal	2 unique values 1919 missing
BYRNO	nominal	57 unique values 0 missing
VNZIP1	nominal	122 unique values 0 missing
VNST	nominal	34 unique values 0 missing
VehBCost	numeric	899 unique values 0 missing
IsOnlineSale	nominal	2 unique values 0 missing
WarrantyCost	numeric	184 unique values 0 missing
PurchDate	numeric	447 unique values 0 missing
TopThreeAmericanName	nominal	4 unique values 0 missing
Size	nominal	12 unique values 0 missing
Nationality	nominal	4 unique values 0 missing
VehOdo	numeric	1951 unique values 0 missing
WheelType	nominal	3 unique values 89 missing
WheelTypeID	nominal	3 unique values 89 missing
Transmission	nominal	2 unique values 0 missing
Color	nominal	16 unique values 0 missing
SubModel	nominal	299 unique values 0 missing
Trim	nominal	83 unique values 59 missing
Model	nominal	388 unique values 0 missing
Make	nominal	26 unique values 0 missing
VehicleAge	numeric	9 unique values 0 missing
VehYear	numeric	9 unique values 0 missing
Auction	nominal	3 unique values 0 missing