OpenXLab-Edu · CuriseJia · Jul 19, 2022 · Jul 19, 2022
diff --git a/.DS_Store b/.DS_Store
diff --git a/.idea/.gitignore b/.idea/.gitignore
diff --git a/.idea/OpenBaseLab-Edu.iml b/.idea/OpenBaseLab-Edu.iml
diff --git a/.idea/inspectionProfiles/profiles_settings.xml b/.idea/inspectionProfiles/profiles_settings.xml
diff --git a/.idea/misc.xml b/.idea/misc.xml
diff --git a/.idea/modules.xml b/.idea/modules.xml
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
diff --git a/BaseML/AdaBoost.py b/BaseML/AdaBoost.py
@@ -0,0 +1,55 @@
+import pandas as pd
+import numpy as np
+import os
+from sklearn.metrics import accuracy_score, mean_squared_error
+from sklearn.ensemble import AdaBoostClassifier
+
+
+class AdaBoost:
+    def __init__(self
+                 ):
+        self.cwd = os.path.dirname(os.getcwd())  # 获取当前文件的绝对路径
+        self.file_dirname = os.path.dirname(os.path.abspath(__file__))
+        self.model = AdaBoostClassifier(n_estimators=100, random_state=0)
+        self.dataset_path = ' '
+        self.test_size = ' '
+        self.test_set = ' '
+
+    def train(self, seed=0, data_type='csv'):
+        np.random.seed(seed)
+        if data_type == 'csv':
+            dataset = pd.read_csv(self.dataset_path, sep=',', header=None).values
+        elif data_type == 'pandas':
+            dataset = self.load_pd()
+        elif data_type == 'list':
+            dataset = self.load_list()
+        np.random.shuffle(dataset)
+
+        data, label = dataset[:, :-1], dataset[:, -1]
+        train_index = int((1 - self.test_size) * len(dataset))
+        train_data, train_label = data[:train_index, ], label[:train_index]
+        self.test_set = {
+            'data': data[train_index:, ],
+            'label': label[train_index:]
+        }
+        self.model.fit(train_data, train_label)
+
+    def inference(self, mode='cls'):
+        pred = self.model.predict(self.test_set['data'])
+        if mode == 'cls':
+            acc = accuracy_score(self.test_set['label'], pred)
+            print('准确率为：{}%'.format(acc * 100))
+        elif mode == 'reg':
+            loss = mean_squared_error(self.test_set['label'], pred)
+            print('Loss: {}'.format(loss))
+
+    def load_dataset(self, path, test_size=0.2):
+        self.dataset_path = path
+        self.test_size = test_size
+
+    def load_pd(self):
+        pass
+
+    def load_list(self):
+        pass
+
diff --git a/BaseML/CART.py b/BaseML/CART.py
@@ -4,9 +4,7 @@
 
 class CART:
     def __init__(self,
-                 backbone='KNNClassifier',
                  ):
-        self.backbone = backbone
         # 获取外部运行py的绝对路径
         self.cwd = os.path.dirname(os.getcwd())
         # 获取当前文件的绝对路径

diff --git a/BaseML/GaussianNB.py b/BaseML/GaussianNB.py
@@ -0,0 +1,55 @@
+import pandas as pd
+import numpy as np
+import os
+
+from sklearn.metrics import accuracy_score, mean_squared_error
+from sklearn.naive_bayes import GaussianNB
+
+
+class GaussianNB:
+    def __init__(self
+                 ):
+        self.cwd = os.path.dirname(os.getcwd())  # 获取当前文件的绝对路径
+        self.file_dirname = os.path.dirname(os.path.abspath(__file__))
+        self.model = GaussianNB()
+        self.dataset_path = ' '
+        self.test_size = ' '
+        self.test_set = ' '
+
+    def train(self, seed=0, data_type='csv'):
+        np.random.seed(seed)
+        if data_type == 'csv':
+            dataset = pd.read_csv(self.dataset_path, sep=',', header=None).values
+        elif data_type == 'pandas':
+            dataset = self.load_pd()
+        elif data_type == 'list':
+            dataset = self.load_list()
+        np.random.shuffle(dataset)
+
+        data, label = dataset[:, :-1], dataset[:, -1]
+        train_index = int((1 - self.test_size) * len(dataset))
+        train_data, train_label = data[:train_index, ], label[:train_index]
+        self.test_set = {
+            'data': data[train_index:, ],
+            'label': label[train_index:]
+        }
+        self.model.fit(train_data, train_label)
+
+    def inference(self, mode='cls'):
+        pred = self.model.predict(self.test_set['data'])
+        if mode == 'cls':
+            acc = accuracy_score(self.test_set['label'], pred)
+            print('准确率为：{}%'.format(acc * 100))
+        elif mode == 'reg':
+            loss = mean_squared_error(self.test_set['label'], pred)
+            print('Loss: {}'.format(loss))
+
+    def load_dataset(self, path, test_size=0.2):
+        self.dataset_path = path
+        self.test_size = test_size
+
+    def load_pd(self):
+        pass
+
+    def load_list(self):
+        pass
diff --git a/BaseML/KNN.py b/BaseML/KNN.py
@@ -5,10 +5,8 @@
 
 class KNN:
     def __init__(self,
-                 backbone='KNN',
                  n_neighbors=10,
                  ):
-        self.backbone = backbone
         # 获取外部运行py的绝对路径
         self.cwd = os.path.dirname(os.getcwd())
         # 获取当前文件的绝对路径

diff --git a/LR.py → BaseML/LR.py b/LR.py → BaseML/LR.py
@@ -1,22 +1,19 @@
 from turtle import back
 import pandas as pd 
 import numpy as np
-import os
-import cv2
 import os 
-from sklearn.metrics import accuracy_score ,mean_squared_error, r2_score
+from sklearn.metrics import accuracy_score, mean_squared_error, r2_score
 from sklearn import linear_model
 
 class LR:
-    def __init__ (self,
-        backbone='LR'
-        ):
-        self.backbone = backbone #获取外部运行py的绝对路径
-        self.cwd = os.path.dirname(os.getcwd()) #获取当前文件的绝对路径
-        self.file_dirname  = os.path.dirname(os.path.abspath(__file__)) 
+    def __init__(self,):
+        self.cwd = os.path.dirname(os.getcwd())  #获取当前文件的绝对路径
+        self.file_dirname = os.path.dirname(os.path.abspath(__file__))
         self.model = linear_model.LinearRegression()
+        self.dataset_path = ' '
+        self.test_size = ' '
 
-    def train(self,seed=0,data_type='csv'):
+    def train(self, seed=0, data_type='csv'):
         np.random.seed(seed)
         if data_type == 'csv':
             dataset = pd.read_csv(self.dataset_path,sep=',',header=None).values 
@@ -26,27 +23,26 @@ def train(self,seed=0,data_type='csv'):
             dataset = self.load_list()
         np.random.shuffle(dataset)
 
-        data,label  = dataset[:,:-1],dataset[:,-1]
-        train_index  = int((1-self.test_size)*len(dataset))
-        train_data,train_label  = data[:train_index,],label[:train_index] 
+        data, label = dataset[:,:-1],dataset[:,-1]
+        train_index = int((1-self.test_size)*len(dataset))
+        train_data, train_label = data[:train_index,],label[:train_index]
         self.test_set = {
-            'data':data[train_index:,],
-            'label':label[train_index:]
+            'data': data[train_index:,],
+            'label': label[train_index:]
         }
         self.model.fit(train_data,train_label)
 
-    def inference(self,mode = 'cls'):
+    def inference(self, mode='cls'):
         pred = self.model.predict(self.test_set['data']) 
         loss = mean_squared_error(self.test_set['label'],pred)
         print('Loss: {}'.format(loss))
 
-
     def load_dataset(self,path,test_size=0.2):
         self.dataset_path = path 
-        self.test_size=test_size
+        self.test_size = test_size
 
-    def load_pd():
+    def load_pd(self):
         pass
 
-    def load_list():
-        pass
+    def load_list(self):
+        pass
diff --git a/BaseML/PCA.py b/BaseML/PCA.py
@@ -4,10 +4,8 @@
 
 class PCA:
     def __init__(self,
-                 backbone='KNNClassifier',
                  n_components='mle',
                  ):
-        self.backbone = backbone
         # 获取外部运行py的绝对路径
         self.cwd = os.path.dirname(os.getcwd())
         # 获取当前文件的绝对路径

diff --git a/BaseML/Perceptron.py b/BaseML/Perceptron.py
@@ -3,10 +3,8 @@
 
 
 class Perceptron:
-    def __init__(self,
-                 backbone='KNNClassifier',
+    def __init__(self
                  ):
-        self.backbone = backbone
         # 获取外部运行py的绝对路径
         self.cwd = os.path.dirname(os.getcwd())
         # 获取当前文件的绝对路径

diff --git a/BaseML/SVM.py b/BaseML/SVM.py
@@ -0,0 +1,54 @@
+import pandas as pd
+import numpy as np
+import os
+from sklearn.metrics import accuracy_score, mean_squared_error
+from sklearn.svm import SVC
+
+
+class SVM:
+    def __init__(self,
+                 ):
+        self.cwd = os.path.dirname(os.getcwd())  # 获取当前文件的绝对路径
+        self.file_dirname = os.path.dirname(os.path.abspath(__file__))
+        self.model = SVC()
+        self.dataset_path = ' '
+        self.test_size = ' '
+        self.test_set = ' '
+
+    def train(self, seed=0, data_type='csv'):
+        np.random.seed(seed)
+        if data_type == 'csv':
+            dataset = pd.read_csv(self.dataset_path, sep=',', header=None).values
+        elif data_type == 'pandas':
+            dataset = self.load_pd()
+        elif data_type == 'list':
+            dataset = self.load_list()
+        np.random.shuffle(dataset)
+
+        data, label = dataset[:, :-1], dataset[:, -1]
+        train_index = int((1 - self.test_size) * len(dataset))
+        train_data, train_label = data[:train_index, ], label[:train_index]
+        self.test_set = {
+            'data': data[train_index:, ],
+            'label': label[train_index:]
+        }
+        self.model.fit(train_data, train_label)
+
+    def inference(self, mode='cls'):
+        pred = self.model.predict(self.test_set['data'])
+        if mode == 'cls':
+            acc = accuracy_score(self.test_set['label'], pred)
+            print('准确率为：{}%'.format(acc * 100))
+        elif mode == 'reg':
+            loss = mean_squared_error(self.test_set['label'], pred)
+            print('Loss: {}'.format(loss))
+
+    def load_dataset(self, path, test_size=0.2):
+        self.dataset_path = path
+        self.test_size = test_size
+
+    def load_pd(self):
+        pass
+
+    def load_list(self):
+        pass