Azure机器学习实践：使用R/Python/Excel生成合成数据

2025-06-26 05:30:57作者：谭伦延

实验概述

在Azure机器学习项目中，数据准备是构建有效模型的关键第一步。本实验将指导您使用多种工具生成合成数据集，为后续的机器学习实验做好准备。我们将重点介绍三种主要方法：Microsoft Excel、R语言和Python语言，以及如何将生成的数据存储在Azure SQL数据库和Azure Blob存储中。

实验目标

掌握使用不同工具生成合成数据的方法
了解如何在Azure平台上存储和管理数据
为后续机器学习实验准备基础数据集
熟悉数据生成的基本原理和方法

实验准备

在开始实验前，请确保您已具备以下环境：

已安装RStudio或类似R开发环境
已安装Python环境（推荐使用Anaconda）
已安装Microsoft Excel
具备访问Azure SQL数据库和Azure存储账户的权限
已安装SQL Server管理工具

数据生成原理

我们将基于最简单的数学函数f(x)=y生成数据，即对于任何数值x，函数返回相同的y值。例如：

f(5)=5
f(-10)=-10
f(1.4)=1.4

当x取值1到30时，我们得到y值也是1到30。如果在坐标系中绘制这些点，将得到一条完美的直线。为了模拟真实世界中的数据，我们会为y值添加一些随机噪声，使数据点不完全在直线上。

数据生成方法

方法一：使用Microsoft Excel

创建新工作簿，在第一行输入列名：x、y、noise、x、","、ywnoise
在x列生成1到30的序列
将x列复制到y列
使用公式=IF(RANDBETWEEN(0,1), -1 * RAND(), RAND())生成-1到1之间的随机噪声
创建ywnoise列，公式为=D2+C2*2，即y值加上两倍噪声
最终得到包含噪声的线性数据

方法二：使用R语言

在RStudio中创建新脚本
使用以下代码生成数据：

x <- seq(1, 30)
y <- x
noise <- runif(30, -1, 1)
ywnoise <- y + noise * 2
plot(x, ywnoise)
linoise <- cbind(x, ywnoise)
write.csv(linoise, "linoise.csv", row.names = FALSE)

运行脚本将生成CSV文件和对应的数据图

方法三：使用Python

在Spyder或类似IDE中创建新脚本
使用以下代码生成数据：

import numpy as np
import matplotlib.pyplot as plt
import csv
from itertools import izip

x = range(1, 31)
y = x
noise = np.random.uniform(-1, 1, 30)
ywnoise = y + noise * 2
plt.plot(x, ywnoise)
plt.show()

with open('linoise.csv', 'wb') as f:
    writer = csv.writer(f)
    writer.writerow(['x', 'ywnoise'])
    writer.writerows(izip(x, ywnoise))

运行脚本将生成CSV文件并显示数据图

数据存储方案

方案一：Azure SQL数据库

创建Azure SQL数据库并配置防火墙规则
使用SQL Server管理工具连接数据库
执行以下TSQL脚本创建表并插入数据：

CREATE TABLE synth_data (
    x int, 
    ywnoise float
);
CREATE CLUSTERED INDEX i1 ON dbo.synth_data(x);

WITH Seq as (
    SELECT TOP (30) x = CONVERT(INT, ROW_NUMBER() OVER (ORDER BY s1.[object_id])) 
    FROM sys.all_objects AS s1 CROSS JOIN sys.all_objects AS s2
)

INSERT INTO synth_data
SELECT x, x + (RAND(convert(varbinary, newid())) * 2) - 1 as ywnoise FROM Seq