机器学习数字识别教程| Toptal®-欧博体育app下载

< div >

验证专家 in 工程< / div >< / div >< / div >< / div >

Teimur热衷于使用反应编写复合接口和使用Go构建可扩展api. 他擅长为非典型问题寻找解决方案.

< / div >< / div >< / div >

专业知识

数据科学机器学习< / div >< / div >< / div >

< div >

以前在

< / div >< / div >< / div >< / div >< / div >< / div >< / div >< / div >< / div >< / div >

< / div >

< / div >< / div >分享< / div >< / div >< / div >

机器学习, 计算机视觉, 构建强大的api, 创造美丽的ui是令人兴奋的领域，见证了许多创新.

前两者需要广泛的数学和科学知识, 而API和UI开发则以算法思维和设计灵活的架构为中心. 它们非常不同，所以决定你接下来想学哪一种可能很有挑战性. 本文的目的是演示如何在创建图像处理应用程序时使用这四种方法.

我们要构建的应用程序是一个简单的数字识别器. You draw, 的 machine p红色的icts 的 digit. 简单是必不可少的，因为它让我们看到大局，而不是专注于细节.

为了简单起见，我们将使用最流行且易于学习的技术. 的 machine learning part will use Python 对于后端应用程序. As for 的应用程序’s interactional side, 我们将通过一个无需介绍的JavaScript库来操作: 反应.

机器学习 to Guess Digits

我们的应用程序的核心部分是算法猜测抽到的数字. 机器学习将成为实现良好猜测质量的工具. 这种基本的人工智能允许系统在给定的数据量下自动学习. 从广义上讲, 机器学习是一个在数据中找到一个巧合或一组巧合的过程，并依靠它们来猜测结果.

我们的图像识别过程包含三个步骤:

Get images of drawn 数字 for 培训
通过训练数据训练系统猜测数字
Test 的 system with new/unknown data

环境

我们需要一个虚拟环境 to work with machine learning in Python. 这种方法是实用的，因为它管理所有必需的Python包, so you don’t need to worry about 的m.

让我们用下面的终端命令安装它:

Python3 -m virtualenv
source virtualenv/bin/activate

培训模式

在开始编写代码之前，我们需要为我们的机器选择一个合适的“老师”. 通常，数据科学专业人员在选择最佳模型之前会尝试不同的模型. 我们将跳过非常先进的模型，需要大量的技能和继续与 k-nearest 邻居 algorithm.

它是一种算法，它获得一些数据样本，并将它们排列在一个平面上，按照给定的一组特征排序. 为了更好地理解它，让我们看看下面的图片:

< / div >

的类型绿点, we should check 的 types of k 最近邻 k 是参数集吗?. Considering 的 image above, if k is equal to 1, 2, 3, or 4, 的 guess will be a 黑色的三角形 as most of 的绿色 dot’s closest k 邻居 are black triangles. 如果我们增加 k 到5，那么大多数物体是蓝色方块，因此猜测将是a 蓝色的正方形.

创建我们的机器学习模型需要一些依赖关系:

sklearn.邻居.KNeighborsClassifier 是我们将要使用的分类器吗.
sklearn.模型_selection.train_test_split 这个函数会帮助我们把数据分成训练数据和用来检查模型正确性的数据吗.
sklearn.模型_selection.cross_val_分数 函数是否为模型的正确性获得标记. 的 higher 的 value, 的 better 的 correctness.
sklearn.指标.classification_回购rt 函数是显示模型猜测的统计报告吗.
sklearn.数据集 是用来获取训练数据的包(数字图像).
numpy 是一个在科学领域广泛使用的包，因为它提供了一种高效和舒适的方式来操作Python中的多维数据结构.
matplotlib.pyplot is 的 package used to visualize data.

让我们从安装和导入它们开始:

pip install sklearn numpy matplotlib scipy

从sklearn.数据集导入load_数字
从sklearn.邻居 import KNeighborsClassifier
从sklearn.导入train_test_split, cross_val_分数
导入numpy为np
进口matplotlib.Pyplot为PLT

现在，我们需要加载 MNIST数据库. MNIST是机器学习领域成千上万新手使用的手写图像的经典数据集:

Digits = load_数字()

Once 的 data is fetched 和 ready, 我们可以进入下一步，将数据分成两部分: 培训和测试.

我们将使用75%的数据来训练我们的模型来猜测数字，我们将使用其余的数据来测试模型的正确性:

(X_train, X_test, y_train, y_test) =
    数字.数据,数字.目标,test_size = 0.25日,r和om_state = 42
)

数据现在已经整理好了，我们可以使用它了. We’ll try to find 的 best parameter k 对于我们的模型，所以猜测会更精确. 我们不能保留 k 在这个阶段，价值离开了我们的头脑，因为我们必须用不同的模型来评估 k 值.

让我们看看为什么必须考虑一个范围 k 值以及这如何提高我们模型的准确性:

Ks = np.(2) 10)不等
分数= []
对于k中的k:
    模型 = KNeighborsClassifier(n_邻居=k)
    得分= cross_val_分数(模型, X_train, y_train, cv=5)
    分数.意思是()
    分数.追加(得分.意思是())

plt.情节(分数,ks)
plt.包含(精度)
plt.ylabel(“k”)
plt.显示()

执行此代码将向您展示下面的图，该图描述了算法的精度与不同 k 值.

< / div >

如你所见，a k 3的值确保我们的模型和数据集的最佳精度.

使用Flask构建API

应用程序核心是一种从图像中预测数字的算法，现在已经准备好了. 接下来，我们需要用API层修饰算法，使其可用. 让我们用流行的 Flask web框架 to do this cleanly 和 concisely.

我们将从在虚拟环境中安装Flask和与图像处理相关的依赖开始:

pip install Flask Pillow scikit-image

安装完成后，我们开始创建应用程序的入口点文件:

触摸应用程序.py

的 content of 的 file will look like this:

进口操作系统

从烧瓶导入烧瓶
from views import P红色的ictDigitView, IndexView

应用程序 = Flask(__name__)

应用程序.add_url_rule (
    / api /预测,
    view_func = P红色的ictDigitView.as_view(“p红色的ict_digit”),
    方法=(“文章”)
)

应用程序.add_url_rule (
    '/',
    view_func = IndexView.as_view(“指数”),
    方法=(“得到”)
)

如果__name__ == 'main':
    端口= int(os.环境.(“端口”,5000))
    应用程序.(主机运行= ' 0.0.0.0,端口=端口)

You will get an error saying that P红色的ictDigitView 和 IndexView 没有定义. 下一步是创建一个文件来初始化这些视图:

从flask中导入render_template、request、Response
从瓶.views import MethodView, View

从瓶.views import视图

from 回购 import Classifier回购
from services import P红色的ictDigit服务
from settings import CLASSIFIER_STORAGE

类IndexView(观点):
    def dispatch_request(自我):
        return render_template('index.html”)

class P红色的ictDigitView(MethodView):
    def post(自我):
        回购 = Classifier回购(CLASSIFIER_STORAGE)
        service = P红色的ictDigit服务(回购)
        Image_data_uri =请求.json('图像')
        预测=服务.处理(image_data_uri)
        return Response(str(p红色的iction).编码(),状态= 200)

我们将再次遇到关于未解析导入的错误. 的 的观点 软件包依赖于三个我们还没有的文件:

设置
回购
服务

We’ll implement 的m one by one.

设置模块是否具有配置和常量变量. 它将为我们存储序列化分类器的路径. 这引出了一个合乎逻辑的问题: 为什么 do I need to save 的 classifier?

因为这是一种提高应用性能的简单方法. 而不是每次收到请求时都训练分类器, we’ll store 的 classifier’s prepa红色的 version, enabling it to work out of 的 box:

进口操作系统

BASE_DIR = os.getcwd ()
CLASSIFIER_STORAGE = os.路径.join(BASE_DIR, 'storage/classifier.txt”)

设置机制——获取分类器——将在我们列表中的下一个包中初始化, 的回购. 它是一个类，有两个方法来检索和更新使用Python内置的训练分类器 泡菜 模块:

进口泡菜

类Classifier回购:
    Def __init__(自我, storage):
        自我.存储器

    def(自我):
        打开(自我.存储，'wb')作为输出:
            试一试:
                Classifier_str = out.read ()
                如果classifier_str != '':
                    返回泡菜.负载(classifier_str)
                其他:
                    回来没有
            除了例外:
                回来没有

    def update(自我, classifier):
        打开(自我.存储，'wb')，如:
            泡菜.in_转储(标识符)

We are close to finalizing our API. 现在它只缺少服务模块. 它的目的是什么?

Get 的 trained classifier from storage
将从UI传递的图像转换为分类器可以理解的格式
通过分类器对格式化后的图像进行预测
返回预测

让我们编写这个算法:

从sklearn.数据集导入load_数字

from classifier import ClassifierFactory
from image_processing import process_image

类P红色的ictDigit服务:
    Def __init__(自我, 回购):
        自我.回购=回购

    def h和le(自我, image_data_uri):
        分类器=自我.回购.get ()
        如果classifier为None:
            Digits = load_数字()
            classifier = ClassifierFactory.create_with_fit (
                数字.数据,
                数字.目标
            )
            自我.回购.更新(标识符)
        
        x = process_image(image_data_uri)
        如果x为None:
            返回0

        预测=分类器.预测(x) [0]
        回归预测

这里你可以看到 P红色的ictDigit服务 有两个依赖项: ClassifierFactory 和 process_image.

我们将首先创建一个类来创建和训练我们的模型:

从sklearn.模型_selection import train_test_split
从sklearn.邻居 import KNeighborsClassifier

类ClassifierFactory:
    @staticmethod
    def create_with_fit (数据、目标):
        模型 = KNeighborsClassifier(n_邻居=3)
        模型.fit(数据、目标)
        回归模型

API已经准备好进行操作了. Now we can proceed to 的图像处理 step.

图像处理

图像处理是对图像进行某些操作以增强图像或从中提取有用信息的一种方法. 在我们的例子中, 我们需要将用户绘制的图像平滑地转换为机器学习模型格式.

< / div >

Let’s import some helpers to achieve that goal:

导入numpy为np
从skimage导入曝光
进口base64
from PIL import Image, ImageOps, ImageChops
从io导入BytesIO

我们可以将这种转变分为六个不同的部分:

1. Replace a transparent background with a color

< / div >

def replace_transparent_background(image):
    Image_arr = np.数组(图片)

    如果len (image_arr.形状)== 2:
        返回图像

    Alpha1 = 0
    r2, g2, b2, alpha2 = 255, 255, 255, 255

    红色的, 绿色, 蓝色的, Alpha = image_arr [:], :, 0], image_arr [:, :, 1], image_arr [:, :, 2], image_arr [:, :, 3]
    掩码= (alpha == alpha1)
    image_arr [:, :, :4][mask] = [r2, g2, b2, alpha2]

    返回图像.fromarray (image_arr)

2. 修剪开放的边界

Image: Trimming 的 borders on a sample image.

< / div >

def trim_borders(图片):
    bg =图像.新(图片.模式,形象.大小,图像.获取像素((0,0)))
    diff = ImageChops.差异(形象,bg)
    diff = ImageChops.加上(diff, diff, 2.0, -100)
    Bbox = diff.getbbox ()
    如果bbox:
        返回图像.作物(bbox)
    
    返回图像

3. 添加相等大小的边框

< / div >

def pad_image(图片):
    返回ImageOps.exp和(image, border=30, fill='#fff')

4. Convert 的 image to grayscale mode

def to_grayscale(图片):
    返回图像.转换(“L”)

5. 反色

Image: Inverting 的 colors of 的 sample image.

< / div >

def invert_colors(图片):
    返回ImageOps.转化(图片)

6. Resize 的 image to 8x8 format

Image: Resizing 的 sample image to an 8x8 format.

< / div >

def resize_image(图片):
    返回图像.调整((8,8)，图像.线性)

现在可以测试应用程序了. 运行应用程序并输入下面的命令以发送请求这个库存图像到API:

Image: Stock image of a h和-drawn number eight.

< / div >

出口FLASK_APP =应用
瓶运行

curl "http://localhost:5000/api/p红色的ict" -X "POST" -H "Content-Type: 应用程序lication/json" -d "{\"image\": \"data:image/png,美元(curl http://media.istockphoto.com/vectors/number-eight-8-h和-drawn-with-dry-brush-vector-id484207302?k=6&m=484207302&s=170667a&w=0&h=s3YANDyuLS8u2so-uJbMA2uW6fYyyRkabc1a6OTq7iI=" | base64 " \"}" -i

You should see 的 following output:

HTTP / 1.1100继续

HTTP / 1.0 200 OK
Content-Type: text/html; charset=utf-8
内容长度:1
服务器:Werkzeug / 0.14.1 Python / 3.6.3
Date: Tue, 27 Mar 2018 07:02:08 GMT

8

样本图像描绘了数字8，我们的应用程序正确地识别了它.

Creating a Drawing Pane Via 反应

为了快速引导前端应用程序，我们将使用 CRA样板:

create-react-应用程序前端
cd前端

在设置工作场所之后，我们还需要一个依赖项来绘制数字. 的 react-sketch package matches our needs perfectly:

NPM I反应-草图

的应用程序lication has only one component. We can divide this component into two parts: 逻辑和视图.

视图部分负责表示绘图窗格，提交和重置按钮. 当交互时，我们也应该表示预测或错误. 从逻辑上看，它有以下职责: 提交的图片 和 清除草图.

每当用户点击提交，该组件将从草图组件中提取图像，并调用API模块 makeP红色的iction 函数. 如果对后端的请求成功，我们将设置预测状态变量. O的rwise, we’ll update 的 error state.

当用户点击时重置，草图就会清晰:

import 反应, { useRef, useState } from "react";

import { makeP红色的iction } from "./ api”;

const App = () => {
  const sketchRef = useRef(null);
  const [error, setError] = useState();
  const [p红色的iction, setP红色的iction] = useState();

  const h和le提交 = () => {
    const image = sketchRef .草图.当前的.toDataURL ();

    setP红色的iction(定义);
    setError(定义);

    makeP红色的iction(图片).然后(setP红色的iction).抓住(setError);
  };

  const h和leClear = (e) => sketchRef.当前的.明确的();

  返回null
}

逻辑是充分的. Now we can add 的 visual interface to it:

import 反应, { useRef, useState } from "react";
从“react-sketch”中导入{SketchField, 工具};

import { makeP红色的iction } from "./ api”;

从“./标识.svg”;
进口”./应用程序.css”;

const pixels = (count) => `${count}px`;
const percents = (count) => `${count}%`;

const MAIN_CONTAINER_WIDTH_PX = 200;
const MAIN_CONTAINER_HEIGHT = 100;
const MAIN_CONTAINER_STYLE = {
  width: pixels(MAIN_CONTAINER_WIDTH_PX),
  height: percents(MAIN_CONTAINER_HEIGHT),
  边距:"0 auto"，
};

const SKETCH_CONTAINER_STYLE = {
  边框:"1px纯黑色"，
  width: pixels(MAIN_CONTAINER_WIDTH_PX - 2),
  height: pixels(MAIN_CONTAINER_WIDTH_PX - 2),
  写成backgroundColor:“白”,
};

const App = () => {
  const sketchRef = useRef(null);
  const [error, setError] = useState();
  const [p红色的iction, setP红色的iction] = useState();

  const h和le提交 = () => {
    const image = sketchRef .草图.当前的.toDataURL ();

    setP红色的iction(定义);
    setError(定义);

    makeP红色的iction(图片).然后(setP红色的iction).抓住(setError);
  };

  const h和leClear = (e) => sketchRef.当前的.明确的();

  回报(
    
      
        
          
          Draw a digit
        
        
          
        
        {预测 && P红色的icted value is: {预测}}
        
        
        {错误 && Something went wrong}
      
    
  );
};

导出默认App;

组件准备好了，通过执行并转到来测试它 localhost: 3000 后:

NPM运行启动

的 demo 应用程序lication is available 在这里. You can also browse 的 source code on GitHub.

结束

这个分类器的质量并不完美，我并不假装它是完美的. 我们用于训练的数据和来自UI的数据之间的差异是巨大的. 尽管如此，我们在不到30分钟的时间内从零开始创建了一个可工作的应用程序.

< / div >

在这个过程中，我们在四个方面磨练了自己的技能:

机器学习
后端开发
图像处理
前端开发

对于能够识别手写数字的软件来说，并不缺乏潜在的用例, 从教育和行政软件到邮政和金融服务.

因此, 我希望这篇文章能够激励您提高机器学习能力, 图像处理, 和 front-end 和 back-end development, 并使用这些技能来设计出色而有用的应用程序.

如果你想拓宽你在机器学习和图像处理方面的知识, 你可能想看看我们的 Adversarial 机器学习 Tutorial.

< / div >< / div >< / div >

Fur的r Reading on 的 Toptal 博客:

< / div >

了解基本知识

What is MNIST in machine learning?
MNIST是计算机视觉领域最流行的入门级数据集之一. 它包含成千上万的手写数字图像.
< / div >< / div >
What is 培训 in machine learning?
机器学习模型s learn from data. 为了使模型足够智能，我们需要提供具有预期结果的数据. 模型将使用这些数据来检测数据参数与期望结果之间的关系.
< / div >< / div >
What is 图像处理 in machine learning?
图像处理是对图像进行某些操作以获得增强图像或提取有用信息的一种方法.
< / div >< / div >

< / div >< / div >

看看我们的相关人才

< / div >< / div >

< / div >

< / div >< / div >< / div >< / div >< / div >

< / div >< / div >

< / div >

World-class articles, delive红色的 weekly.

< / div >

Subscription implies consent to our 隐私政策

< / div >< / div >< / div >< / div >< div >

< / div >

World-class articles, delive红色的 weekly.

< / div >

Subscription implies consent to our 隐私政策

< / div >< / div >< / div >< / div >< / div >< / div >< / div >

Toptal开发者

< / div >< / div >

加入总冠军^® 社区.

聘请开发人员 or 申请成为发展商< / div >< / div >< / div >

Teimur Gasanov

专业知识

以前在

机器学习 to Guess Digits

环境

培训模式

使用Flask构建API

图像处理

Creating a Drawing Pane Via 反应

Draw a digit

P红色的icted value is: {预测}

结束

Fur的r Reading on 的 Toptal 博客:

了解基本知识

What is MNIST in machine learning?

What is 培训 in machine learning?

What is 图像处理 in machine learning?

标签

作者简介

专业知识

以前在

热门文章

负责任的生成人工智能的五大支柱:未来的道德准则

人工智能的优势:使用GPT和扩散模型进行图像生成

问一个NLP工程师:从GPT模型到人工智能伦理

如何使用JWT和Node.为了更好的应用程序安全性

看看我们的相关人才

聘请人才

读下

负责任的生成人工智能的五大支柱:未来的道德准则

Toptal开发者

欧博体育app下载

技术服务

关于

联系

By Teimur Gasanov

专业知识

以前在

机器学习 to Guess Digits

环境

培训模式

使用Flask构建API

图像处理

Creating a Drawing Pane Via 反应

P红色的icted value is: {预测}

结束

Fur的r Reading on 的 Toptal 博客:

了解基本知识

What is MNIST in machine learning?

What is 培训 in machine learning?

What is 图像处理 in machine learning?

标签

作者简介

专业知识

以前在

热门文章

看看我们的相关人才

聘请人才

读下

Toptal开发者

关于

联系

Teimur Gasanov