PyCharm

The only Python IDE you need.

Download

Data Data Science How-To's Python Tutorials

使用 PyCharm 将 MySQL 数据库中的数据读入 pandas

Sue

Read this post in other languages:

在数据科学之旅中，您迟早会遇到需要从数据库中获取数据的情况。然而，从将本地存储的 CSV 文件读入 pandas 到连接和查询数据库，这可能是一项艰巨的任务。在一系列博文的第一篇中，我们会探讨如何将存储在 MySQL 数据库中的数据读入 pandas，并查看 PyCharm 中使这项任务更简单的一些功能。

查看数据库内容

在本教程中，我们会将一些关于航空公司延误和取消的数据从 MySQL 数据库读取到 pandas DataFrame 中。这些数据是 Airline Delays from 2003-2016 数据集的一个版本，该数据集由 Priank Ravichandar 提供，以 CC0 1.0 授权。

使用数据库可能令人感到困惑的第一件事是无法简要了解可用数据，因为所有表都存储在远程服务器上。因此，我们要使用的第一个 PyCharm 功能是 Database（数据库）工具窗口，它允许您在进行任何查询之前连接到数据库并对其进行全面内省。

为了连接到我们的 MySQL 数据库，我们首先要导航到 PyCharm 的右侧，然后点击 Database（数据库）工具窗口。

在这个窗口的左上方，您会看到一个加号 (+) 按钮。点击这个按钮就会出现下面的下拉对话窗口，我们将在其中选择 Data Source | MySQL（数据源 | MySQL）。

我们现在有一个弹出窗口，它将允许我们连接到我们的 MySQL 数据库。在这种情况下，我们使用的是本地托管的数据库，因此，我们将 Host（主机）设为“localhost”，将 Port（端口）设为默认的 MySQL 端口“3306”。我们将使用“用户和密码”作为 Authentication（身份验证）选项，并在 User（用户）和 Password（密码）中输入“pycharm”。最后，在 Database（数据库）中输入我们的数据库名称“demo”。当然，要连接到您自己的 MySQL 数据库，您将需要特定主机、数据库名称，以及您的用户名和密码。请参阅文档了解全部选项。

接下来，点击 Test Connection（测试连接）。 PyCharm 提示我们没有安装驱动程序文件。继续，点击 Download Driver Files（下载驱动程序文件）。 Database（数据库）工具窗口一个非常好的功能是，它会自动为我们找到并安装正确的驱动程序。

成功！我们已经连接到我们的数据库。我们现在可以导航到 Schemas（架构）选项卡，并选择我们想要内省的架构。在我们的示例数据库中，我们只有一个（“demo”），但在您有非常大的数据库的情况下，可以通过只内省相关数据库来节省时间。

所有这些都完成后，我们就可以连接到我们的数据库了。点击 OK（确定），然后等待几秒钟。现在可以看到，我们的整个数据库已被内省，直到表字段级别及其类型。这使我们在运行查询之前就能对数据库中的内容有一个很好的了解。

使用 MySQL Connector 读入数据

现在，我们已经知道数据库中的内容，可以准备进行查询了。假设我们想要查看 2016 年至少有 500 次延误的机场。通过查看内省的 airlines 表中的字段，我们看到我们可以通过以下查询获得这些数据：

SELECT AirportCode,
      SUM(FlightsDelayed) AS TotalDelayed
   FROM airlines
   WHERE TimeYear = 2016
   GROUP BY AirportCode
   HAVING SUM(FlightsDelayed) > 500;

我们使用 Python 运行这个查询的第一种方式是使用一个叫作 MySQL Connector 的软件包，它可以从 PyPI 或 Anaconda 安装。如果需要关于设置 pip 或 conda 环境或安装依赖项的指导，请参阅链接的文档。一旦安装完成，我们将打开一个新的 Jupyter Notebook 并导入 MySQL Connector 和 pandas。

import mysql.connector
import pandas as pd

为了从我们的数据库中读取数据，我们需要创建一个连接器。这是通过 connect 方法完成的，我们向该方法传递访问数据库所需的凭据：host、database 名称、user 和 password。这些是我们在上一节中使用 Database（数据库）工具窗口访问数据库时使用的相同凭据。

mysql_db_connector = mysql.connector.connect(
   host="localhost",
   database="demo",
   user="pycharm",
   password="pycharm"
)

我们现在需要创建一个游标。这将用于执行我们对数据库的 SQL 查询，它使用在我们的连接器中存储的凭据来获得访问权限。

mysql_db_cursor = mysql_db_connector.cursor()

我们现在可以执行查询了。我们使用游标中的 execute 方法来执行查询，并将查询作为实参传递。

delays_query = """
               SELECT AirportCode,
                      SUM(FlightsDelayed) AS TotalDelayed
                   FROM airlines
                   WHERE TimeYear = 2016
                   GROUP BY AirportCode
                   HAVING SUM(FlightsDelayed) > 500;
              """

mysql_db_cursor.execute(delays_query)

然后，我们使用游标的 fetchall 方法检索结果。

mysql_delays_list = mysql_db_cursor.fetchall()

不过，在这一点上我们有一个问题：fetchall 以列表形式返回数据。为了将其读入 pandas，我们可以将其传入一个 DataFrame，但是我们会失去列名。如果我们想要创建 DataFrame，则需要手动指定列名。

幸好，pandas 提供了一种更好的方式。我们可以使用 read_sql 方法，一步将我们的查询读入一个 DataFrame，不需要创建游标。

mysql_delays_df2 = pd.read_sql(delays_query, con=mysql_db_connector)

我们只需要将我们的查询和连接器作为实参传递，以便从 MySQL 数据库中读取数据。查看我们的 DataFrame，我们可以看到我们获得了与上面完全一样的结果，但这次列名被保留了。

您可能已经注意到 PyCharm 有一个不错的功能，这个功能可以将语法高亮显示应用于 SQL 查询，即使查询包含在 Python 字符串中也可以。稍后在本博文中，我们将介绍 PyCharm 允许您使用 SQL 的另一种方式。

使用 SQLAlchemy 读入数据

使用 MySQL Connector 的另一种方式是使用一个叫作 SQLAlchemy 的软件包。这个软件包提供了一种一站式方式，可以连接到包括 MySQL 在内的一系列不同的数据库。使用 SQLAlchemy 的一个好处是，查询不同数据库类型的语法在不同的数据库类型中保持一致。如果您正在使用大量不同的数据库，无需记住一堆不同的命令。

首先，我们需要从 PyPI 或 Anaconda 安装 SQLAlchemy。然后，我们导入 create_engine 方法，当然还有 pandas。

import pandas as pd
from sqlalchemy import create_engine

我们现在需要创建我们的引擎。这个引擎允许我们告知 pandas 我们使用的是哪种 SQL 方言（在我们的示例中为 MySQL），并向其提供访问我们的数据库所需的凭据。这些都以一个字符串的形式传递，即 [dialect]://[user]:[password]@[host]/[database]。我们来看看这对我们的 MySQL 数据库来说是什么样子：

mysql_engine = create_engine("mysql+mysqlconnector://pycharm:pycharm@localhost/demo")

创建引擎后，我们只需要再次使用 read_sql，这次将引擎传递给 con 实参：

mysql_delays_df3 = pd.read_sql(delays_query, con=mysql_engine)

如您所见，我们得到的结果与在 MySQL Connector 中使用 read_sql 时相同。

使用数据库的高级选项

现在，这些连接器方法对于提取我们已经知道自己想要的查询非常好用，但是如果我们想在运行完整查询之前预览我们的数据会是什么样子，或者想知道整个查询会花多长时间，该怎么办？又到了 PyCharm 大显身手的时候了，它提供了一些使用数据库的高级功能。

如果我们回到 Database（数据库）工具窗口，右键点击我们的数据库，我们可以看到在 New（新建）下，我们可以创建一个 Query Console（查询控制台）。

这允许我们打开一个控制台，我们可以用它在原生 SQL 中对数据库进行查询。控制台窗口包括 SQL 代码补全和内省，这样，您可以更轻松地创建查询，然后再将查询传递给 Python 中的连接器软件包。

高亮显示您的查询，并点击左上角的 Execute（执行）按钮。

说到大型查询，我们也可以通过生成一个执行计划来了解我们的查询将需要多长时间。如果我们再次高亮显示我们的查询，然后点击右键，我们可以从菜单中选择 Explain Plan | Explain Analyse。这将为我们的查询生成一个执行计划，显示查询计划器为检索结果所采取的每一个步骤。执行计划是它们自己的主题，我们并不需要了解我们的计划所告诉我们的一切。与我们的目的最相关的是 Actual Total Time（实际总时间）列，在这里我们可以看到在每个步骤中返回所有行需要多长时间。这让我们能够对整个查询时间有一个很好的估计，以及预判我们查询的任何部分是否可能特别耗时。

您也可以通过点击 Plan（计划）面板左侧的 Show Visualization（显示可视化）按钮来可视化执行。

这将弹出一个流程图，让您更轻松浏览查询计划器正在进行的步骤。

将数据从 MySQL 数据库中读入 pandas DataFrames 非常简单。PyCharm 提供了很多强大的工具来让使用 MySQL 数据库变得更简单。在下一篇博文中，我们将了解如何使用 PyCharm 将数据从另一种流行的数据库类型 – PostgreSQL 数据库 – 读入 pandas。

本博文英文原作者：

与 JetBrains 和 PyCharm 一起支持 Python PyCharm 2023.1 最新变化

Discover more

无论您是在构建聊天机器人、训练计算机视觉模型，还是分析业务数据，选择合适的 AI 框架可以决定项目的成败。Python 已成为 AI 和机器学习开发的主导语言，支持这类工作的框架生态系统已发展得十分成熟。正确的框架选择取决于您构建的内容。生产推荐系统与研究原型有着不同的要求。由大语言模型 (LLM) 提供支持的聊天机器人所需的工具与分析表格数据的欺诈检测系统也不同。我们将探索 7 款重要框架，介绍各个框架的优势领域，以便您可以找到适合特定项目的最佳 AI 框架。什么是 AI 框架？ AI 框架是预构建的库和工具，用于处理 AI 和机器学习模型底层的复杂数学运算、数据结构和计算操作。AI …

其他编程语言起起落落，而 Python 却经受住了时间的考验，稳稳地成为了各类开发者（从新手到资深专业人士）的首选之一。无论您是在开发智能系统，还是搭建以数据为基础的工作流，在软件的构建、扩缩与优化过程中，Python 都发挥着关键作用。包括我们即将发布的《2025 开发者生态系统调查》在内的多项调查，都证明了 Python 依旧保持着较高的受欢迎程度。真正的问题在于，开发者为何始终选择 Python，而这正是我们接下来要探讨的内容。无论您是在选择入门的第一种语言，还是在构建生产规模的服务，本文都将带您了解为何 Python 依然是开发者的首选之一。 …

对于机器学习研究员和爱好者而言，Hugging Face 如今已是一个家喻户晓的名字。他们最显著的成果之一便是 Transformers，这是一个适用于文本、计算机视觉、音频和视频领域机器学习模型的模型定义框架。由于 Hugging Face Hub 上拥有海量最先进的机器学习模型，并且 Transformers 能与绝大多数训练框架兼容，该框架被广泛应用于推理和模型训练。为什么要对 AI 模型进行微调？对 AI 模型进行微调至关重要，其核心作用是让模型性能适配特定任务与数据集，相较于使用通用模型，经微调的模型能实现更高的准确性与效率。通过对预训练模型进行适配，微调无需从头开始训练模…

这是 Talk Python 创始人兼 PSF 资深会员 Michael Kennedy 的客座文章。欢迎阅读第八届年度 Python 开发者调查的亮点、趋势和关键行动。本次调查由 Python Software Foundation 和 JetBrains 的 PyCharm 团队合作开展。我是 Michael Kennedy，我分析了超过 30,000 份调查回复，提炼出最重要的趋势和预测，并确定了多种行动来帮助您改善 Python 职业发展。作为 Talk Python to Me 播客的主持人，我处在一个独特的位置。过去 10 年，我每周都会采访 P…

PyCharm

使用 PyCharm 将 MySQL 数据库中的数据读入 pandas

查看数据库内容

使用 MySQL Connector 读入数据

使用 SQLAlchemy 读入数据

使用数据库的高级选项

Discover more

2026 年最佳 Python AI 框架

为什么 Python 在 2025 年如此受欢迎？

使用 Hugging Face Transformers 微调和部署 GPT 模型

2025 年 Python 现状

PyCharm

使用 PyCharm 将 MySQL 数据库中的数据读入 pandas

查看数据库内容

使用 MySQL Connector 读入数据

使用 SQLAlchemy 读入数据

使用数据库的高级选项

Subscribe to PyCharm Blog updates

Discover more

2026 年最佳 Python AI 框架

为什么 Python 在 2025 年如此受欢迎？

使用 Hugging Face Transformers 微调和部署 GPT 模型

2025 年 Python 现状