思腾合力的SCM人工智能训练平台不错,是一款支持机器学习与深度学习框架的GPU集群调度系统,基于Hadoop Yarn完成了对TensorFlow、MXNet、PyTorch、Keras、XGBoost等常用框架的集成。有高性能、易用性和稳定性的特点
为初学者们介绍一下比较受欢迎且好用的工具。
一、最强终端:Upterm
本来想推荐fish或者zsh,但其实这两个我也主要是贪图自动补全这个特性。最近在用的这个 Upterm 其实很简单好用,它是一个全平台的终端,可以说是终端里的 IDE,有着强大的自动补全功能。之前的名字叫 BlackWindow,有人跟他说这个名字不利于社区推广,改名叫 Upterm 之后现在已经17000+ Star了。
二、交互式解释器:Ptpython
一个交互式的 Python 解释器。支持语法高亮、提示甚至是 vim 和 emacs 的键入模式。
三、包管理必备:Anaconda
强烈推荐Anaconda ,它能帮你安装好许多麻烦的东西,包括: Python 环境、pip 包管理工具、常用的库、配置好环境路径等等。这些事情小白自己一个个去做的话,容易遇到各种问题,带来挫败感。如果你想用Python搞数据方面的事情,就安装它就好了,它甚至开发了一套JIT的解释器Numba。所以 Anaconda有了JIT之后,对线上科学计算效率要求比较高的东西也可以搞了。
四、编辑器:Sublime3
小白的话当然还是推荐从PyCharm开始上手,但有时候写一些轻量的小脚本,就会想用轻量级一点的工具。Sublime3很多地方都有了极大的提升,并且用起来比原来还要简单。配合安装Anaconda或CodeIntel插件,可以让 Sublime拥有近乎IDE的体验。
五、前端在线编辑器:CodeSandbox
虽然这个不算是真正意义上的Python开发工具,但如果后端工程师想写前端的话,这个在线编辑器太方便了,简直是节省了后端工程师的生命啊!不用安装npm的几千个包了,它已经在云端完成了,采让你直接就可以上手写代码、看效果。对于 React、Vue这些主流前端框架都支持。算是一个推荐补充吧。
六、Python Tutor
Python Tutor 是由 Philip Guo 开发的一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并逐步可视化地运行程序。如果你不知道代码在内存中是如何运行的,不妨把它拷贝到Tutor里可视化执行一遍,加深理解。
七、IPython
IPython 是一个 for Humans 的 Python 交互式 shell,用了它之后你就不想再用自带的 Python shell 了,IPython 支持变量自动补全,自动缩进,支持 bash shell 命令,内置了许多实用功能和函数,同时它也是科学计算和交互可视化的最佳平台。
八、Jupyter Notebook
Jupyter Notebook 就像一个草稿本,能将文本注释、数学方程、代码和可视化内容全部组合到一个易于共享的文档中,以 Web 页面的方式展示。它是数据分析、机器学习的必备工具。
九、Anaconda
Python 虽好,可总是会遇到各种包管理和 Python 版本问题,特别是 Windows 平台很多包无法正常安装,为了解决这些问题,Anoconda 出现了,Anoconda 包含了一个包管理工具和一个Python管理环境,同时附带了一大批常用数据科学包,也是数据分析的标配。
十、Skulpt
Skulpt 是一个用 Java 实现的在线 Python 执行环境,它可以让你轻松在浏览器中运行 Python 代码。使用 skulpt 结合 CodeMirror 编辑器即可实现一个基本的在线Python编辑和运行环境。
以上推荐的十个Python开发工具,虽然都很好用,但是也不必全部都安装,毕竟适合自己的才是最好的,大家可以根据自己的需求进行选择。
数据挖掘,又称为资料探勘、数据采矿。
它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。
其中一些应用包括市场细分-如识别客户从特定品牌购买特定产品的特征,欺诈检测-识别可能导致在线欺诈的交易模式等。
在本文中,贵阳电脑培训整理了进行数据挖掘的8个最佳开源工具。
1、WekaWEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2、RapidMinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。
它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
3、OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。
它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。
其由C++和Python开发,它的图形库是由跨平台的Qt框架开发。
4、KnimeKNIME(KonstanzInformationMiner)是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。
5、jHepWorkjHepWork是一套功能完整的面向对象科学数据分析框架。
Jython宏是用来展示一维和二维直方图的数据。
该程序包括许多工具,可以用来和二维三维的科学图形进行互动。
6、ApacheMahoutApacheMahout是ApacheSoftwareFoundation(ASF)开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache在许可下免费使用。
该项目已经发展到了它的最二个年头,目前只有一个公共发行版。
Mahout包含许多实现,包括集群、分类、CP和进化程序。
此外,通过使用ApacheHadoop库,Mahout可以有效地扩展到云中。
7、ELKIELKI(EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures)主要用来聚类和找离群点。
ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。
可以用来寻找离群点。
我用的是阿里云机器学习平台PAI。
首先,PAI提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,符合您的要求,贯穿了AI开发全链路。并且PAI内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。包含了五个子产品,PAI-iTAG(智能标注)、PAI-Designer(可视化建模)、PAI-DSW(交互式建模)、PAI-DLC(云原生深度学习训练平台)、PAI-EAS(弹性推理服务平台)。
其次,从我个人的使用感受出发,PAI平台非常的友好,我是传统行业(具体就不透露啦)的一枚员工,今年我们尝试AI和传统行业相结合,把一些传统的工作搬上云,蹭蹭人工智能的热度,因此开始使用机器学习平台PAI。由于我本人是非计算机科班出身的,且毕业有一段时间了,学习能力大不如前啊。但是使用PAI平台的子产品却丝滑的顺利,有问题就去看产品文档,理解不了在答疑群里问问,体验甚好啊。尤其是DSW,真心好用,强推,无需任何运维配置的,再合适不过了。EAS也很好用,我也很喜欢。我的同事们说Designer的拖拉拽功能很方便,算法都帮忙搭好了,我们只需要拖拉拽就行,等我有空了也试试。
整体来说挺好的,当时下决定之前也对比了很多类似的品牌,飞桨啦华为云啦,对比下来还是阿里云的这个机器学习平台PAI适合我们,可以供你参考看看吧,具体还是看你的使用场景,也可以去看看他们的官网。有疑惑可以再联络。
Pycharm相比Spyder的优点是:
1 调试更方便,Spyder在其他文件里面设置断点,竟然无法停下来,必须得在主程序里面设置一个断点,然后“Step into”,如果嵌套比较深的话,这种方法特别麻烦。 Pycharm就没有这个问题。
2 Pycharm的“Reformat code”功能我特别喜欢,可以自动将你的代码排版规范,比如=两边各空一格,函数结尾空两行等等,不止能作用于一个文件,而且能一次性作用于整个项目!
Pycharm的缺点:
1 最新版本虽然支持了ipython,但功能体验比较差,1,反应比较慢 2 tab键经常不能弹出对象的属性与方法。
2 没有workspace。
所以,我的建议是结合使用这两个工具,基本上能达到MATLAB的使用体验。
2016年3月14日的补充
经过一段时间使用,也发现了Anaconda的缺点。特别是spyder。
1 在workspace里,对数据量偏大一点的变量进行查看,容易卡死,而MATLAB不会。
2 再workspace里,浮点数只显示小数点后三位,我经常要手工修改为显示为小数点后6位,不知道怎么修改默认设置。
3 断点调试明显没有MATLAB方便。
4 没有MATLAB那样方便的Profiler,用于发现代码运算瓶颈,而Spyder没有。
还有其他的,就不一一列举了,总之,在IDE上,Spyder相比MATLAB差远了,但我用Python,仍然会用Spyder,因为目前没有更好的替代品。
原答案:
千言万语汇成一句话: 安装Anaconda!
Anaconda非常适合做研究.Pycharm适合做开发,而不是研究.
为什么说Anaconda好呢?
1 自带了很多适合搞科学研究的库,比如numpy, scipy, pandas, matplotlib, sympy, sklearn等.
2 里面的spyder的界面非常像matlab的界面, 还支持单步调试.编辑器像matlab那样,可以创建cell(使用#%%,与matlab类似),方便查看与调试。
3 里面的ipython notebook, 非常适合交互和展示成果.
numpy, scipy, pandas, matplotlib。 scikit-learn 前4个库装完就可以吊打MATLAB基础功能了。 至于MATLAB里的工具箱,则需要额外找python的库进行扩充。 最后一个安装好,则除深度学习之外的机器学习都搞定了
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。