Go to file
tangyouhua 328b9c33ec
Merge pull request #5 from hxp-plus/master
修正了一个拼写错误
2020-05-11 20:42:08 +08:00
README.md 修正了一个拼写错误 2020-03-18 10:41:08 +08:00

README.md

机器学习资源大全中文版

我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-machine-learning 就是 josephmisiti 发起维护的机器学习资源列表,内容包括了机器学习领域的框架、库以及软件(按编程语言排序)。

Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更大。这也是我们发起这个开源项目的初衷。


我们要做什么?


如何参与本项目?


本项目的参与者

注:名单不分排名,不定期补充更新


C++

计算机视觉

  • CCV基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库。官网
  • OpenCV它提供C++、C、Python、Java 以及 MATLAB接口。并支持Windows、Linux、Android 和 Mac OS操作系统。官网

通用机器学习

Clojure

通用机器学习

  • Clojure ToolboxClojure语言库与工具的分类目录。官网

Go

自然语言处理

  • go-porterstemmer一个Porter词干提取算法的原生Go语言净室实现。官网
  • paicehuskPaice/Husk词干提取算法的Go语言实现。官网
  • snowballGo语言版的Snowball词干提取器。官网

通用机器学习

  • Go LearnGo语言机器学习库。官网
  • go-prGo语言机器学习包。官网
  • bayesianGo语言朴素贝叶斯分类库。官网
  • go-galibGo语言遗传算法库。官网

数据分析/数据可视化

  • go-graphGo语言图形库。官网
  • SVGoGo语言的SVG生成库。官网

Java

自然语言处理

  • CoreNLP斯坦福大学的CoreNLP提供一系列的自然语言处理工具输入原始英语文本可以给出单词的基本形式下面Stanford开头的几个工具都包含其中)。官网
  • Stanford Parser一个自然语言解析器。官网
  • Stanford POS Tagger一个词性分类器。官网
  • Stanford Name Entity RecognizerJava实现的名称识别器。官网
  • Stanford Word Segmenter分词器很多NLP工作中都要用到的标准预处理步骤。官网
  • Tregex、Tsurgeon与Semgrex用来在树状数据结构中进行模式匹配基于树关系以及节点匹配的正则表达式名字是“tree regular expressions"的缩写)官网
  • Stanford Phrasal最新的基于统计短语的机器翻译系统java编写。官网
  • Stanford Tokens Regex用以定义文本模式的框架。官网
  • Stanford Temporal TaggerSUTime是一个识别并标准化时间表达式的库。官网
  • Stanford SPIED在种子集上使用模式以迭代方式从无标签文本中学习字符实体。官网
  • Stanford Topic Modeling Toolbox为社会科学家及其他希望分析数据集的人员提供的主题建模工具。官网
  • Twitter Text JavaJava实现的推特文本处理库。官网
  • MALLET基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。官网
  • OpenNLP处理自然语言文本的机器学习工具包。官网
  • LingPipe使用计算机语言学处理文本的工具包。官网

通用机器学习

  • MLlib in Apache SparkSpark中的分布式机器学习程序库。官网
  • Mahout分布式的机器学习库。官网
  • Stanford Classifier斯坦福大学的分类器。官网
  • WekaWeka是数据挖掘方面的机器学习算法集。官网
  • ORYX提供一个简单的大规模实时机器学习/预测分析基础架构。官网

数据分析/数据可视化

  • Hadoop大数据分析平台。官网
  • Spark快速通用的大规模数据处理引擎。官网
  • Impala为Hadoop实现实时查询。官网

Javascript

自然语言处理

  • Twitter-text-jsJavaScript实现的推特文本处理库。官网
  • NLP.jsjavascript及coffeescript编写的NLP工具。官网
  • naturalNode下的通用NLP工具。官网
  • Knwl.jsJS编写的自然语言处理器。官网

数据分析/数据可视化

通用机器学习

  • Convnet.js训练深度学习模型的JavaScript库。官网
  • Clustering.js用JavaScript实现的聚类算法供Node.js及浏览器使用。官网
  • Decision TreesNode.js实现的决策树使用ID3算法。官网
  • Node-fannNode.js下的快速人工神经网络库。官网
  • Kmeans.jsk-means算法的简单Javascript实现供Node.js及浏览器使用。官网
  • LDA.js供Node.js用的LDA主题建模工具。官网
  • Learning.js逻辑回归/c4.5决策树的JavaScript实现。官网
  • Machine LearningNode.js的机器学习库。官网
  • Node-SVMNode.js的支持向量机。官网
  • BrainJavaScript实现的神经网络。官网
  • Bayesian-Bandit贝叶斯强盗算法的实现供Node.js及浏览器使用。官网

Julia

通用机器学习

  • PGMJulia实现的概率图模型框架。官网
  • DAJulia实现的正则化判别分析包。官网
  • Regression回归分析算法包如线性回归和逻辑回归官网
  • Local Regression局部回归非常平滑官网
  • Naive Bayes朴素贝叶斯的简单Julia实现。官网
  • Mixed Models统计混合效应模型的Julia包。官网
  • Simple MCMCJulia实现的基本mcmc采样器。官网
  • DistanceJulia实现的距离评估模块。官网
  • Decision Tree决策树分类器及回归分析器。官网
  • NeuralJulia实现的神经网络。官网
  • MCMCJulia下的MCMC工具。官网
  • GLMJulia写的广义线性模型包。官网
  • Online Learning官网
  • GLMNetGMLNet的Julia包装版适合套索/弹性网模型。官网
  • Clusteringk-means, dp-means等数据聚类的基本函数。官网
  • SVMJulia下的支持向量机。官网
  • Kernal DensityJulia下的核密度估计器。官网
  • Dimensionality Reduction降维算法。官网
  • NMFJulia下的非负矩阵分解包。官网
  • ANNJulia实现的神经网络。官网

自然语言处理

  • Topic ModelsJulia下的主题建模。官网
  • Text AnalysisJulia下的文本分析包。官网

数据分析/数据可视化

  • Graph Layout纯Julia实现的图布局算法。官网
  • Data Frames MetaDataFrames的元编程工具。官网
  • Julia Data处理表格数据的Julia库。官网
  • Data Read从Stata、SAS、SPSS读取文件。官网
  • Hypothesis TestsJulia中的假设检验包。官网
  • GladflyJulia编写的灵巧的统计绘图系统。官网
  • StatsJulia编写的统计测试函数包。官网
  • RDataSets读取R语言中众多可用的数据集的Julia函数包。官网
  • DataFrames处理表格数据的Julia库。官网
  • Distributions概率分布及相关函数的Julia包。官网
  • Data Arrays元素值可以为空的数据结构。官网
  • Time SeriesJulia的时间序列数据工具包。官网
  • SamplingJulia的基本采样算法包。官网

杂项/演示文稿

  • DSP数字信号处理。官网
  • JuliaCon PresentationsJulia大会上的演示文稿。官网
  • SignalProcessingJulia的信号处理工具。官网
  • ImagesJulia的图片库。官网

Lua

通用机器学习

  • Torch7
    • cephes—Cephes数学函数库包装成Torch可用形式提供并包装了超过180个特殊的数学函数由Stephen L. Moshier开发是SciPy的核心应用于很多场合。官网
    • graph供Torch使用的图形包。官网
    • randomkit从Numpy提取的随机数生成包包装成Torch可用形式。官网
    • signalTorch-7可用的信号处理工具包可进行FFT, DCT, Hilbert, cepstrums, stft等变换。官网
    • nnTorch可用的神经网络包。官网
    • nngraph为nn库提供图形计算能力。官网
    • nnx一个不稳定实验性的包扩展Torch内置的nn库。官网
    • optimTorch可用的优化算法库包括 SGD, Adagrad, 共轭梯度算法, LBFGS, RProp等算法。官网
    • unsupTorch下的非监督学习包提供的模块与nnLinearPsd、ConvPsd、AutoEncoder、...及独立算法k-means、PCA等兼容。官网
    • manifold操作流形的包。官网
    • svmTorch的支持向量机库。官网
    • lbfgs将liblbfgs包装为FFI接口。官网
    • vowpalwabbit老版的vowpalwabbit对torch的接口。官网
    • OpenGMOpenGM是C++编写的图形建模及推断库该binding可以用Lua以简单的方式描述图形然后用OpenGM优化。官网
    • sphagettiMichaelMathieu为torch7编写的稀疏线性模块。官网
    • LuaSHKit将局部敏感哈希库SHKit包装成lua可用形式。官网
    • kernel smoothingKNN、核权平均以及局部线性回归平滑器。官网
    • cutorchtorch的CUDA后端实现。官网
    • cunntorch的CUDA神经网络实现。官网
    • imgraphtorch的图像/图形库,提供从图像创建图形、分割、建立树、又转化回图像的例程。官网
    • videographtorch的视频/图形库,提供从视频创建图形、分割、建立树、又转化回视频的例程。官网
    • saliency积分图像的代码和工具用来从快速积分直方图中寻找兴趣点。官网
    • stitch使用hugin拼合图像并将其生成视频序列。官网
    • sfm运动场景束调整/结构包。官网
    • fextorch的特征提取包提供SIFT和dSIFT模块。官网
    • OverFeat当前最高水准的通用密度特征提取器。官网
  • Numeric Lua官网
  • Lunatic Python官网
  • SciLua官网
  • Lua - Numerical Algorithms官网
  • Lunum官网

演示及脚本

  • Core torch7 demos repository核心torch7演示程序库。官网
    • 线性回归、逻辑回归
    • 人脸检测(训练和检测是独立的演示)
    • 基于mst的断词器
    • train-a-digit-classifier
    • train-autoencoder
    • optical flow demo
    • train-on-housenumbers
    • train-on-cifar
    • tracking with deep nets
    • kinect demo
    • 滤波可视化
    • saliency-networks
  • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)官网
  • Music Taggingtorch7下的音乐标签脚本。官网
  • torch-datasets官网 读取几个流行的数据集的脚本,包括
    • BSR 500
    • CIFAR-10
    • COIL
    • Street View House Numbers
    • MNIST
    • NORB
  • Atari2600在Arcade Learning Environment模拟器中用静态帧生成数据集的脚本。官网

Matlab

计算机视觉

  • Contourlets实现轮廓波变换及其使用函数的MATLAB源代码。官网
  • Shearlets剪切波变换的MATLAB源码。官网
  • CurveletsCurvelet变换的MATLAB源码Curvelet变换是对小波变换向更高维的推广用来在不同尺度角度表示图像官网
  • BandletsBandlets变换的MATLAB源码。官网

自然语言处理

  • NLP一个Matlab的NLP库。官网

通用机器学习

  • Training a deep autoencoder or a classifier on MNIST digits在MNIST字符数据集上训练一个深度的autoencoder或分类器。官网
  • t-Distributed Stochastic Neighbor Embedding获奖的降维技术特别适合于高维数据集的可视化。官网
  • SpiderMatlab机器学习的完整面向对象环境。官网
  • LibSVM支持向量机程序库。官网
  • LibLinear大型线性分类程序库。官网
  • Machine Learning ModuleM. A .Girolami教授的机器学习课程包括PDF、讲义及代码。官网
  • Caffe考虑了代码清洁、可读性及速度的深度学习框架。官网
  • Pattern Recognition ToolboxMatlab中的模式识别工具包、完全面向对象。官网

数据分析/数据可视化

  • matlab_gbl处理图像的Matlab包。官网
  • gamic图像算法纯Matlab高效实现对MatlabBGL的mex函数是个补充。官网

.NET

计算机视觉

  • OpenCVDotNet包装器使.NET程序能使用OpenCV代码。官网
  • Emgu CV跨平台的包装器能在Windows、Linux、Mac OS X、iOS和Android上编译。官网

自然语言处理

  • Stanford.NLP for .NET斯坦福大学NLP包在.NET上的完全移植还可作为NuGet包进行预编译。官网

通用机器学习

  • Accord.MachineLearning随机抽样一致性算法、交叉验证、网格搜索这个包是Accord.NET框架的一部分支持向量机、决策树、朴素贝叶斯模。型、K-means、高斯混合模型和机器学习应用的通用算法。官网
  • VulpesF#语言实现的Deep belief和深度学习包它在Alea.cuBase下利用CUDA GPU来执行。官网
  • Encog先进的神经网络和机器学习框架包括用来创建多种网络的类也支。持神经网络需要的数据规则化及处理的类它的训练采用多线程弹性传播。它也能使用GPU加快处理时间提供了图形化界面来帮助建模和训练神经网络。官网
  • Neural Network Designer这是一个数据库管理系统和神经网络设计器设计器用WPF开发也是一个UI你可以设计你的神经网络、查询网络、创建并配置聊天机器人它能问问题并从你的反馈中学习这些机器人甚至可以从网络搜集信息用来输出或是用来学习。官网

数据分析/数据可视化

  • numlnuml这个机器学习库目标就是简化预测和聚类的标准建模技术。官网
  • Math.NET NumericsMath.NET项目的数值计算基础着眼提供科学、工程以及日常数值计算的方法和算法支持 Windows、Linux 和 。Mac上的 .Net 4.0、.Net 3.5 和 Mono Silverlight 5、WindowsPhone/SL 8、WindowsPhone 8.1 以及装有 PCL Portable Profiles 47 及 344的Windows 8 装有 Xamarin的Android/iOS。官网
  • ShoSho是数据分析和科学计算的交互式环境可以让你将脚本IronPython语言和编译的代码.NET无缝连接以快速灵活的建立原型。官网这个环境包括强大高效的库,如线性代数、数据可视化,可供任何.NET语言使用还为快速开发提供了功能丰富的交互式shell

Python

计算机视觉

  • SimpleCV开源计算机视觉框架可以访问如OpenCV等高性能计算机视觉库使用Python编写可以在Mac、Windows以及Ubuntu上运行。官网

自然语言处理

  • NLTK一个领先的平台用来编写处理人类语言数据的Python程序。官网
  • PatternPython可用的web挖掘模块包括自然语言处理、机器学习等工具。官网
  • TextBlob为普通自然语言处理任务提供一致的API以NLTK和Pattern为基础并和两者都能很好兼容。官网
  • jieba中文断词工具。官网
  • SnowNLP中文文本处理库。官网
  • loso另一个中文断词库。官网
  • genius基于条件随机域的中文断词库。官网
  • nut自然语言理解工具包。官网

通用机器学习

  • Bayesian Methods for HackersPython语言概率规划的电子书。官网
  • MLlib in Apache SparkSpark下的分布式机器学习库。官网
  • scikit-learn基于SciPy的机器学习模块。官网
  • graphlab-create包含多种机器学习模块的库回归、聚类、推荐系统、图分析等基于可以磁盘存储的DataFrame。官网
  • BigML连接外部服务器的库。官网
  • patternPython的web挖掘模块。官网
  • NuPICNumenta公司的智能计算平台。官网
  • Pylearn2基于Theano的机器学习库。官网
  • hebelPython编写的使用GPU加速的深度学习库。官网
  • gensim主题建模工具。官网
  • PyBrain另一个机器学习库。官网
  • Crab可扩展的、快速推荐引擎。官网
  • python-recsysPython实现的推荐系统。官网
  • thinking bayes关于贝叶斯分析的书籍。官网
  • Restricted Boltzmann MachinesPython实现的受限波尔兹曼机。官网
  • Bolt在线学习工具箱。官网
  • CoverTreecover tree的Python实现scipy.spatial.kdtree便捷的替代。官网
  • nilearnPython实现的神经影像学机器学习库。官网
  • Shogun机器学习工具箱。官网
  • Pyevolve遗传算法框架。官网
  • Caffe考虑了代码清洁、可读性及速度的深度学习框架。官网
  • breze深度及递归神经网络的程序库基于Theano。官网

数据分析/数据可视化

  • SciPy基于Python的数学、科学、工程开源软件生态系统。官网
  • NumPyPython科学计算基础包。官网
  • NumbaPython的低级虚拟机JIT编译器Cython and NumPy的开发者编写供科学计算使用。官网
  • NetworkX为复杂网络使用的高效软件。官网
  • Pandas这个库提供了高性能、易用的数据结构及数据分析工具。官网
  • Open MiningPython中的商业智能工具Pandas web接口官网
  • PyMCMCMC采样工具包。官网
  • ziplinePython的算法交易库。官网
  • PyDy全名Python Dynamics协助基于NumPy、SciPy、IPython以及 matplotlib的动态建模工作流。官网
  • SymPy符号数学Python库。官网
  • statsmodelsPython的统计建模及计量经济学库。官网
  • astropyPython天文学程序库社区协作编写。官网
  • matplotlibPython的2D绘图库。官网
  • bokehPython的交互式Web绘图库。官网
  • plotlyPython and matplotlib的协作web绘图库。官网
  • vincent将Python数据结构转换为Vega可视化语法。官网
  • d3pyPython的绘图库基于D3.js。官网
  • ggplot和R语言里的ggplot2提供同样的API。官网
  • Kartograph.pyPython中渲染SVG图的库效果漂亮。官网
  • pygalPython下的SVG图表生成器。官网
  • pycascading官网

杂项脚本/iPython笔记/代码库

  • pattern_classification官网
  • thinking stats 2官网
  • hyperopt官网
  • numpic官网
  • 2012-paper-diginorm官网
  • ipython-notebooks官网
  • decision-weights官网
  • Sarah Palin LDASarah Palin关于主题建模的电邮。官网
  • Diffusion Segmentation基于扩散方法的图像分割算法集合。官网
  • Scipy TutorialsSciPy教程已过时请查看scipy-lecture-notes。官网
  • CrabPython的推荐引擎库。官网
  • BayesPyPython中的贝叶斯推断工具。官网
  • scikit-learn tutorialsscikit-learn学习笔记系列。官网
  • sentiment-analyzer推特情绪分析器。官网
  • group-lasso坐标下降算法实验应用于稀疏群套索模型。官网
  • mne-python-notebooks使用 mne-python进行EEG/MEG数据处理的IPython笔记。官网
  • pandas cookbook使用Python pandas库的方法书。官网
  • climin机器学习的优化程序库用Python实现了梯度下降、LBFGS、rmsprop、adadelta 等算法。官网

Kaggle竞赛源代码

  • wiki challangeKaggle上一个维基预测挑战赛 Dell Zhang解法的实现。官网
  • kaggle insultsKaggle上”从社交媒体评论中检测辱骂“竞赛提交的代码。官网
  • kaggle_acquire-valued-shoppers-challengeKaggle预测回头客挑战赛的代码。官网
  • kaggle-cifarKaggle上CIFAR-10 竞赛的代码使用cuda-convnet。官网
  • kaggle-blackboxKaggle上blackbox赛代码关于深度学习。官网
  • kaggle-accelerometerKaggle上加速度计数据识别用户竞赛的代码。官网
  • kaggle-advertised-salariesKaggle上用广告预测工资竞赛的代码。官网
  • kaggle amazonKaggle上给定员工角色预测其访问需求竞赛的代码。官网
  • kaggle-bestbuy_bigKaggle上根据bestbuy用户查询预测点击商品竞赛的代码大数据版官网
  • kaggle-bestbuy_smallKaggle上根据bestbuy用户查询预测点击商品竞赛的代码小数据版官网
  • Kaggle Dogs vs. CatsKaggle上从图片中识别猫和狗竞赛的代码。官网
  • Kaggle Galaxy ChallengeKaggle上遥远星系形态分类竞赛的优胜代码。官网
  • Kaggle GenderKaggle竞赛从笔迹区分性别。官网
  • Kaggle MerckKaggle上预测药物分子活性竞赛的代码默克制药赞助官网
  • Kaggle StackoverflowKaggle上 预测StackOverflow网站问题是否会被关闭竞赛的代码。官网
  • wine-quality预测红酒质量。官网

Ruby

自然语言处理

  • Treat文本检索与注释工具包Ruby上我见过的最全面的工具包。官网
  • Ruby Linguistics这个框架可以用任何语言为Ruby对象构建语言学工具包。括一个语言无关的通用前端一个将语言代码映射到语言名的模块和一个含有很有英文语言工具的模块。官网
  • Stemmer使得Ruby可用 libstemmer_c中的接口。官网
  • Ruby WordnetWordNet的Ruby接口库。官网
  • Raspelaspell绑定到Ruby的接口。官网
  • UEA StemmerUEALite Stemmer的Ruby移植版供搜索和检索用的保守的词干分析器。官网
  • Twitter-text-rb该程序库可以将推特中的用户名、列表和话题标签自动连接并提取出来。官网

通用机器学习

  • Ruby Machine LearningRuby实现的一些机器学习算法。官网
  • Machine Learning Ruby官网
  • jRuby Mahout精华在JRuby世界中释放了Apache Mahout的威力。官网
  • CardMagic-Classifier可用贝叶斯及其他分类法的通用分类器模块。官网
  • Neural Networks and Deep Learning《神经网络和深度学习》一书的示例代码。官网

数据分析/数据可视化

  • rsrubyRuby - R bridge。官网
  • data-visualization-ruby关于数据可视化的Ruby Manor演示的源代码和支持内容。官网
  • ruby-plot将gnuplot包装为Ruby形式特别适合将ROC曲线转化为svg文件。官网
  • plot-rb基于Vega和D3的ruby绘图库。官网
  • scruffyRuby下出色的图形工具包。官网
  • SciRuby官网
  • Glean数据管理工具。官网
  • Bioruby官网
  • Arel官网

Misc 杂项

  • Big Data For Chimps大数据处理严肃而有趣的指南书。官网

R

通用机器学习

数据分析/数据可视化

  • Learning Statistics Using R官网
  • ggplot2基于图形语法的数据可视化包。官网

Scala

自然语言处理

  • ScalaNLP机器学习和数值计算库的套装。官网
  • BreezeScala用的数值处理库。官网
  • Chalk自然语言处理库。官网
  • FACTORIE可部署的概率建模工具包用Scala实现的软件库为用户提供简洁的语言来创建关系因素图评估参数并进行推断。官网

数据分析/数据可视化

  • MLlib in Apache SparkSpark下的分布式机器学习库。官网
  • ScaldingCAscading的Scala接口。官网
  • Summing Bird用Scalding 和 Storm进行Streaming MapReduce。官网
  • AlgebirdScala的抽象代数工具。官网
  • xerialScala的数据管理工具。官网
  • simmer化简你的数据进行代数聚合的unix过滤器。官网
  • PredictionIO供软件开发者和数据工程师用的机器学习服务器。官网
  • BIDMat支持大规模探索性数据分析的CPU和GPU加速矩阵库。官网

通用机器学习

  • ConjectureScalding下可扩展的机器学习框架。官网
  • brushfirescalding下的决策树工具。官网
  • ganitha基于scalding的机器学习程序库。官网
  • adam使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎有专用的文件格式Apache 2软件许可。官网
  • bioscalaScala语言可用的生物信息学程序库。官网
  • BIDMach机器学习CPU和GPU加速库。官网