去年五月,我在阅读林语堂的《苏东坡传》时,边读边整理了书中主要人物的关系。最后,借助图数据库 Neo4j 将这些人物关系存储在数据库中,并以可视化的方式
推荐语: 推荐一个小工具 jsonlines. python 中 json 包已经可以覆盖大部分场景,但是如果文件很大/读写多个同文件不同 json 可以尝试 jsonlines 推荐人: 任焱 链接: https://jsonlines.readthedocs.io/en/latest/ 推荐语: 看到一个
推荐语: 还在用静态统计图吗?不妨考虑一下Plotly,无论是Python还是R都有易用的方式。在Python中可以利用Plotly-expr
本文由邱怡轩主笔,内容素材源自邱怡轩和戴奔共同讨论的结果。 武林至尊,宝刀屠龙。长久以来,机器学习江湖中一直流传着两件神器——LibSVM 和 L
编辑部按:本文是统计之都访谈第49期。随着生物医学领域的发展以及科学技术不断进步,日益丰富的数据为生物统计带来新的机遇及挑战。生物统计内容广
推荐语:一些活跃的线上研讨会网站:Online Causal Inference Seminar是因果推断的研讨会,每周二晚上有研讨会,2020春季到现在已经举办了几十期报
推荐语:深度学习,但是Lasso?具有算法包和对应的原理论文,值得一试 推荐人:孔令仁 链接:https://lassonet.ml/ 推荐语:明
推荐语:想要把ChatGPT转化成实在的生产力吗?这个包把ChatGPT的一些功能嵌入到RStudio内,通过Add-In栏的按钮即可使用。
本文根据作者在 2023 年 2 月 18 日统计之都云讲堂的发言整理修改而成。 1 惊人的体验 最近试用了一下 ChatGPT。正如很多人描绘的那样,这个产品震撼人心
统计之都编辑部按:本文译自 Donoho (2017): 50 Years of Data Science,发表在 Journal of Computational and Graphical Statistics 杂志。在正式发表前数年,其初版就广为流传,引发了学术界深入、持续的讨
推荐语:Gurobi是由美国 Gurobi Optimization 公司开发新一代大规模优化器,能够处理很多优化问题,充分利用多核处理器优势,且支持并行计算。这篇博客提供了如何
1 写作背景 2 本文结构 3 地震背景信息 4 1973-2022 年全球地震变化 4.1 数据准备 4.2 震次趋势(年度) 4.3 震级分布(总体情况) 4.4 震级分布(按年分组) 4.4.1 抖动图 4.4.2 岭线图
统计之都访谈第47期。2022年8月初,正是北美一年一届的 Joint Statistical Meetings。统计之都在会议间隔对雷理骅进行了采访。在本文发布之际,雷理骅
1 静态样式 1.1 基本说明 1.1.1 术语约定 1.1.2 参数位置 1.1.3 回调函数 1.2 表格基础 1.2.1 高度(height)、宽度(width) 1.2.2 行名(rownames) 1.2.3 列名(co
推荐语:还在纠结数据特征如何进行正态化吗?这个包 bestNormalize 提供了多种变换方法的合并调用,并可以通过基于拟合优度的统计量来为你选出最好的方法。 推荐人:
推荐语:shiny 现在有 Python 版本了,这是一篇 Python 中使用 shiny 的教程 推荐人:孔令仁 链接:https://appsilon.com/shiny-for-
编辑部按:统计之都访谈第46期为翻译作品。原文作者是Luisa T. Fernholz 和 Stephan Morgenthaler,标题为 A Conversation with John W. Tukey and Elizabeth Tukey,于2000
推荐语: “How to do statistical research" 包含了一些对统计科研新手的有益建议。更重要的是推荐这个ASA做的网站,虽然近年的更新不多,但是沉淀着不少有意思的文章
1. 前言 2. 时间线 3. 材料准备 3.1. 简历 3.2. 推荐信 3.3. 学位成绩单 3.4. GRE 3.5. TOEFL 3.6. 文书 4. 择校 5. 套磁 6. 面试 7. 钱与录取后 8. 信息渠道 9. 背景提升与思维转变 前言 我申请的是2
本文出自《中国科学:数学》2018年12期上同名文章,获得作者授权后转载。 \[ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} \] 1 引言 探求事物之间的因果关系是哲学、自然科学和社会科学等众
杨剑,西湖大学生命科学学院教授,2003年本科毕业于浙江大学,2008年于浙大取得博士学位,同年赴澳大利亚昆士兰医学研究所从事博士后研究工作
推荐语:这个Repo存储了一个Julia用户群体关于写好清洁科研代码的互助与讨论活动记录,适合对Julia感兴趣,或者对于这种活动形式感兴趣
序幕 上高二的时候,在家里自学,有一天晚上不知道怎么冒出的想法,想去美国留学。现在想想很可笑。我家里没钱,在国内上大学都算是一个不小的负担了,
推荐语: 关于贝叶斯统计的一门课程,有配套书籍和公开课视频(B站搜名称有搬运),数理内容比较少,侧重代码实战(官方R+stan,也有 Python 和 Julia 版)
统计学起源于物理学、生物学和社会科学的许多学科的汇合。粗略地说,它可以被认为是使用概率模型和随机变化的度量分析数据的理论和实践。统计学中出现
1 本文概览 2 本文背景 3 软件配置 3.1 安装 R 包 3.2 安装 TinyTeX 3.3 安装字体 3.4 安装主题 3.5 其他配置 4 制作 beamer 幻灯片 4.1 LaTeX 4.2 Pandoc’s Markdown 4.2.1 简单示例 4.2.2 LaTeX 模版 4.2.3 幻灯
推荐语:可以称得上划时代的几何学教学技术,通过网页实现交互式高亮,随着阅读流程一同标记文本和对于绘图的内容,把几何原本做成了一本网页上可以动
1 本文概览 2 软件准备 3 制作地图 3.1 地区分布图 3.1.1 数据准备 3.1.2 数据展示 4 制作动画 4.1 GIF 动画 4.1.1 gganimate 包 4.1.2 tmap 包 4.2 Web 动画 4.2.1 echarts4r 包 5 本文小结 6 运行环境 7 参考文献 1 本
推荐语:一个比较好的可视化案例,作图的简洁和配色都挺美观(个人看法),动态效果也不错,最后给出的代码可以做参考。 推荐人:赵昊蛟 链接:http
推荐语:【体育爱好者专栏】足球番外篇。足球作为世界第一运动,值得再说道一下。提到足球数据科学,就不得不提一下awesome-soccer-a
1 本文概览 2 单变量情形 2.1 美国各郡的年平均癌症死亡率分布 2.1.1 maps 2.1.2 latticeExtra 2.1.3 ggplot2 2.1.4 tmap 2.1.5 sf 2.1.6 ggplot2 + sf 2.1.7 mapsf 3 多变量情形 3.1 美国北卡州家庭年收入与白人占比的空间相关
简介 R 语言深度学习 配置工作环境 简单神经网络建模 加载包 加载数据 数据处理 构建模型 编译模型 拟合模型 评估模型 存储/加载模型 相关拓展 相关教程 相关案例 近
首先,这里所指的因果不是道德意义上的,比如做好人能否有好报等,而是理性认识的界限内的因果关系,科学意义上的因果,比如吸烟是否导致肺癌。 因果推
1. 是否自然流量 2. 一天三个波峰是否正常 3. 定西流量来源 4. 定西流量的组成部分 4.1. 长期用户与短期用户 4.2. 自然流量与非自然流量 5. 结尾 6. 运行环境 7. 参考文献 某
推荐语:一个在线 LaTeX 公式编辑器,无需登陆即可使用,还为登录后的用户免费提供了有限的截图识别次数(mathpix 的 API) 推荐人:孔令仁 链接:h
西南联大时期的许宝騄与戴世光 1.引言 许宝騄(1910-1970)与戴世光(1908-1999)是我国近现代统计学界的两面旗帜。许宝騄是中国数
基础要点1:花瓣弧度 基础要点2:花瓣颜色 渐变色 纹理填充 纯色 给花瓣分配颜色 基础要点3:多重花瓣 改变花瓣边缘的形状 嵌套多层–各层颜色不同 嵌套多层
1 核酸检测之迷 当下,全国各地都出现新冠疫情反弹的迹象。有效遏制疫情蔓延的一个重要手段是全民核酸检测。以笔者所在的天津西青区为例,截止3月14
统计之都编辑部按:张志华老师是北京大学数学科学学院概率统计系和统计中心教授。之前曾经先后任教于浙江大学和上海交通大学,任计算机科学教授。张老
推荐语:耶鲁大学 Yihong Wu 的课程 Statistical inference on graphs。网页上有详细的课件和作业,适合自学。 推荐人:梁杰昊 链接:http://www.stat.yal
见龙在田 因为众所周知的原因,近几年来,计算机处理器芯片这个高科技产品受到了社会的广泛关注。一时间,一款名为“龙芯”的 CPU 好像突然成了“全村人的
简介 你是不是特别想创建一个自己的私人博客?使用 blogdown 搭建博客难度大不大?与其他方式搭建博客相比又有什么优点? 在使用过一段时间后,个人认为 blogdown 搭建博
统计之都编辑部按:本文是纪念Leo Breiman《统计建模:两种文化》20周年活动的系列文章之一,作者何通。 算法文化的兴起 第一次读到Brei
简介: 袁卫,中国人民大学荣誉一级教授,国务院学位委员会学科发展战略咨询委员会委员,教育部社科委经济学部委员,国际统计学会(ISI)选举会员。
1. 基本语法 1.1. 准备工作 1.2. 横轴(e_x_axis) 1.3. 纵轴(e_y_axis) 1.4. 多个变量 1.5. 双Y轴(y_index) 1.6. 堆叠(stack) 1.6.1. 数值的堆叠
1 Tidyverse 简介 Tidyverse [1] 包是 Hadley Wickham 及团队的集大成之作,是专为数据科学而开发的一系列包的合集,基于整洁数据,提供了一致的底层设计哲学、一致的语法、一致的数据
一、初识gm 首先通过一个简单的例子来初步认识一下gm包。 这里有一段很简单的代码,它是用这个包写的。这段代码可以生成一段乐谱还有相应的音频。这
推荐语:数据科学家常常抱怨训练模型只占工作时间的 5%,而 95% 的时间花在处理产品使用 case,捣鼓数据和部署工作。本书的目标是分享方法和建议去更
统计分析在质量管理中曾发挥了重大作用,特别是20世纪40年代,以休哈特的统计过程控制理论(Statistical Process Control, SPC)、道奇的质量抽样
COS访谈注:原文访谈于2013-2014年,作者:Fan Li(李凡,现为杜克大学统计科学系教授) 和 Fabrizia Mealli(现为佛罗伦萨大学教授),
推荐语:Daily R 是一个很棒的基于 blogdown 包搭建的关于 R 的聚合博客,每天定时自动更新,每篇文章都会显示标题和摘要,点击标题后它会自动重定向到文章
引言 近年来,数据驱动的转型升级在工业中取得了一些成绩,不仅被产业界广泛认可,也给企业带来了实实在在的效益。但工业大数据分析的发展也面临着许多
推荐语:不想使用繁琐的编辑工具“应付”工作中的微软家族(word, ppt)需求,那么使用 officedown 或许可以帮助你解放双手、帮助你更专注于内容产出。尽
本文于2021年7月发表在《统计研究》第38卷第7期;此后,作者对文章内容又进行了扩充和修订,授权发布在统计之都。1 民国时期留学生对于引进西
编者按:本文首发于郭旭教授的个人公众号:郭老师统计小课堂。 近日,统计学知名期刊《International Statistical Review》发表了Nandin
自序 2019 年底,陈兴璐编辑给我写了封邮件,问我是否有兴趣写一本中文书。这问题可以说是问到我心坎上了。2018 年我在给赵鹏的《学 R》一书写推荐序时
推荐语:通常情况下,我们总相信大样本意味着准确,但在论文 More Data Can Hurt for Linear Regression: Sample-wise Double Descent 作者发现对于参数过量的回归模型,会得到有悖于常理的结果,链接的文
统计学是一门与时俱进的应用学科,它的研究问题和研究手段是“常为新”的。统计学植根于早年的农牧业、后来生物医学、以及当今的IT互联网等领域,这
转载自《数学文化》2021/第12卷第2期 引言 探求事物的原因,是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问
推荐语:前两周刚用 blogdown 新建了自己的博客,本月则推荐一篇与此相关的内容——blogdown 相关的更新。这篇文章的目的是强调一些作者用来重建 他的网
全文共计3869字,预计需要10分钟。 此文讲述一篇最近发表在 Transportation Research Part C [1] 期刊上的论文背后的故事。这篇方法论的论文始于一个实际数据问题的启发,在
推荐语:初学 R 时候日期/时间类型一直让我很头疼,lubridate 包解决了不少问题。这篇文章介绍了一个同样专注于处理时间类型的年轻的 R 包 clock 并
第一章:R Markdown 简介 R Markdown 是 R 语言环境中提供的 markdown 编辑工具,运用 R Markdown 撰写文章,既可以像一般的 markdown 编辑器一样编辑文本,也可以在 R Markdown 中插入代码块,并将代码
本文要介绍 R 包 gm,你可以用它来生成音乐。 具体来说,gm 有三大特点: 它设计了一套非常简单的语言,你可以用这个语言来描述音乐。 gm 会将你的描述转
推荐语:作者从 Eurostat, IMF (WEO 和 IFS), BIS, OECD 和 ECB 中收集了一些关于法国、德国、意大利、西班牙和欧元区的宏观经济数据,并定期自动更新,可以直接从 rdbnomics 包中获取,适用
推荐语:与客服对话“遭遇”聊天机器人的体验很神奇,但聊天机器人背后的机制并不复杂——在 R 中短短一段代码就可以完成文本匹配,就可以和聊天机器人
1. 前言 现在的中文网络上其实并不缺乏教新手如何去创建和开发一个 R 包,大致有基于命令行和 RStudio 截图的方式两种方式手把手的把每一步都很好地传授给读者。
声明:本文引用的所有信息均为公开信息,仅代表作者本人观点,与就职单位无关。 广告界有一句经久流传的话:“我知道我的广告费有一半浪费了,但遗憾的
推荐语:Thomas Lumley 博客的8篇年度最佳文章,涵盖了包括做正态分布检验必要性、统计权重、R 版俄勒冈之旅、数据科学实践课程设计、连续映射定理证
数据分析项目通常可以分解为以下过程,数据加载-数据清洗-(特征处理、可视化、模型训练)-成果汇报1。其中,数据清洗与特征处理或者称为数据预处
博士生涯终于走到了最后一步了。这次全程用 R 和 Rmarkdown 相关的包完整写完了论文,现在总结一下个人经验和踩过的坑,希望给后来人提供参考经验,同时安利一下
推荐语:关于 R 语言教学,作者针对学生是编程初学者的情况提出了 Tidy 存在的多种问题。 推荐人:Song Li 链接:https://github.com/
中国 R 会(The China-R Conference)始于2008 年,由统计之都(Capital of Statistics, COS)发起,并在中国人民大学举办了第一届中国 R 会。R
中国R会(The China-R Conference)始于2008 年,由统计之都(Capital of Statistics, COS)发起,并在中国人民大学举办了第一届中国R会。 1
从另一个视角看R语言的“方言”Tidyverse,以及 RStudio 对 Tidyverse 的提倡。 作者简介 作者 Norm Matloff 为 UC Davis 计算机科学教授(曾任 UCD 统计学教授)。中文翻译及投稿
本文主要简要分享一下我从1月底开始的一个用shiny制作的关注日本疫情动态的仪表盘应用项目。 可能有的读者对这篇文章有既视感,是因为在5月份的
推荐语:同行评议是学术论文发表过程中很重要的一环,当前科研用软件的发表通常依附于学术论文但却缺少对软件本身的同行评议过程,rOpenSci 目
网络分析适合用来研究多样本或特性间的关系,这类关系通常用互相连接的节点来表示,在可视化中节点一般指代一个样本或特性,连线则代表了样本间或特性
之前在我的博客里介绍了一个利用R发邮件的方法 (https://cxy.rbind.io/post/mailr/),这次我要推荐一个发邮件的包
Code should be written to minimize the time it would take for someone else to understand it. — The Art of Readable Code, Boswell, D. / Foucher, T. 本文首先介绍如何在 Fedora 29 系统上安装配置 MySQL 数据库管理系统,然后介绍如何从 R 连接 MySQL
简介 黄建华教授现任美国德州A&M大学统计系教授及数据科学研究所副主任,并为Arseven/Mitchell Astronomical Statistics讲席
简介 俞声博士的研究方向是医学信息学,主要研究内容包括自动术语识别、关系提取、表示学习等自然语言处理问题,以及大规模医学知识图谱构建、表型提取
是的你没有看错,这里真的是一个正经的关于统计和数据科学的网站,本文作者也绝对没有在跑程序的时候偷偷溜去 B 站追番。嗯,大概没有吧。没有吧。有吧
推荐语:机器学习算法常常带有“黑箱”的特性,因此一些学者开始致力于可解释性机器学习的研究。Christoph Molnar 的新书 Interpretable Machine Learning 对此领域有较为全面
大数据和人工智能是当今最为热门的科技术语。我国相关部门下发了一系列重要的指导性、纲领性文件,也启动了一大批大数据和人工智能相关的重大科技专项
推荐语: Larry Wasserman在圣诞节时挂了篇文章“Universal Inference Using the Split Likelihood Ratio Test”,看到Universal我就想起了神经网络的Uni
关于政府统计有两个比喻。一个比喻是眼睛,政府统计像一双可以将经济社会发展状况尽收眼底的眼睛,通过这双眼睛识别当前状况,然后将信息传送给大脑(
本文翻译自 2018 年 10 月 15 日至 10 月 17 日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会报告。该报告由 Xuming He 组织并由指导委员会(成
编者按:本文翻译自2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会报告。该报告由Xu
编者按:本系列推送为2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会的报告,该报告由
推荐语:一本开源的使用R的计量经济学书籍《Introduction to Econometrics with R》。涵盖了基础的计量经济学知识(无偏估计、假设检验、因果推断、时间
摘要: 吴定良先生是我国著名的生物统计学家、体质人类学家,中央研究院首届院士。他1927年师从卡尔·皮尔逊, 分别获得统计学博士学位和人类学博士
机器学习是经典而又现代的学科,它的发展过程交织着理想和务实。机器学习期待着机器具有人一样的自主学习能力,其名称本身就充满着理想主义色彩;许多
推荐语:使用网页互动可视化方式介绍统计的基础概念。其中统计推断两章尤为惊艳。中文、英文、西班牙文皆有。 推荐人:黄俊文 链接:https://s
多层模型 多层模型常被用于处理嵌套数据(即,具有层次结构的数据),如,从不同的学校中抽取学生样本(第一层为学生,第二层为学校,学生样本嵌套于学
背景 在之前我的文章中,概括地介绍了修改 R Markdown模板的思路。本文希望基于一个创作 R Markdown文档的例子 (在电脑上看效果比较好)
本文翻译自 Jonas Kristoffer Lindeløv 的 Common statistical tests are linear models (or: how to teach stats),翻译工作已获得原作授权。本翻译工作首发于统计之都网站和微信公众号上。 本文将
推荐语:谷歌浏览器已经不让用户关闭点击追踪了,因为禁用点击追踪已经事实上威胁了他们的核心商业利益,也就是广告投放,虽然这变相损害了用户隐私。
编者按:政府统计是统计学最重要应用领域之一,所提供的数据是我们了解国情国力和经济社会发展进程的基本依据,是在宏观背景下进行微观决策和科学研究