pyspark 针对mongodb的读写

摘要:
1.要在pyspark和mongodb之间创建连接,首先以三种方式加载依赖包:1)直接将其放置在安装Spark的jar目录中;2) 在Spark_In提交时,添加依赖包信息;3) 在创建Spark对象时添加相关性信息,如下图所示。Spark=SparkSession。建设者appName('ngoconnection')。config(“spark.mongodb.inpu”

1.创建pyspark与mongodb的连接,首先加载依赖包,其有三种方式:

1)直接将其放在在安装spark的jars目录下;

2)在spark_submit中,添加依赖包信息;

3)在创建spark的对象的时候添加依赖信息,具体案例如下图所示

spark = SparkSession 
.builder
.appName('mongo connection')
.config("spark.mongodb.input.uri", "mongodb://节点:端口号/dev.myCollection?readPreference=primaryPreferred")
.config("spark.mongodb.output.uri", "mongodb://节点:端口号/dev.myCollection")
.config('spark.jars.packages', "org.mongodb.spark:mongo-spark-connector_2.11:2.4.2")
.getOrCreate()

备注:

config的信息,都可以在spark_submit中添加。

2.读取mongodb

df1 = (
spark.read
.format("mongo")
.option("database", 'dev')
.option("collection", 'test_mongo_connect')
.load()
)

3.写入mongodb

df = spark.createDataFrame([(1,), (2,)], ['a'])
(
df.write
.format("mongo")
.mode("overwrite")
.option("database", 'dev')
.option("collection", 'test_mongo_connect')
.save()
)

免责声明:文章转载自《pyspark 针对mongodb的读写》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇R语言马尔可夫体制转换模型Markov regime switchingAPI测试之Postman使用完全指南(Postman教程,这篇文章就够了)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

使用asmfd绑定磁盘

1.停止crs,配置asmfd[root@lxtrac04 bin]# ./asmcmd afd_configureAFD-627: AFD distribution files found.AFD-634: Removing previous AFD installation.AFD-635: Previous AFD components succes...

ali-oss-upload-cli 命令上传文件到 OSS 桶

使用 ali-oss-upload-cli 插件 https://www.npmjs.com/package/ali-oss-upload-cli 1. 安装 npm install --save ali-oss-upload-cli 2. 在项目根目录下创建文件oss.config.js, 与 package.json 同级 module.exports...

双系统只能启动linux,无法启动Windows的解决方法

电脑环境:Windows 8.1 + CentOS 6.6 其中,Windows 8.1安装在C盘(/dev/sdb2),CentOS 6.6的/boot单独分区(/dev/sdb7),在Windows下使用EasyBCD 2.2选择启动系统。 问题描述: 双系统运行正常,重装Linux之后,不小心把BCD弄坏,只能启动Linux系统,没有Windows...

超详攻略!Databricks 数据洞察

简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!) 开源大数据社区 & 阿里云 EMR 系列直播 第四期 主题:Databricks 数据洞察...

docker安装启动es

docker安装es和kibana docker pull elasticsearch:7.4.2 docker pull kibana:7.4.2 创建映射文件夹(并写入配置) mkdir -p /kaka-data/elasticsearch/config mkdir -p /kaka-data/elasticsearch/data 代表es可以被远程...

elixir mix开发入门

备注:  简单使用mix 进行项目的生成,同时添加docker 构建支持 1. 生成项目 mix new mydemoproject 输出信息如下: * creating README.md * creating .formatter.exs * creating .gitignore * creating mix.exs * cre...