分类 ⌨️IC＆系统下的文章 - 我的学记|刘航宇的博客

首页 📁归档 ⏳时光机 📫留言 🚩友链 💰资助名单

推荐

🎧音乐 🏜️ 壁纸 ❤ 捐助

1 【NPN/PNP三极管】放大电路饱和失真和截止失真的区别 19,182 阅读 2 论文写作中如何把word里面所有数字和字母替换为新罗马字体 10,140 阅读 3 【高数】形心计算公式讲解大全 8,751 阅读 4 【概论】一阶矩、二阶矩原点矩，中心矩区别与概念 7,450 阅读 5 Vivado-FPGA Verilog烧写固化教程 6,814 阅读

🪶微语&随笔

励志美文我的随笔写作办公

📡电子&通信

嵌入式＆系统通信&信息处理编程&脚本笔记

⌨️IC＆系统

FPGA&ASIC VLSI&IC验证 EDA&虚拟机

💻电子&计算机

IP&SOC设计机器学习软硬件算法

登录

⌨️IC＆系统(共78篇)

找到 78 篇与 ⌨️IC＆系统相关的结果

2025-01-09
【FPGA】AXI DMA详解 <DMA简介 ZYNQ DMA简介三、AXI DMA IP简介四、AXI DMA参数与接口分析 define RX_INTR_ID XPAR_FABRIC_AXIDMA_0_S2MM_INTROUT_VEC_ID define TX_INTR_ID XPAR_FABRIC_AXIDMA_0_MM2S_INTROUT_VEC_IDXilinx FPGA里面的AXI DMA IP核的简单用法 DMA简介 DMA是一种内存访问技术，允许某些计算机内部的硬件子系统可以独立的直接读写内存，而不需要CPU介入处理，从而不需要CPU的大量中断负载，否则，CPU需要从来源把每一片段的数据复制到寄存器，然后在把他们再次写回到新的地方，在这个时间里，CPU就无法执行其他的任务。 DMA是一种快速数据传送方式，通常用来传送数据量较多的数据块。使用DMA时，CPU向DMA控制器发送一个存储器传输请求，这样当DMA控制器在传输的时候，CPU执行其他的操作，传输完成时DMA以中断的方式通知CPU。 DMA传输过程的示意图为：图片 DMA的传输过程为： 1、为了配置用DMA传输数据到存储器，处理器（Cortex-A9）发出一条指令。 2、DMA控制器把数据从外设传输到存储器或者从存储器传输到存储器，从而较少CPU处理的事务量。 3、输出传输完成后，向CPU发出一个中断通知DMA传输可以关闭。为了发起传输事务，DMA控制器必须得到以下信息：（1）、源地址——数据被读出的地址（2）、目的地址——数据被写入的地址（3）、传输长度——应传输的字节数 ZYNQ DMA简介 ZYNQ提供了两种DMA，一种是集成在PS中的硬核DMA，另一种是PL中使用的软核AXI DMA IP。在ARM APU（Application Processor Unit，应用处理单元）设计过程中，已经考虑到大量数据搬移的情况，因此在APU中自带了一个DMA控制器DAMC，这个DMAC驻留在PS内，而且必须通过驻留在内存中的DMA指令编程，这些程序往往需要CPU准备，因此需要部分的CPU参与。DMAC支持多达8个通道，所以多个DMA结构的核可以挂载在单个DMAC上。 DMAC与PL的连接是通过AXI-GP接口，这个接口最高支持到32位宽，这也限制了这种模式下的传输速率，理论上最大为600MB/s，这种模式不占用PL资源，但需要对DMA指令编程，会增加软件的复杂性。为了获取更高的速率，可以空间换时间，在PL中添加AXI DMA IP core，并利用AXI_HP接口完成高速的数据传输，各种接口的传输比较为：图片 ZYNQ中ACI_HP接口的分布为：图片通过PL的DMA和AXI_HP接口传输方式的拓扑图为：图片 DMA的数据传输经过S_AXI_HP接口，每一个HP接口都含有控制和数据fifo，这些fifo为大数据量突发传输提供缓冲，使得HP成为理想的高速数据接口。对DMA的控制或配置通过M_AXI_GP接口（M代表master为PS），传输状态通过中断传达到PS的中断控制器。对M_AXI_GP0理解是：在ZYNQ7处理器系统IP core中，在PS-PL Configuration下的AXI Non Secure Enablement下有一个GP Master AXI Interface选项，可选一个M_AXI_GP0接口。该接口的作用是对PL侧的IP core通过AXI-Lite总线进行配置，如果不仅需要的话直接不使能即可。图片图片三、AXI DMA IP简介 ZYNQ提供了两种DMA，一种是集成在PS中的硬核DMA，另一种是PL中使用的软核AXI DMA IP。 AXI DMA IP核在AXI4-Stream IP接口之间提供高带宽直接存储访问。其可选的scatter gather（SG，链式相关）功能还可以从基于处理器的系统中的中央处理单元（CPU）卸载数据搬运任务。初始化、状态和管理寄存器通过AXI-Lite从接口访问（即数据发出方为PL，PS为Slave），核心功能组成为（这张图很有助于理解DMA中断以及SDK代码，下面会解释）：图片原图位于AXI_DMA数据手册的第五页。 AXI DMA使用了三种总线，分别是：（1）、AXI Memory Map，用于内存交互，AXI4 Memory Map Read用于从DMA读取，AXI4 Memory Map用于向DMA写入。（2）、AXI4-Lite同于对寄存器的配置。（3）、AXI4-Stream接口用于对外设的读写，S2MM（Stream to Memory Mapped，数据流向内存映射）用于对外设读取。AXI_MM2S和AXI_S2MM是AXI_Stream总线，可以发送和接收连续的数据流，无需地址。 AXI DMA提供3种模式：（1）、Direct Register模式：用于在MM2S和S2MM通道上执行简单的DMA传输，小的FPGA资源少。有两个通道：一个从Device到DMA，另一个从DMA到Device。应用程序必须设置缓冲区地址和长度字段以启动相应通道中的传输。（2）、Scatter/Gather模式：允许在单个DMA事务中将数据传输到多个存储区域传输数据。（3）、Cyclic DMA模式：四、AXI DMA参数与接口分析图片 1、接口分析：（1）、M_AXI_MM2S：DMA的读通道，从DDR中读取数据。受Enable Read Channel控制，表现为M_AXI_MM2S。（2）、M_AXI_S2MM：DMA的写通道，将数据写入DDR中。受Enable Write Channel控制，表现为M_AXI_S2MM。（3）、M_AXIS_MM2S：DMA将数据发送到具有stream接口IP。（4）、S_AXIS_S2MM：DMA将数据从具有Stream接口的IP中将数据读入。（5）、mm2s_introut：DMA将数据从DDR的映射单元中读出，然后将数据发送到具有Stream接口的IP完成信号。（6）、s2mm_introut：DMA将数据从具有stream接口的IP中读入，并写入到内存映射单元的完成中断信号。 2、参数分析图片（1）、Enable Scatter Gatter Engine 链式DMA操作，取消选中该选项可启用directregister模式操作。（2）、Enable Micro DMA 改选项会生成高度优化的DMA，资源数量较少，用于传输极少量数据的应用程序。（3）、Width of Buffer Length Register 根据IP手册pg021，在direct register模式下，此整数值用于指定控制字段缓冲区长度的有效位数，字节数等于2^（width），即字节读取和字节写入的有效长度都是2^(width)。比如宽度设置为26，可传输的字节数为2^（26）字节。（pg021，78页）。（4）、Address Width 指定地址空间的宽度，默认32。（5）、Enable Read Channel Memory Map Data Width：AXI MM2S存储映射读取总线的数据位宽，可为32、64、128、256、512、1024。 Stream Data Width：AXI MM2S AXI-Stream数据总线的位宽，该值必须小于等于Memory Map Data Width，可以为8、16、32、64、128、512、1024。 Max Burst Size：最大突发长度设置，指定的是MM2S的AXI4-Memory Map侧的突发周期的最大值，可为2、4、8、16、32、64、128、256。（6）、Enable Write channel：同Read channel。 3、关于中断的理解（1）、M_AXI_MM2S：DMA的读通道，从DDR中读取数据。受Enable Read Channel控制，表现为M_AXI_MM2S。在AXI_DMA ip core的输出信号中，有两个中断信号，分别是s2mm_introut和mm2s_introut，mm指的是Memory Mapped，S指的是Stream。 Memory Map指的是什么？根据AXI DMA的介绍，AXI DMA提供一个介于AXI4 Memory Mapped 与AXI4 Stream IP之间的高带宽DMA：原话位于IP参考的page5： The AXI DirectMemory Access (AXI DMA) IP core provides high-bandwidth direct memory accessbetween the AXI4 memory mapped and AXI4-Stream IP interfaces. 所以，对于DMA来说，S2MM，就是Stream形式的数据到达DDR映射空间，具体的实现方式是Stream数据流先进入DMA，之后再从DMA到Memeory Mapped。 MM2S是Memory Mapped将数据送入具有AXI Stream接口的IP。从这里分析mm2s_introut与s2mm_introut信号的区别是分析不出来的，因为数据都是先到DMA，再从DMA发送出去。在第5页还有一张图，讲述AXI DMA的架构：图片分析这张图，DDR内存映射空间的读写都是通过AXI4Memory Map完成的，也就是说s2mm与mm2s的重点不在PS DDR侧，重点在PL侧，当Stream接口的数据将输出传到DMA时候，这个过程叫做DMA的接收，DMA将映射单元的数据写到stream接口的IP，这个过程叫做DMA的发送。所以！也就可以理解在SDK中将s2mm_introut定义为DMA接收中断，将mm2s_introut定义为发送中断了！所以以下语句就很容易理解了： // DMA接收通道的中断ID define RX_INTR_ID XPAR_FABRIC_AXIDMA_0_S2MM_INTROUT_VEC_ID define TX_INTR_ID XPAR_FABRIC_AXIDMA_0_MM2S_INTROUT_VEC_ID Xilinx FPGA里面的AXI DMA IP核的简单用法在FPGA里面，AXI DMA这个IP核的主要作用，就是在Verilog语言和C语言之间传输大批量的数据，使用的通信协议为AXI4-Stream。 Xilinx很多IP核都是基于AXI4-Stream协议的，例如浮点数Floating-point IP核，以及以太网Tri Mode Ethernet MAC IP核。要想将Verilog层面的数据搬运到C语言里面处理，就要使用DMA IP核。本文以浮点数Floating-point IP核将定点数转换为浮点数为例，详细讲解AXI DMA IP核的使用方法。浮点数IP核的输入输出数据都是32位，协议均为AXI4-Stream。C语言程序首先将要转换的定点数数据通过DMA发送给浮点数IP核，浮点数IP核转换完成后再通过DMA将单精度浮点数结果发回C语言程序，再通过printf打印出来。定点数的数据类型为int，小数点定在第四位上，即：XXXXXXX.X。整数部分占28位，小数部分占4位。转换后浮点数的数据类型为float，可以用printf的%f直接打印出来。工程下载地址：https://pan.baidu.com/s/1SXppHMdhroFT8vGCIysYTQ（提取码：u7wf） MicroBlaze C语言工程的建法不再赘述，请参阅：https://blog.csdn.net/ZLK1214/article/details/111824576 以读写Floating-point IP核数据为例图片首先添加Floating-point IP核，作为DMA的外设端：（主存端为BRAM）图片图片图片图片这里要注意一下，一定要勾选上TLAST，否则DMA接收端会出现DMA Internal Error的错误：图片下面是Xilinx DMA手册里面对DMA Internal Error错误的描述：图片添加AXI DMA IP核：图片 IP核添加好了，但还没有连线：图片点击Run Connection Automation，自动连接DMA的S_AXI_LITE接口：图片图片图片图片图片自动连接浮点数IP核的时钟引脚：图片图片图片图片图片添加BRAM控制器：图片图片最终的连线结果：图片修改新建的BRAM的容量为64KB：图片图片最终的地址分配方式：图片保存Block Design，然后生成Bitstream：图片 Bitstream生成后，导出xsa文件：图片 Vitis Platform工程重新导入xsa文件：图片图片修改C程序（helloworld.c）的代码：（这里面XPAR_BRAM_2_BASEADDR最好改成0xc0000000，因为生成的xparameters.h配置文件里面BRAM号可能有变化） /* * helloworld.c: simple test application * * This application configures UART 16550 to baud rate 9600. * PS7 UART (Zynq) is not initialized by this application, since * bootrom/bsp configures it to baud rate 115200 * * ------------------------------------------------ * | UART TYPE BAUD RATE | * ------------------------------------------------ * uartns550 9600 * uartlite Configurable only in HW design * ps7_uart 115200 (configured by bootrom/bsp) */ #include <stdio.h> #include <xaxidma.h> #include "platform.h" // DMA无法通过AXI Interconnect访问Microblaze本身的BRAM内存 // 只能访问挂接在AXI Interconnect上的内存 #define _countof(arr) (sizeof(arr) / sizeof(*(arr))) typedef struct { int numbers_in[40]; float numbers_out[40]; } BRAM2_Data; static BRAM2_Data *bram2_data = (BRAM2_Data *)XPAR_BRAM_2_BASEADDR; static XAxiDma xaxidma; int main(void) { int i, ret = 0; XAxiDma_Config *xaxidma_cfg; init_platform(); printf("Hello World\n"); printf("Successfully ran Hello World application\n"); // 初始化DMA xaxidma_cfg = XAxiDma_LookupConfig(XPAR_AXIDMA_0_DEVICE_ID); XAxiDma_CfgInitialize(&xaxidma, xaxidma_cfg); ret = XAxiDma_Selftest(&xaxidma); if (ret != XST_SUCCESS) { printf("XAxiDma_Selftest() failed! ret=%d\n", ret); goto err; } // 初始化DMA的输入数据 printf("numbers_in=%p, numbers_out=%p\n", bram2_data->numbers_in, bram2_data->numbers_out); for (i = 0; i < _countof(bram2_data->numbers_in); i++) { bram2_data->numbers_in[i] = 314 * (i + 1); if (i & 1) bram2_data->numbers_in[i] = -bram2_data->numbers_in[i]; } // DMA开始发送数据 (Length参数的单位为字节) ret = XAxiDma_SimpleTransfer(&xaxidma, (uintptr_t)bram2_data->numbers_in, sizeof(bram2_data->numbers_in), XAXIDMA_DMA_TO_DEVICE); if (ret != XST_SUCCESS) { printf("XAxiDma_SimpleTransfer(XAXIDMA_DMA_TO_DEVICE) failed! ret=%d\n", ret); goto err; } // DMA开始接收数据 ret = XAxiDma_SimpleTransfer(&xaxidma, (uintptr_t)bram2_data->numbers_out, sizeof(bram2_data->numbers_out), XAXIDMA_DEVICE_TO_DMA); if (ret != XST_SUCCESS) { printf("XAxiDma_SimpleTransfer(XAXIDMA_DEVICE_TO_DMA) failed! ret=%d\n", ret); goto err; } // 等待DMA发送完毕 i = 0; while (XAxiDma_Busy(&xaxidma, XAXIDMA_DMA_TO_DEVICE)) { i++; if (i == 200000) { // 必须确保DMA访问的内存是直接挂接在AXI Interconnect上的 // 否则这里会报DMA Decode Error的错误 (the address request points to an invalid address) printf("DMA Tx timeout! DMASR=0x%08lx\n", XAxiDma_ReadReg(xaxidma.RegBase + XAXIDMA_TX_OFFSET, XAXIDMA_SR_OFFSET)); goto err; } } printf("DMA Tx complete!\n"); // 等待DMA接收完毕 i = 0; while (XAxiDma_Busy(&xaxidma, XAXIDMA_DEVICE_TO_DMA)) { i++; if (i == 200000) { // floating-point IP核的配置里面一定要把A通道的tlast复选框勾选上, 使输入端和输出端都有tlast信号 // 否则s_axis_s2mm_tlast一直为0, DMA以为数据还没接收完, 就会报DMA Internal Error的错误 // (the incoming packet is bigger than what is specified in the DMA length register) printf("DMA Rx timeout! DMASR=0x%08lx\n", XAxiDma_ReadReg(xaxidma.RegBase + XAXIDMA_RX_OFFSET, XAXIDMA_SR_OFFSET)); goto err; } } printf("DMA Rx complete!\n"); err: for (i = 0; i < _countof(bram2_data->numbers_out); i++) printf("numbers_out[%d]=%f\n", i, bram2_data->numbers_out[i]); cleanup_platform(); return 0; }C程序的运行结果：图片图片接下来讲一下我们刚才禁用掉的Scatter Gather接口的用法。取消禁用后，之前的C代码就不能运行了。之前没有启用Scatter Gather的时候，我们一次只能提交一个DMA请求，等这个DMA请求的数据传输完毕后，我们才能提交下一个DMA传输请求。有了Scatter Gather接口，我们就可以一次性提交很多很多DMA请求，然后CPU去干其他的事情。这可以大大提高传输效率。除此以外，Scatter Gather还可以将多个位于不同内存地址的缓冲区合并成一个AXI4-Stream数据包传输。下面的示例演示了如何利用Scatter Gather功能批量收发3组数据包。启用了Scatter Gather后，DMA里面多出了一个M_AXI_SG接口，点击Run Connection Automation，连接到AXI Interconnect上：图片图片 Vivado工程Generate Bitstream，然后导出xsa文件。回到Vitis后，必须把Platform工程删了重建，不然XPAR_AXI_DMA_0_INCLUDE_SG的值得不到更新。图片图片图片原有的C程序不再可用，修改一下程序代码： /* * helloworld.c: simple test application * * This application configures UART 16550 to baud rate 9600. * PS7 UART (Zynq) is not initialized by this application, since * bootrom/bsp configures it to baud rate 115200 * * ------------------------------------------------ * | UART TYPE BAUD RATE | * ------------------------------------------------ * uartns550 9600 * uartlite Configurable only in HW design * ps7_uart 115200 (configured by bootrom/bsp) */ #include <stdio.h> #include <xaxidma.h> #include "platform.h" /* Xilinx的官方例程：C:\Xilinx\Vitis\2020.1\data\embeddedsw\XilinxProcessorIPLib\drivers\axidma_v9_11\examples\xaxidma_example_sg_poll.c */ // DMA无法通过AXI Interconnect访问Microblaze本身的BRAM内存 // 只能访问挂接在AXI Interconnect上的内存 #define _countof(arr) (sizeof(arr) / sizeof(*(arr))) typedef struct { int numbers_in[40]; float numbers_out[40]; } BRAM2_Data; typedef struct { uint8_t txbuf[640]; uint8_t rxbuf[640]; } BRAM2_BdRingBuffer; static BRAM2_Data *bram2_data = (BRAM2_Data *)0xc0000000; static BRAM2_BdRingBuffer *bram2_bdringbuf = (BRAM2_BdRingBuffer *)0xc0008000; static XAxiDma xaxidma; int main(void) { int i, n, ret = 0; XAxiDma_Bd *bd, *p; XAxiDma_BdRing *txring, *rxring; XAxiDma_Config *cfg; init_platform(); printf("Hello World\n"); printf("Successfully ran Hello World application\n"); // 初始化DMA cfg = XAxiDma_LookupConfig(XPAR_AXIDMA_0_DEVICE_ID); XAxiDma_CfgInitialize(&xaxidma, cfg); ret = XAxiDma_Selftest(&xaxidma); if (ret != XST_SUCCESS) { printf("XAxiDma_Selftest() failed! ret=%d\n", ret); goto err; } if (!XAxiDma_HasSg(&xaxidma)) { printf("XPAR_AXI_DMA_0_INCLUDE_SG=%d\n", XPAR_AXI_DMA_0_INCLUDE_SG); printf("Please recreate and build Vitis platform project!\n"); goto err; } // 初始化DMA的输入数据 printf("[0] numbers_in=%p, numbers_out=%p\n", bram2_data[0].numbers_in, bram2_data[0].numbers_out); printf("[1] numbers_in=%p, numbers_out=%p\n", bram2_data[1].numbers_in, bram2_data[1].numbers_out); printf("[2] numbers_in=%p, numbers_out=%p\n", bram2_data[2].numbers_in, bram2_data[2].numbers_out); for (i = 0; i < _countof(bram2_data[0].numbers_in); i++) { bram2_data[0].numbers_in[i] = 314 * (i + 1); bram2_data[1].numbers_in[i] = -141 * (i + 1); bram2_data[2].numbers_in[i] = -2718 * (i + 1); if (i & 1) { bram2_data[0].numbers_in[i] = -bram2_data[0].numbers_in[i]; bram2_data[1].numbers_in[i] = -bram2_data[1].numbers_in[i]; bram2_data[2].numbers_in[i] = -bram2_data[2].numbers_in[i]; } } // 配置DMA发送描述符 txring = XAxiDma_GetTxRing(&xaxidma); n = XAxiDma_BdRingCntCalc(XAXIDMA_BD_MINIMUM_ALIGNMENT, sizeof(bram2_bdringbuf->txbuf)); ret = XAxiDma_BdRingCreate(txring, (uintptr_t)bram2_bdringbuf->txbuf, (uintptr_t)bram2_bdringbuf->txbuf, XAXIDMA_BD_MINIMUM_ALIGNMENT, n); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingCreate(txring) failed! ret=%d\n", ret); goto err; } printf("BdRing Tx count: %d\n", n); ret = XAxiDma_BdRingAlloc(txring, 3, &bd); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingAlloc(txring) failed! ret=%d\n", ret); goto err; } p = bd; for (i = 0; i < 3; i++) { XAxiDma_BdSetBufAddr(p, (uintptr_t)bram2_data[i].numbers_in); XAxiDma_BdSetLength(p, sizeof(bram2_data[i].numbers_in), txring->MaxTransferLen); XAxiDma_BdSetCtrl(p, XAXIDMA_BD_CTRL_TXSOF_MASK | XAXIDMA_BD_CTRL_TXEOF_MASK); XAxiDma_BdSetId(p, i); p = (XAxiDma_Bd *)XAxiDma_BdRingNext(txring, p); } ret = XAxiDma_BdRingToHw(txring, 3, bd); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingToHw(txring) failed! ret=%d\n", ret); goto err; } // 配置DMA接收描述符 rxring = XAxiDma_GetRxRing(&xaxidma); n = XAxiDma_BdRingCntCalc(XAXIDMA_BD_MINIMUM_ALIGNMENT, sizeof(bram2_bdringbuf->rxbuf)); ret = XAxiDma_BdRingCreate(rxring, (uintptr_t)bram2_bdringbuf->rxbuf, (uintptr_t)bram2_bdringbuf->rxbuf, XAXIDMA_BD_MINIMUM_ALIGNMENT, n); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingCreate(rxring) failed! ret=%d\n", ret); goto err; } printf("BdRing Rx count: %d\n", n); ret = XAxiDma_BdRingAlloc(rxring, 3, &bd); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingAlloc(rxring) failed! ret=%d\n", ret); goto err; } p = bd; for (i = 0; i < 3; i++) { XAxiDma_BdSetBufAddr(p, (uintptr_t)bram2_data[i].numbers_out); XAxiDma_BdSetLength(p, sizeof(bram2_data[i].numbers_out), rxring->MaxTransferLen); XAxiDma_BdSetCtrl(p, 0); XAxiDma_BdSetId(p, i); p = (XAxiDma_Bd *)XAxiDma_BdRingNext(rxring, p); } ret = XAxiDma_BdRingToHw(rxring, 3, bd); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingToHw(rxring) failed! ret=%d\n", ret); goto err; } // 开始发送数据 ret = XAxiDma_BdRingStart(txring); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingStart(txring) failed! ret=%d\n", ret); goto err; } // 开始接收数据 ret = XAxiDma_BdRingStart(rxring); if (ret != XST_SUCCESS) { printf("XAxiDma_BdRingStart(rxring) failed! ret=%d\n", ret); goto err; } // 等待收发结束 n = 0; while (n < 6) { // 检查发送是否结束 ret = XAxiDma_BdRingFromHw(txring, XAXIDMA_ALL_BDS, &bd); if (ret != 0) { n += ret; p = bd; for (i = 0; i < ret; i++) { printf("DMA Tx%lu Complete!\n", XAxiDma_BdGetId(p)); p = (XAxiDma_Bd *)XAxiDma_BdRingNext(txring, p); } ret = XAxiDma_BdRingFree(txring, ret, bd); if (ret != XST_SUCCESS) printf("XAxiDma_BdRingFree(txring) failed! ret=%d\n", ret); } // 检查接收是否结束 ret = XAxiDma_BdRingFromHw(rxring, XAXIDMA_ALL_BDS, &bd); if (ret != 0) { n += ret; p = bd; for (i = 0; i < ret; i++) { printf("DMA Rx%lu Complete!\n", XAxiDma_BdGetId(p)); p = (XAxiDma_Bd *)XAxiDma_BdRingNext(rxring, p); } ret = XAxiDma_BdRingFree(rxring, ret, bd); if (ret != XST_SUCCESS) printf("XAxiDma_BdRingFree(rxring) failed! ret=%d\n", ret); } } err: for (i = 0; i < _countof(bram2_data[0].numbers_out); i++) printf("numbers_out[%d]=%f,%f,%f\n", i, bram2_data[0].numbers_out[i], bram2_data[1].numbers_out[i], bram2_data[2].numbers_out[i]); cleanup_platform(); return 0; }图片

FPGA&ASIC # ASIC/FPGA

刘航宇 1年前
1 4,518 8
2024-08-23
FPGA/数字IC之FIFO深度计算 FIFO的深度计算问题1情况1:fa>fb，且在读和写中都没有空闲周期； 2情况2:fa>fb，两个连续的读写之间有一个时钟周期延迟； 3️情况3:fa>fb，在读和写中都有空闲周期； 4️情况4:fa>fb，读写使能的占空比给定； 5️情况5:fa<fb，在读和写中都没有空闲周期； 6情况6:fa<fb，在读和写中都有空闲周期 7情况7:fa=fb，在读和写中都没有空闲周期。 8️情况8:fa=fb，在写和读中都有空闲周期情况9:数据速率如下所示； 1️0情况10:以不同的形式给出写入和读取的规则。对于读写同时进行的FIFO，有一个简便计算公式 FIFO的深度计算问题 FIFO的最小深度问题，可以理解为两个模块之间的数据传输问题；只有在读取速度慢于写入速度的情况下，我们才需要一个FIFO，来暂时的寄存这些没有被读出去的数据；一个最主要的逻辑思想是：确定FIFO的大小，就是要找到在写入过程中没有被读取的数据的个数；即FIFO的深度等于未被读取的数据的数量。现在考虑一种实例，A时钟域数据发往B时钟域，将会出现以下几种情况： 1情况1:fa>fb，且在读和写中都没有空闲周期；例如：写入频率fa = 80MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。计算如下：写入一个数据需要的时间 = 1 / 80MHz = 12.5ns；写入突发事件中所有数据需要时间 = 120 * 12.5 = 1500ns；读取一个数所需时间 = 1 / 50MHz = 20ns；所有数据写入完成后使用1500ns，1500ns可以读出数据为 = 1500 / 20 = 75个。所以，要在FIFO中存储的剩余数据量为 120 - 75 = 45；故：设计的FIFO的最小深度为45！ 2情况2:fa>fb，两个连续的读写之间有一个时钟周期延迟；这种情况和情况1一样，仅仅是人为的制造了某种混乱； 3️情况3:fa>fb，在读和写中都有空闲周期；例如：写入频率fa = 80MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。两个连续的写之间空闲周期为1，两个连续的读之间空闲周期为3；计算如下：可以理解为每两个时钟周期写入一次数据，每四个时钟周期读出一个数据。写入一个数据需要的时间 = 2 (1 / 80MHz) = 2 12.5 = 25ns；写入突发事件中所有数据需要时间 = 120 * 25 = 3000ns；读取一个数所需时间 = 4 (1 / 50MHz) = 4 20 = 80ns；所有数据写入完成后使用3000ns，可以读出数据为 = 3000 / 80 = 37.5 ≈ 37个。所以，要在FIFO中存储的剩余数据量为120 - 37 = 83；故：设计的FIFO的最小深度为83！ 4️情况4:fa>fb，读写使能的占空比给定；例如：写入频率fa = 80MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。写使能占空比为50%，读使能占空比为25%。这种情况和情况3一样，没有什么区别；【注】这里的情况2️和情况4仅仅是为了说明同一个问题可以通过不同的方式来提问。 5️情况5:fa<fb，在读和写中都没有空闲周期；例如：写入频率fa = 30MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。计算如下：在这种情况下，深度为1的FIFO就足够了，因为不会有任何数据的丢失，因为读比写快。 6情况6:fa<fb，在读和写中都有空闲周期例如：写入频率fa = 30MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。两个连续的写之间空闲周期为1，两个连续的读之间空闲周期为3；计算如下：可以理解为每两个时钟周期写入一次数据，每四个时钟周期读出一个数据。写入一个数据需要的时间 = 2 (1 / 30MHz) = 2 33.33 = 66.667ns；写入突发事件中所有数据需要时间 = 120 * 66.667 = 8000ns；读取一个数所需时间 = 4 (1 / 50MHz) = 4 20 = 80ns；所有数据写入完成后使用8000ns，可以读出数据为 8000 / 80 = 100个。所以，要在FIFO中存储的剩余数据量为120 - 100 = 20；故：设计的FIFO的最小深度为20 7情况7:fa=fb，在读和写中都没有空闲周期。例如：写入/读取频率fa = fb = 30MHz。突发长度即要写入的数据数目为120个。计算如下：如果clka和clkb之间没有相位差，则不需要FIFO；如果clka和clkb之间有一定的相位差，一个深度为“1”的FIFO就够了。 8️情况8:fa=fb，在写和读中都有空闲周期例如：写入频率fa = 50MHz，读取频率fb = 50MHz。突发长度即要写入的数据数目为120个。两个连续的写之间空闲周期为1，两个连续的读之间空闲周期为3；计算如下：可以理解为每两个时钟周期写入一次数据，每四个时钟周期读出一个数据。写入一个数据需要的时间 = 2 (1 / 50MHz) = 2 20 = 40ns；写入突发事件中所有数据需要时间 = 120 * 40 = 4800ns；读取一个数所需时间 = 4 (1 / 50MHz) = 4 20 = 80ns；所有数据写入完成后使用4800ns，可以读出的数据为4800 / 80 = 60个。所以，要在FIFO中存储的剩余数据量为120 - 60 = 60；故：设计的FIFO的最小深度为60！情况9:数据速率如下所示；例如：写入80个数据，需要100个时钟周期，(写入的时钟随机)；读出8个数据，需要10个时钟周期，(读取的时钟随机)。计算如下： ①上述表明，书写频率等于读出频率 ②读和写都可以在任何随机的时刻发生，以下是一些可能性。图片在上述情况中，完成写入所需的周期如下：图片在FIFO设计中，为了更稳妥的考虑，我们选择最坏的情况下进行数据传输，以此来设计FIFO的深度，以避免数据丢失；最坏的情况即：写和读之间的数据率差异应该最大，因此对于写操作，考虑最大的数据速率，对于读操作，考虑最小的数据速率。故：考虑上述可能性中的第四种情况(即所谓的“背靠背”情况)：计算如下： 160个时钟周期内，写入160个数据；数据的读取率为8个数据/10个时钟周期；在160个时钟周期内可以读取的数据量为：160 * 8 / 10 = 128。因此，需要存储在FIFO中的剩余字节数为160 - 128 = 32。故：设计的FIFO的最小深度为32！ 1️0情况10:以不同的形式给出写入和读取的规则。例如： fa = fb / 4； Tenb = Ta * 100； enb的占空比为25%。计算如下：在这种情况下，就需要假设一些数值：设：fb = 100MHz。则，fa = 1 / 4 * 100 = 25MHz。则：Ta = 40ns，Tenb = 4000ns；又因为写使能占空比25%。则：写使能时间为4000ns / 4 = 1000ns。【注】此处认为fb为写时钟，因为只有这样，才能是写入的比读出的快，当然了，把fa当做写时钟，下面就没法算了，哈哈。突发长度 = 1000ns / 10ns = 100个；在写入的1000ns内，可以读出 1000ns / 40ns = 25个；所以，要在FIFO中存储的剩余数据量为100 - 25 = 75；故：设计的FIFO的最小深度为75！例如假设两个异步时钟clk_a和clk_b，clk_a = 148.5M，clk_b = 140M。如图所示，clk_a时钟域中连续1920个16bit的数据通过data_valid标记，有效数据之后，紧接着720个无效数据时钟周期。请问，该数据通过异步fifo同步到clk_b时钟域，异步fifo的最小深度是多少？请写出计算过程。图片【解析】考虑情况9️中case-4案例，即所谓的“背靠背”情况：在a时钟域通过1920 * 2 = 3840个Ta传输3840个数据； Ta = 1 / 148.5MHz ≈ 6.734ns； Tb = 1 / 140MHz ≈ 7.143ns。 3840 * 6.734 = 25858.56ns；在25858.56ns内，通过clk_b读取的个数为:25858.56 / 7.143 ≈ 3620个。那么，剩余未读完的个数为3840 - 3620 = 220；即FIFO的深度最小为220。【注】在此情况下，理解清楚规则非常之重要！对于读写同时进行的FIFO，有一个简便计算公式 FIFO_Depth >= Burst_length -Burst_length (rd_clk/ wr_clk)(rd_rate) 最后，需要注意的是，我们在本文通篇计算的都是最小FIFO深度，但是在实际应用中，尤其是异步FIFO的应用中，需要使用格雷码计数，这就要求FIFO的深度为2的整数次幂，否则格雷码计数到最大值跳变为0时，将出现多位变化的情况，不符合设计。异步FIFO深度不是2的整数次幂情况下，则可能需要特殊处理，需要使用别的编码方式了。

FPGA&ASIC # ASIC/FPGA

刘航宇 2年前
1 957 2
2024-06-27
FPGA/数字IC-常考八股各种时间概念亚稳态的产生如何防止亚稳态？多时域设计中,如何处理信号跨时域？什么是竞争与冒险现象?怎样判断?如何消除? 锁存器(Latch)和寄存器(Flip-Flop)概念和区别 `timescale 阻塞赋值&非阻塞赋值流水线函数&任务不可综合verilog语句一些小计算总结各种时间概念建立时间（setup time）是指在触发器的时钟信号上升沿到来以前，数据稳定不变的时间，如果建立时间不够，数据将不能在这个时钟上升沿被打入触发器。保持时间（hold time）是指在触发器的时钟信号上升沿到来以后，数据稳定不变的时间，如果保持时间不够，数据同样不能被打出触发器。图片传输延时（transmission delay）数据相对于时钟上升沿tc-q后从触发器输出至Q端，则tc-q称为寄存器的传输延时恢复时间（recovery time）原本有效的复位信号释放后，与紧跟其后的第一个时钟上升沿之间的最小时间。清除时间（removal time）时钟信号的上升沿，与紧跟其后异步复位信号从有效到无效的最小时间。亚稳态的产生在FPGA系统中，如果数据传输中不满足触发器的 Tsu 和 Th 不满足，或者复位过程中复位信号的释放相对于有效时钟沿的恢复时间（recovery time）不满足，就可能产生亚稳态，此时触发器输出端Q在有效时钟沿之后比较长的一段时间处于不确定的状态，在这段时间里Q端在0和1之间处于振荡状态，而不是等于数据输入端D的值。这段时间称为决断时间（resolution time）。经过resolution time之后Q端将稳定到0或1上，但是稳定到0或者1，是随机的，与输入没有必然的关系。如何防止亚稳态？亚稳态是指触发器无法在某个规定时间段内达到一个可确认的状态。当一个触发器进入亚稳态时，既无法预测该单元的输出电平，也无法预测何时输出才能稳定在某个正确的电平上。在这个稳定期间，触发器输出一些中间级电平，或者可能处于振荡状态，并且这种无用的输出电平可以沿信号通道上的各个触发器级联式传播下去。解决方法： 1 降低系统时钟频率 2 用反应更快的FF 3 引入同步机制，防止亚稳态传播（加两级D触发器）。 4 改善时钟质量，用边沿变化快速的时钟信号多时域设计中,如何处理信号跨时域？不同的时钟域之间信号通信时需要进行同步处理，这样可以防止新时钟域中第一级触发器的亚稳态信号对下级逻辑造成影响。解决方法： 1 信号跨时钟域同步：当单个信号跨时钟域时，可以采用两级触发器来同步； 2 数据或地址总线跨时钟域：可以采用异步 FIFO 来实现时钟同步； 3 第三种方法就是采用握手信号。什么是竞争与冒险现象?怎样判断?如何消除? 在组合电路中，门电路两个输入信号同时向相反的逻辑电平跳变称为竞争；由于竞争而在电路的输出端可能产生尖峰脉冲的现象称为竞争冒险。（也就是由于竞争产生的毛刺叫做冒险）。判断方法： •代数法：如果布尔式中有相反的信号则可能产生竞争和冒险现象，即逻辑函数在一定条件下可以化简成 Y=A+A’或 Y=AA’则可以判断存在竞争冒险现象（只是一个变量变化的情况）； •卡诺图：有两个相切的卡诺圈并且相切处没有被其他卡诺圈包围，就有可能出现竞争冒险； •实验法+观察法：示波器观测；解决方法： 1：加滤波电容，消除毛刺的影响； 2：加选通信号，避开毛刺； 3：增加冗余项消除逻辑冒险。锁存器(Latch)和寄存器(Flip-Flop)概念和区别电平敏感的存储器件称为锁存器。可分为高电平锁存器和低电平锁存器，用于不同时钟之间的信号同步。有交叉耦合的门构成的双稳态的存储原件称为触发器（寄存器）。分为上升沿触发和下降沿触发。可以认为是两个不同电平敏感的锁存器串连而成。前一个锁存器决定了触发器的建立时间，后一个锁存器则决定了保持时间。 latch 是电平触发， register 是边沿触发。 register 在同一时钟边沿触发下动作，符合同步电路的设计思想，而 latch 则属于异步电路设计，往往会导致时序分析困难，不适当的应用 latch 则会大量浪费芯片资源。 `timescale `timescale 1ns / 1ps，含义为：时延单位为1ns，时延精度为1ps 在仿真文件里面需要写，例如 `timescale 10 ns / 1 ns //单位10ns，精度1ns module test; reg set; initial begin #1 set = 0; //1*10 ns = 10ns #10 set = 1; //10*10ns = 100ns end endmodule阻塞赋值&非阻塞赋值阻塞赋值“=”属于顺序执行，即下一条语句执行前，当前语句一定会执行完毕非阻塞赋值“<=”属于并行执行语句，即下一条语句的执行和当前语句的执行是同时进行的在设计电路时，always 时序逻辑块中多用非阻塞赋值，always 组合逻辑块中多用阻塞赋值；在仿真电路时，initial 块中一般多用阻塞赋值不要在一个过程结构中混合使用阻塞赋值与非阻塞赋值流水线流水线设计是verilog设计中基本功之一，是对组合逻辑系统的分割，并在各个部分之间插入寄存器，并暂存中间数据的方法。流水线操作的目的是把一个大操作分解为若干小操作，因为每一步操作变小了，所以时间更短，频率更快（面积换时间）。流水线在理各个阶段都需要增加寄存器保存中间计算状态，而且多条指令并行执行会导致功耗增加，硬件复杂度增加函数&任务函数返回一个值，而任务则不返回值函数至少要有一个输入变量，而任务可以没有或有多个任何类型的变量。函数只能与主模块共用同一个仿真时间单位，而任务可以定义自己的仿真时间单位。函数不能启动任务，而任务能够启动其他任务和函数。不可综合verilog语句（1）initial：只能在test bench中使用，不能综合。（2）events：event在同步test bench时更有用，不能综合。（3）real：不支持real数据类型的综合。（4）time：不支持time数据类型的综合。（5）force 和release：不支持force和release的综合。 (6）assign 和deassign：不支持对reg 数据类型的assign或deassign进行综合，支持对wire数据类型的assign或deassign进行综合。 (7) fork join：不可综合，可以使用非块语句达到同样的效果。 (8) primitives：支持门级原语的综合，不支持非门级原语的综合。 (9) table：不支持UDP 和table的综合。 (10) 敏感列表里同时带有posedge和negedge 如：always @(posedge clk or negedge clk) begin...end 这个always块不可综合。 (11) 同一个reg变量被多个always块驱动 (12) 延时以#开头的延时不可综合成硬件电路延时，综合工具会忽略所有延时代码，但不会报错。如：a=#10 b; 这里的#10是用于仿真时的延时，在综合的时候综合工具会忽略它。也就是说，在综合的时候上式等同于a=b; (13) 与X、Z的比较可能会有人喜欢在条件表达式中把数据和X(或Z)进行比较，殊不知这是不可综合的，综合工具同样会忽略。所以要确保信号只有两个状态：0或1。功耗（Power）等于处理器上的电流值与电压值的乘积，可以反应处理器最大负荷运行、满载工作时电流热效应造成热量释放的大小指标，单位为瓦(W)。总功耗由静态和动态两部分组成 PGA芯片内有两种存储器资源：一种叫block ram，另一种是由LUT配置成的内部存储器（也就是分布式ram）。block ram由一定数量固定大小的存储块构成的，使用block ram，不占用额外的逻辑资源，并且速度快。但是使用的时钟消耗block ram的资源是其大小的整数倍。 FPGA时钟结构：全局时钟、局部时钟和I/O时钟 MMCM、PLL即时钟管理模块，用来消除时钟的延迟、抖动以及产生各种不同频率的时钟。 MMCM相对PLL的优势就是相位可动态调整，但PLL占用的面积更小。一个属于单片机STM32（顺序处理），一个属于可编程阵列FPGA（并行处理） RAM随机读取存储器，掉电丢失 ROM只读存储器 Flash memory 是“闪存” EEPROM可以一次只擦除一个字节单端口RAM：只有一组地址线数据线伪双口RAM，一个端口只读，一个端口只写同步复位&异步复位同步复位：只有在时钟沿到来时复位信号才起作用，复位信号持续的时间应该超过一个时钟周期才能保证系统复位异步复位：复位信号容易受到毛刺的影响。复位结束时刻恰在亚稳态窗口内时异步复位同步释放最好当异步复位有效时，复位信号立刻复位信号释放时，会在时钟上升沿来临时，才可以恢复一些小计算总结 %0表示用最少位数表示进行取模运算%时，结果值的符号位采用模运算式里第一个操作数的符号位对于有符号数来说：若符号位为1，使用>>>，高位补1；若符号位为0，使用>>>，高位补0；对于无符号数来说，无论最高位是什么，使用>>>，高位都补0。标识符可以是任意一组数字、字母、$符合和下划线的组合，但第一个字符必须是字母或者下划线

FPGA&ASIC # ASIC/FPGA

刘航宇 2年前
0 2,106 5
Verilog语言实现读写txt文件方法随着项目难度递增，例如AI芯片设计，不免需要验证Verilog的功能性，那么输入可以是测试集.txt，输出为预测结果/精确率.txt。下面讲解一下Verilog如何实现读写txt文件一、读txt文件二、写txt文件 $display语句的使用 demo案例一、读txt文件 1、准备一个txt文件 MATLAB上生成的txt文件的格式为每行一个数据，与coe文件不同的是，数据之间没有逗号。由于verilog的读txt的系统函数仅仅能识别十六进制和二进制数据，一般情况下，将数据转换为十六进制数比较方便。当数据为有符号数时，可以采用下面的方式生成txt文件： % 生成20个随机的int16类型数据 data_signed = int16(randi([-32768, 32767], 1, 20)); % 打开文件准备写入 fid = fopen('data_signed.txt', 'w'); % 将data_signed数组中的数据转换为无符号整数并以16进制格式写入文件 fprintf(fid, '%04x\r\n', typecast(data_signed, 'uint16')); % 关闭文件 fclose(fid);图片图片其中，typecast(int16(data_signed),‘uint16’) 可以将数据转变为补码形式。同时，需要注意的是，在换行中，需要采用’\r\n‘，不能仅仅使用’\r’ 2、在testbench上读写读txt文件时，一般选择先将txt中的数据置入寄存器memory中，然后按照地址读出memory中的数据。 reg [15:0] mem [0:1023]; reg [9:0] addr ; reg [11:0]data_out ; initial begin $readmemh("E:/self-study/VIVADO_workspace/prj/data_signed.txt",mem); addr = 10'd0; end always #10 begin data_out = mem[addr][11:0]; addr = addr + 10'd1; end需要注意的是，txt文件的地址不能出错，另外，注意地址分隔符需要用’/‘，windos系统中的’\‘需要对应改过来才能使用。二、写txt文件 integer handle; initial begin handle = $fopen("E:/self-study/VIVADO_workspace/prj/data_out.txt"); end always@(posedge sys_clk) begin if(data_in_valid) begin $fdisplay(handle,"%d",data_out); end end利用initial函数初始化handle的值，另外，地址分隔符同样要改回来。如果仿真之后，txt文件中并没有内容，可以尝试刷新一下txt文件。如果还没有内容出现，则就是txt文件没有关闭造成的，解决方法有两种： ①直接关闭xsim仿真程序，此时txt文件自动关闭，内容出现。 ②使用$fclose函数关闭文件，如果使能变量aagc_in_valid是一段高电平信号，则可以检测该信号的下降沿，在此时关闭文件即可： reg [2:0] valid_reg; always@(posedge sys_clk) begin valid_reg <= {valid_reg[1:0],data_in_valid}; if(valid_reg == 3'b110) begin $fclose(handle); end end甚至于，直接写一个计数器，也是可以的。 $display语句的使用在功能仿真阶段调试程序时，$display是很有用的一段程序，它和java，c语言中的打印语句使用方法是相似的，可以把变量和语句运行状况打在TCL log的窗口上，供调试者知晓代码运行情况。 $display("here is a debugging point."); $display("%d", data_in);demo案例 module wr_txt_tb; reg [15:0] mem [0:1023]; reg [9:0] addr; reg [15:0] data_out; initial begin $readmemh("E:/Downloads/data_signed.txt", mem); addr = 10'd0; end always #10 begin if (addr < 10'd20) begin // 假设您只想读取前20个数据 data_out = mem[addr][15:0]; addr = addr + 10'd1; $display("here is a debugging point."); $display("%h", data_out); // 以十六进制形式打印 end else begin $stop; // 结束仿真 end end endmodule图片图片

FPGA&ASIC # ASIC/FPGA

刘航宇 2年前
0 1,233 3
2023-12-11
大疆题解：跨时钟域脉冲信号处理—脉冲同步器（快到慢）问题描述题解1.1 电路波形图 1.2 代码注意问题描述 sig_a 是 clka（300M）时钟域的一个单时钟脉冲信号（高电平持续一个时钟clka周期），请设计脉冲同步电路，将sig_a信号同步到时钟域 clkb（100M）中，产生sig_b单时钟脉冲信号（高电平持续一个时钟clkb周期）输出。请用 Verilog 代码描述。 clka时钟域脉冲之间的间隔很大，无需考虑脉冲间隔太小的问题。电路的接口如下图所示：图片题解 1.1 电路波形图图片如上图所述，aclk快时钟域发送的信号signal_a，慢时钟域的时钟bclk根本就采集不到，此时不能使用打两拍的方式，要想办法转换思路，如果能够让同步于快时钟域aclk下的脉冲信号signal_a变长到可以让慢时钟域bclk检测到，那么这个问题就可以完美解决了。所以先将快时钟域clka下的脉冲信号signal_a，在快时钟域clka的作用下，变为沿信号，产生一个名为adata的中间变量来作为脉冲信号signal_a的沿信号。如上图所示，每当快时钟域aclk检测到signal_a脉冲信号为高时，让adata信号取反，使得signal_a的第一个脉冲变为adata信号的上升沿，signal_a的第二个脉冲变为adata信号的下降沿，后面如果Signal_a信号还有脉冲依然是变为adata信号的上升沿和下降沿。巧妙的利用将“脉冲信号”转化为“沿信号”的思想就可以使慢时钟域的时钟bclk检测到同步于快时钟域aclk且将脉冲信号signal_a转化为沿信号adata，相当于是把同步于快时钟域aclk的脉冲信号signal_a进行了展宽处理，这样我们就把快时钟域aclk的脉冲信号signal_a通过adata信号“沿”的形式在慢时钟域bclk中得到了保留。接着，我们再对adata信号做打两拍的处理就可以将adata信号同步到慢时钟域clkb中了。bdata0信号是adata信号在慢时钟域bclk下打的第一拍，bdata1信号是adata信号在慢速时钟域bclk下打第二拍，bdata1就是同步于慢速时钟域bclk的稳定信号。最后，采用边沿检测的方法，将变为bdata1信号的“沿”再转化为脉冲信号，这里我们使用的方法是采用异或门。需要注意的是不能直接使用bdata0和bdata1来产生沿标志信号，因为bdata0信号的不稳定性可能会导致产生的沿信号也不稳定，所以需要将bdata1信号再打一拍，产生signal_b信号。 1.2 代码 //快时钟数据同步 module pulse_detect( input clka , input clkb , input rst_n , input sig_a , output sig_b ); wire sig_a; reg adata; reg bdata0; reg bdata1; reg bdata2; always @(posedge clka or negedge rst_n) begin if(~rst_n) begin adata <= 1'd0; end else begin adata <= adata ^ sig_a; end end always @(posedge clkb or negedge rst_n) begin if(~rst_n) begin bdata0 <= 1'd0; bdata1 <= 1'd0; bdata2 <= 1'd0; end else begin bdata0 <= adata; bdata1 <= bdata0; bdata2 <= bdata1; end end assign sig_b = bdata1 ^ bdata2; endmodule注意 signal_a是两个脉冲，但是使用“脉冲同步”同步到bclk时钟域确只有一个脉冲了，在使用“脉冲同步”时应注意这一点。所以，脉冲同步一般适用于单比特信号从快时钟域传递慢时钟域的场景。

FPGA&ASIC # ASIC/FPGA # Verilog

刘航宇 3年前
0 977 3
2023-11-20
超声模块HC_SR04基本原理与FPGA、STM32应用 HC-SR04硬件概述接口定义: 模式选择：测量操作: FPGA实现超声测距模块代码 ifndef HCSR04_H_ define HCSR04_H_ include "main.h" include "delay.h" endif / HCSR04_H_ / include "hc-sr04.h" include "hc-sr04.h" include "printf.h" HC-SR04 硬件概述 HC-SR04超声波距离传感器的核心是两个超声波传感器。一个用作发射器，将电信号转换为40 KHz超声波脉冲。接收器监听发射的脉冲。如果接收到它们，它将产生一个输出脉冲，其宽度可用于确定脉冲传播的距离。就是如此简单！该传感器体积小，易于在任何机器人项目中使用，并提供2厘米至600厘米（约1英寸至13英尺）之间出色的非接触范围检测，精度为3mm。图片接口定义: 图片模式选择：图片测量操作: 一：GPIO模式图片外部MCU给模块Trig脚一个大于10uS的高电平脉冲；模块会给出一个与距离等比的高电平脉冲信号，可根据脉宽时间“T” 算出：距离=T*C/2 （C为声速）声速温度公式：c=(331.45+0.61t/℃)m•s-1 (其中330.45是在0℃） 0℃声速： 330.45M/S 20℃声速： 342.62M/S 40℃声速： 354.85M/S0℃-40℃声速误差7%左右。实际应用，如果需要精确距离值，必需要考虑温度影响，做温度补偿。二：UART模式 UART 模式波特率设置： 9600 N 1 图片连接串口。外部MCU或PC发命令0XA0，模块完成测距后发3个返回距离数据，BYTE_H，BYTE_M与BYTE_L。距离计算方式如下（单位mm）：距离=(（BYTE_H<<16）+（BYTE_M<<8）+ BYTE_L)/1000 三：IIC模式 IIC地址： 0X57 IIC传输格式：写数据：图片读数据：图片命令格式：图片向模块写入0X01，模块开始测距；等待200mS(模块最大测距时间) 以上。直接读出3个距离数据。BYTE_H，BYTE_M与BYTE_L。距离计算方式如下（单位mm）：距离=(（BYTE_H<<16）+（BYTE_M<<8）+ BYTE_L)/1000 FPGA实现超声测距本次测距教程一律按基本原理实现，至于UART、ICC测距原理可以网上查询 FPGA 产生周期性的 TRIG 脉冲信号，使得超声波模块周期性发出测距脉冲，当这些脉冲发出后遇到障碍物返回，超声波模块将返回的脉冲处理整形后返回给 FPGA，即 ECHO 信号。我们通过对 ECHO 信号的高脉冲保持时间就可以推算出超声波脉冲和障碍物之间的距离。本实例的功能如图三所示，FPGA 产生 10us 脉冲 TRIG 给超声波测距模块，然后以 10us 为单位计算超声波测距模块返回的回响信号 ECHO 的高电平保持时间。ECHO 的高电平保持时间通过一定的换算后可以得到障碍物和超声波测距模块之间的距离（由距离公式计算&进制换算模块实现），我们将最终获得的以 mm 为单位的距离信息显示在 4 位数码管上。图片模块代码 1、vlg_en模块 /* * @Author: Hangyu Liu * @Date: 2023-11-20 15:24:01 * @Email: hyliu@ee.ac.cn * @Descripttion: 板子时钟转化1us * @Last Modified time: 2023-11-20 15:24:01 */ //1us/50ns=20 module vlg_1us#(parameter P_CLK_PERIORD = 50) //i_clk的时钟周期50ns,20MHZ ( input i_clk, input i_rst_n, output reg o_clk //时钟周期1us ); parameter NUM_DIV = 20;// (1MHZ = 1us,20MHZ/20 = 1MHZ) reg [3:0] cnt; always @(posedge i_clk or negedge i_rst_n) begin if(!i_rst_n) begin cnt <= 4'd0; o_clk <= 1'b0; end else if(cnt == NUM_DIV/2 - 1) begin cnt <= 4'b0; o_clk <= ~o_clk; end else cnt <= cnt + 1'b1; end endmodule2、vlg_trig模块 /* * @Author: Hangyu Liu * @Date: 2023-11-20 16:50:44 * @Email: hyliu@ee.ac.cn * @Descripttion: 产生10us的触发超声信号 * @Last Modified time: 2023-11-20 16:50:44 */ module vlg_trig ( input i_rst_n, input clk_1us, //1us output reg o_trig ); reg[17:0] r_tricnt; //200ms的周期计数 1us一个单位 always @(posedge clk_1us or negedge i_rst_n)begin if(!i_rst_n) r_tricnt <= 18'd0; else if((r_tricnt == 18'd199999)) r_tricnt <= 18'd0; else r_tricnt <= r_tricnt + 1'b1; end //产生保持10us的高脉冲o_tring信号 always @(posedge clk_1us or negedge i_rst_n) begin if(!i_rst_n) o_trig<=1'b0; else if((r_tricnt > 18'd0) && (r_tricnt <= 18'd10)) o_trig <= 1'b1; //不从0开始0~9，防止出现不到10us的波干扰 else o_trig <= 1'b0; end endmodule3、vlg_echo模块 module vlg_echo ( input i_clk, //1us input i_rst_n, input i_clk_1us, input i_echo, output reg[15:0] o_t_us ); reg[1:0] r_echo; wire pos_echo,neg_echo; reg r_cnt_en; reg[15:0] r_echo_cnt; //对i_echo信号同步处理，获取边沿检测信号，产生计数使能信号r_cnt_en always @(posedge i_clk or negedge i_rst_n) begin if(!i_rst_n) r_echo <= 2'd0; else r_echo <= {r_echo[0],i_echo}; //设置两个寄存器进行打拍寄存 end assign pos_echo = r_echo[0] & ~r_echo[1]; //现状态是1上状态是0，就是上升沿 assign neg_echo = ~r_echo[0] & r_echo[1]; always @(posedge i_clk or negedge i_rst_n) begin if(!i_rst_n) r_cnt_en <= 1'b0; else if(pos_echo) r_cnt_en <= 1'b1; else if(neg_echo) r_cnt_en <= 1'b0; else r_cnt_en <= r_cnt_en; end //对i_echo信号的高脉冲计时，以us为单位 always @(posedge i_clk_1us or negedge i_rst_n) begin if(!i_rst_n) r_echo_cnt <= 1'b0; else if(r_cnt_en) r_echo_cnt <= r_echo_cnt + 1'b1; else r_echo_cnt <= 1'b0; end //在下降沿对计数最大值进行保存 always @(negedge i_clk or negedge i_rst_n) begin if(!i_rst_n) o_t_us <= 16'd0; else if(neg_echo) o_t_us <= r_echo_cnt; else o_t_us <= o_t_us; end endmodule 4、顶层模块例化/* @Author: Hangyu Liu @Date: 2023-11-23 17:16:40 @Email: hyliu@ee.ac.cn @Descripttion:HR04驱动模块 @Last Modified time: 2023-11-23 17:16:40 */ module vlg_design ( input i_clk, //200MHZ input i_rst_n, input i_echo, //这是超声模块给的输入 output o_trig, output wire[15:0] w_t_us); wire clk_20MHZ; clk_div_20MHZ UU( .i_clk(i_clk), .i_rst_n(i_rst_n), .clk_div(clk_20MHZ)); localparam P_CLK_PERIORD = 50; wire clk_1us; //使能时钟产生模块 vlg_1us #( .P_CLK_PERIORD(P_CLK_PERIORD) //i_clk的时钟周期50ns,20MHZ)U1( .i_clk(clk_20MHZ), .i_rst_n(i_rst_n), .o_clk(clk_1us)); //产生超声波测距模块的触发信号o_trig vlg_trig U2( .i_rst_n(i_rst_n), .clk_1us(clk_1us), .o_trig(o_trig)); //超声波测距模块的回响信号i_echo的高电平时间采集 vlg_echo U3( .i_clk(clk_20MHZ), .i_rst_n(i_rst_n), .i_clk_1us(clk_1us), .i_echo(i_echo), .o_t_us(w_t_us)); endmodule ## STM32(Cubemax)实现超声波测距 ### CubeMX配置STM32 1 时钟配置这里我用的是STM32F103C8T6的核心板，时钟配置如下图，我用了8MHz的HSE，HCLK调到了最大值72MHz ![](https://pic.imgdb.cn/item/655b5cf4c458853aef446541.jpg) 2 设置输入捕获的定时器设置定时器TIM2每1us向上计数一次，通道4为上升沿捕获并连接到超声波模块的ECHO引脚，记得开启定时器中断（涉及到捕获中断+定时器溢出中断）。 ![](https://pic.imgdb.cn/item/655b5d89c458853aef473cc2.jpg) 3 触发引脚 PB10接到了HC-SR04的TIRG触发引脚，默认输出低电平 ![](https://pic.imgdb.cn/item/655b5e9ac458853aef4c9def.jpg) 4 串口配置还要开启一个串口，以便通过串口查看测距结果 ![](https://pic.imgdb.cn/item/655b5ecec458853aef4dbe35.jpg) ### 编写代码 hc-sr04.hifndef HCSR04_H_ define HCSR04_H_ include "main.h" include "delay.h" typedef struct { uint8_t edge_state; uint16_t tim_overflow_counter; uint32_t prescaler; uint32_t period; uint32_t t1; // 上升沿时间 uint32_t t2; // 下降沿时间 uint32_t high_level_us; // 高电平持续时间 float distance; TIM_TypeDef* instance;uint32_t ic_tim_ch; HAL_TIM_ActiveChannel active_channel;}Hcsr04InfoTypeDef; extern Hcsr04InfoTypeDef Hcsr04Info; /** @description: 超声波模块的输入捕获定时器通道初始化 @param {TIM_HandleTypeDef} *htim @param {uint32_t} Channel @return {*} */ void Hcsr04Init(TIM_HandleTypeDef *htim, uint32_t Channel); /** @description: HC-SR04触发 @param {*} @return {*} */ void Hcsr04Start(); /** @description: 定时器计数溢出中断处理函数 @param {} main.c中重定义void HAL_TIM_PeriodElapsedCallback(TIM_HandleTypeDef htim) @return {*} */ void Hcsr04TimOverflowIsr(TIM_HandleTypeDef *htim); /** @description: 输入捕获计算高电平时间->距离 @param {} main.c中重定义void HAL_TIM_IC_CaptureCallback(TIM_HandleTypeDef htim) @return {*} */ void Hcsr04TimIcIsr(TIM_HandleTypeDef* htim); /** @description: 读取距离 @param {*} @return {*} */ float Hcsr04Read(); endif / HCSR04_H_ / hc-sr04.cinclude "hc-sr04.h" Hcsr04InfoTypeDef Hcsr04Info; /** @description: 超声波模块的输入捕获定时器通道初始化 @param {TIM_HandleTypeDef} *htim @param {uint32_t} Channel @return {*} */ void Hcsr04Init(TIM_HandleTypeDef *htim, uint32_t Channel) { /--------[ Configure The HCSR04 IC Timer Channel ] / // MX_TIM2_Init(); // cubemx中配置 Hcsr04Info.prescaler = htim->Init.Prescaler; // 72-1 Hcsr04Info.period = htim->Init.Period; // 65535 Hcsr04Info.instance = htim->Instance; // TIM2 Hcsr04Info.ic_tim_ch = Channel; if(Hcsr04Info.ic_tim_ch == TIM_CHANNEL_1) { Hcsr04Info.active_channel = HAL_TIM_ACTIVE_CHANNEL_1; // TIM_CHANNEL_4} else if(Hcsr04Info.ic_tim_ch == TIM_CHANNEL_2) { Hcsr04Info.active_channel = HAL_TIM_ACTIVE_CHANNEL_2; // TIM_CHANNEL_4} else if(Hcsr04Info.ic_tim_ch == TIM_CHANNEL_3) { Hcsr04Info.active_channel = HAL_TIM_ACTIVE_CHANNEL_3; // TIM_CHANNEL_4} else if(Hcsr04Info.ic_tim_ch == TIM_CHANNEL_4) { Hcsr04Info.active_channel = HAL_TIM_ACTIVE_CHANNEL_4; // TIM_CHANNEL_4} else if(Hcsr04Info.ic_tim_ch == TIM_CHANNEL_4) { Hcsr04Info.active_channel = HAL_TIM_ACTIVE_CHANNEL_4; // TIM_CHANNEL_4} /--------[ Start The ICU Channel ]-------/ HAL_TIM_Base_Start_IT(htim); HAL_TIM_IC_Start_IT(htim, Channel); } /** @description: HC-SR04触发 @param {*} @return {*} */ void Hcsr04Start() { HAL_GPIO_WritePin(TRIG_GPIO_Port, TRIG_Pin, GPIO_PIN_SET); DelayUs(10); // 10us以上 HAL_GPIO_WritePin(TRIG_GPIO_Port, TRIG_Pin, GPIO_PIN_RESET); } /** @description: 定时器计数溢出中断处理函数 @param {} main.c中重定义void HAL_TIM_PeriodElapsedCallback(TIM_HandleTypeDef htim) @return {*} */ void Hcsr04TimOverflowIsr(TIM_HandleTypeDef *htim) { if(htim->Instance == Hcsr04Info.instance) // TIM2 { Hcsr04Info.tim_overflow_counter++;} } /** @description: 输入捕获计算高电平时间->距离 @param {} main.c中重定义void HAL_TIM_IC_CaptureCallback(TIM_HandleTypeDef htim) @return {*} */ void Hcsr04TimIcIsr(TIM_HandleTypeDef* htim) { if((htim->Instance == Hcsr04Info.instance) && (htim->Channel == Hcsr04Info.active_channel)) { if(Hcsr04Info.edge_state == 0) // 捕获上升沿 { // 得到上升沿开始时间T1，并更改输入捕获为下降沿 Hcsr04Info.t1 = HAL_TIM_ReadCapturedValue(htim, Hcsr04Info.ic_tim_ch); __HAL_TIM_SET_CAPTUREPOLARITY(htim, Hcsr04Info.ic_tim_ch, TIM_INPUTCHANNELPOLARITY_FALLING); Hcsr04Info.tim_overflow_counter = 0; // 定时器溢出计数器清零 Hcsr04Info.edge_state = 1; // 上升沿、下降沿捕获标志位 } else if(Hcsr04Info.edge_state == 1) // 捕获下降沿 { // 捕获下降沿时间T2，并计算高电平时间 Hcsr04Info.t2 = HAL_TIM_ReadCapturedValue(htim, Hcsr04Info.ic_tim_ch); Hcsr04Info.t2 += Hcsr04Info.tim_overflow_counter * Hcsr04Info.period; // 需要考虑定时器溢出中断 Hcsr04Info.high_level_us = Hcsr04Info.t2 - Hcsr04Info.t1; // 高电平持续时间 = 下降沿时间点 - 上升沿时间点 // 计算距离 Hcsr04Info.distance = (Hcsr04Info.high_level_us / 1000000.0) * 340.0 / 2.0 * 100.0; // 重新开启上升沿捕获 Hcsr04Info.edge_state = 0; // 一次采集完毕，清零 __HAL_TIM_SET_CAPTUREPOLARITY(htim, Hcsr04Info.ic_tim_ch, TIM_INPUTCHANNELPOLARITY_RISING); }} } /** @description: 读取距离 @param {*} @return {*} */ float Hcsr04Read() { // 测距结果限幅 if(Hcsr04Info.distance >= 450) { Hcsr04Info.distance = 450;} return Hcsr04Info.distance; } main.c 1、引用对应的头文件/ USER CODE BEGIN Includes / include "hc-sr04.h" include "printf.h" / USER CODE END Includes / 2、200ms测距一次/** @brief The application entry point. @retval int */ int main(void) { / USER CODE BEGIN 1 / / USER CODE END 1 / / MCU Configuration--------------------------------------------------------/ / Reset of all peripherals, Initializes the Flash interface and the Systick. / HAL_Init(); / USER CODE BEGIN Init / / USER CODE END Init / / Configure the system clock / SystemClock_Config(); / USER CODE BEGIN SysInit / / USER CODE END SysInit / / Initialize all configured peripherals / MX_GPIO_Init(); MX_TIM2_Init(); MX_USART1_UART_Init(); / USER CODE BEGIN 2 / DelayInit(72); Hcsr04Init(&htim2, TIM_CHANNEL_4); // 超声波模块初始化 Hcsr04Start(); // 开启超声波模块测距 printf("hc-sr04 start!\r\n"); / USER CODE END 2 / / Infinite loop / / USER CODE BEGIN WHILE / while (1) { // 打印测距结果 printf("distance:%.1f cm\r\n", Hcsr04Read()); Hcsr04Start(); DelayMs(200); // 测距周期200ms /* USER CODE END WHILE */ /* USER CODE BEGIN 3 */} / USER CODE END 3 / } 3、重定义定时器的中断服务函数/ USER CODE BEGIN 4 / /** @description: 定时器输出捕获中断 @param {TIM_HandleTypeDef} *htim @return {*} */ void HAL_TIM_IC_CaptureCallback(TIM_HandleTypeDef *htim) { Hcsr04TimIcIsr(htim); } /** @description: 定时器溢出中断 @param {*} @return {*} */ void HAL_TIM_PeriodElapsedCallback(TIM_HandleTypeDef* htim) { Hcsr04TimOverflowIsr(htim); } / USER CODE END 4 / 4、串口打印结果

嵌入式＆系统 FPGA&ASIC # ASIC/FPGA # 嵌入式

刘航宇 3年前
0 1,302 2
嵌入式/SOC开发利器-ZYNQ简介与入门 ZYNQ是什么？ ZYNQ为什么厉害 ZYNQ的结构开发工具 ZYNQ开发流程 ZYNQ是什么？这是一款由Xilinx公司开发的集成了ARM处理器和FPGA可编程逻辑的片上系统（SoC）芯片。ZYNQ7000有多个型号，根据处理器核心数和FPGA系列的不同，可以应用于多种领域，如图像处理，通信，嵌入式系统等。 ZYNQ中国人读法 “zingke”、“任克”，“Soc”，英文全称叫 System on one Chip ，也就是片上系统的意思。没有微机基础的同学可能不明白什么叫Soc，但是你可以细细琢磨一下，我们的手机和台式电脑的不同，你就可以理解Soc的内含了。传统计算机是将CPU，内存，GPU，南北桥焊接在印刷电路板上，各个组件之间是分立的。但是Soc则将CPU和各种外设集中到一块芯片上，集合成一个系统，因此像手机这种使用了Soc芯片的这种微机可以做的很轻薄，我们可以说，Soc是未来微机发展的一个趋势，我之前遇见过的像什么全志的A33就是典型的Soc。 ZYNQ为什么厉害就在于它是一块可编程的Soc。其内部往往有处理器硬核和一些定制外设，并且外设当中有一个很厉害的玩意：PL，即可编程逻辑模块，也就是我们一般意义上的FPGA，所以简单理解ZYNQ就是“ 单片机 + FPGA “，它既可以执行代码程序，也可以实现FPGA。因此我们设计ZYNQ就是在做Soc设计。 ZYNQ的结构我们先来开一下简化版的模型图片上面的模型细致低展开后就是下图的样子：图片图是 ZYNQ 7000的结构图，大体分为PS（Processing System）和 PL（Programmable Logic）两部分，其中的PS部分主要是由双核APU和外围的一些外设组成，说实话很像单片机的结构，而外围的PL则类似FPGA，并且两者通过AXI接口进行互联以实现功能. 重点介绍一下APU，应用处理单元：Application Processing Unit，位于PS（processing system）中，包括一个单核或者双核的cortex-A9处理器，处理器连接一个512KB的共享L2cache，每个处理器都有一个32KB的高速L1 cache，A9支持虚拟内存和32bit arm 指令。APU中的A9处理器由可配置的MP组成，MP包含SCU（snoop control unit：监控控制单元）单元，这个单元主要负责获取两个处理器的L1 cache和ACP（accelerator coherency port：加速器相关接口） PL的一致性。应用单元还有一个低延迟的片上memory，与L2 cache并行的，ACP（加速器接口）是PL与APU通信接口，该接口是PL作为主机的AXI协议的接口，最多支持64bit位宽，PL通过ACP接口访问L2 cache 和片上memory，同时保持和L1 cache的内存一致性。L2 cache 可以访问 DDR 控制，这个ddr 控制器是专用的，大大降低内存读写的延迟APU 还包括一个32bit的看门狗，一个64bit的全局定时器，APU 架构图如下所示：图片开发工具在Vivado 19.2之前，我们开发Zynq需要三样必须的软件： Vivado SDK PetaLinux 其中Vivado用来开发硬件平台，SDK开发软件，PetaLinux则制作配套的Linux系统。可能有些人还有用到HLS ，即VIvado HLS 或者Vitis HLS；其中Vivado HLS 2020.1将是Vivado HLS的最后一个版本，取而代之的是VitisHLS。到了Vivado 19.2之后，事情发生了变化。为了方便大家理解，我愿意称之这些软件成了为Vitis 家族的各个部分，原来的SDK被Vitis IDE取代，Vivado导出的 .hdf 文件被 .xsa文件代替，用来给vitis平台使用。因此我们需要的开发Zynq 最基本的软件变成了 Vivado Vitis IDE PetaLinux 各软件发挥的作用和之前的差不多，不过除了上面提到的四款软件外，Vitis家族还有 Vitis AI 等组件，他们共同组成了所谓的“Vitis™ Unified Software Platform ”，从发展趋势来看，这些开发软件应该会逐步的统一，入门的同学也不会再一头雾水地纠结 Vitis 和 Vivado 的区别和联系了。 ZYNQ开发流程 ZYNQ类似于一个单片机 + FPGA的结构，其实我觉得如果大家接触过一些 Soc就会更好地理解ZYNQ的作用，就例如全志A33这块Soc，它是一块ASIC，不可以通过编程来对芯片的硬件进行重设计的。图片我们可以看到，灰色部分的外设都是固定的，像什么摄像头接口，什么视频接口都是设计好的，定制化的好处就使得总体比较高效，制造成本也低；但是如果我要运用到其它场景下，比如说我需要多个摄像头，那这块芯片就不再适合了（硬件控制的上限就是前后两颗摄像头）而ZYNQ的意义相当于只给你定制的蓝色部分，也就是处理器内核，灰色的部分都可以通过FPGA实现，这让电子工程师们可以快速开发出各种各样有针对性的Soc；当然了，看过我第一篇博客的同学都知道，其实固定的硬核不止只有处理器内核，其实还有串口和内存控制器之类的外设，这其实是追寻一种固定和变化之间的平衡。咱们把话说回ZYNQ的开发上来。图片 ZYNQ的开发流程分为硬件和软件两部分，在SDK之前的属于硬件开发，也就是我们常说的PL部分的开发，而SDK后就属于软件部分的开发了，类似单片机，属于PS部分。当然现在最新的Vitis IDE已经取代了SDK，所以后半部分一般在SDK中进行。 PL部分的开发包括对嵌入式最小系统的构建，以及FPGA外设的设计两个方面。我觉得要转变的一个思维是，我们现在不是在开发一个什么SDRAM控制器，什么IIC协议控制器，我们在开发的是一个小型的微机系统！因此嵌入式最小系统的设计是我们的核心。首先，在IP INTEGRATOR中我们要创建BLOCK DESIGN。图片 IP是用来进行 Embedded System Design ，也就是咱们常说的嵌入式系统设计。也就是咱们上面说的嵌入式最小系统的设计。图片大家可以看到，一个最小的系统其实不需要PL参与的，PL可以作为PS的一个外设使用，或者是自己做自己的事情，仅仅作为一个PL工作。既然是外设，当然是可用可不用的，毕竟咱们有好多的外设可以在Block Design 中直接配置使用，即下图绿色部分。图片配置好嵌入式系统后，咱们根据需要进行PL部分的设计。这里涉及一个问题，那就是PS和PL之间的数据传输方式有哪些：中断 IO方式：MIO EMIO GPIO BRAM或FIFO或EMIF AXI DMA：PS通过AXI-lite向AXI DMA发送指令，AXI DMA通过HP通路和DDR交换数据，PL通过AXI-S读写DMA的数据。等等。。。可以看出，其实两个部分的交互方式还是很多的，以后咱们遇到一个说一个。在Vivado端完成对嵌入式系统的设计后，我们就要进入Vitis IDE 端进行软件的开发。图片 Vitis IDE简单来说流程一般是：新建一个工程，选择Platform ，也就是我们之前在Vivado中生成的 XSA文件，然后添加文件，进行开发。我相信使用过Keil 5的同学们应该心中对文件目录结构应该更胸有成竹，Src文件夹中存放的是源文件。代码编写完之后是编译，编译完就是下载了。不过这里要注意以下，如果我们使用了PL的资源，那么在下载软件编译生成的 elf 文件之前，需要先下载硬件设计过程中生成的 bitstream 文件，对 PL 部分进行配置。最后就是验证工作了，上述的流程是普通的ZYNQ开发流程；玩的花一点的同学可能是直接上Linux操作系统，这部分等后面我接触到了再说吧！其实我觉得ZYNQ入门简单，精通的话需要大量的知识储备，但也不是不可能，开发ZYNQ相比于做单片机开发肯定路子会更广一些，向上可以做IC设计，向下嵌入式、单片机什么的工作也能胜任。

FPGA&ASIC IP&SOC设计 # ASIC/FPGA # 嵌入式 # SOC设计

刘航宇 3年前
0 4,053 4
2023-07-27
一张图看懂数字IC设计前后端全流程（DC ICC PT的关系）关系图 pCvyhuT.png图片 DC综合后用PrimeTime做一遍STA DC的时候，通过SDC定义了很多约束,留下了很多Margin为后端，DC综合的网表是理想的状态。后端会进行Place和Route并进行CTS，这才接近于真实的电路，后端会通过QRC吐出SPEF, SPEF在转成sdf,供PT分析.此时PT分析的已经不是综合之后的网表，PT分析的是经过PR之后且CTS之后的网表。目的就是看在经过后端处理之后时序是否还signoff。前端DC综合的时候,本身也会进行timing分析，有些路径时序不收敛，DC也会报出来,如果确认这是一条真的路径. 这样你就要改RTL了. DC自己都报时序不收敛,后面也都没有做的必要了。

FPGA&ASIC EDA&虚拟机 # VLSI # EDA&虚拟机

刘航宇 3年前
0 2,691 1
【转载】Libero SOC Debug教程-片上逻辑分析仪IDENTIFY 本文转载于https://blog.csdn.net/whik1194/article/details/107074187 FPGA在线调试关于MICROSEMI片上逻辑分析仪 FPGA片上逻辑分析仪原理预期效果 0.准备一个创建好的LIBERO工程 1.新建IDENTIFY工程，并添加想要监测的信号 2.管脚分配，编译下载 3.设置触发类型 4.IICE逻辑分析仪核资源占用原文：参考： FPGA在线调试对于嵌入式系统来说，如单片机，进行硬件级程序调试时，通常采用的是JLink/ST-Link调试器，在线调试的方式来获取程序实时运行的状态，可以观察程序运行流程、各种变量的值、中断的触发情况，还可以设置断点、单步运行，方便快速的发现BUG，解决问题。但是对于FPGA来说，并不是顺序执行的，而是根据每一个Clk并行执行，所以我们不能使用调试器进行单步调试。 FPGA调试需要观察内部信号的值，各个信号之间的时序关系，所以使用逻辑分析仪是最好的调试方式了。有些FPGA工程，对外的接口，即输入输出，可能只有几个，但是他们之间的逻辑和时序关系非常复杂，所以内部有几十个中间寄存器，程序下载进去了，发现不是我们想要的效果，怎么办？你可能会说，查代码吧！如果这个工程非常简单，你可能只需要耗费几分钟或者几个小时就可以定位代码的问题所在。但是如果这是一个非常庞大的工程，内部的中间寄存器、信号，几百上千个，各个模块单独软件仿真都正常，整体仿真也正常，就是下载到实际的芯片中运行不正常。你如何进行问题定位？如果再去进行代码审查，这将会消耗非常多的时间。那么如果能在FPGA芯片内部装上一个逻辑分析仪，那不就直接可以看到内部信号的值了，而且还可以看到各个信号之间的时序关系。需求推动技术发展，既然开发者有这个需求，那么FPGA厂商肯定会实现这个功能！下面来一起看一下Microsemi FPGA片上逻辑分析仪的使用方法吧！关于MICROSEMI片上逻辑分析仪几大厂商的片上逻辑分析仪： Xilinx厂商ISE开发环境下的ChipScope工具 Altera厂商Quartus开发环境下的SignalTap工具 Lattice厂商Diamod开发环境下的Reveal工具对于 FPGA 工程师来说，这些都是很熟悉的名字。和以上几大FPGA厂商一样，Microsemi Libero也支持片上逻辑分析仪工具，只不过不是自己家研发的，使用的是Synospsy公司出品的Identify工具，其实，Libero中的综合器synplify也是Synospsy公司的。根据Synospsy官网的描述：Identify RTL 调试仪，这个调试工具除了支持Microsemi的FPGA产品外，还支持Altera和Xilinx的FPGA产品。 FPGA片上逻辑分析仪原理 Identify片上逻辑分析仪的原理，是通过在FPGA工程中加入一个IICE逻辑分析仪IP核，这个IP核，由控制器和采集器组成，采集器用于采集信号，控制器用于和JTAG调试器连接，并把数据发送到上位机，IICE内部有RAM空间，用于存储触发位置附近的信号，RAM空间的大小，即采样深度，可以自己调整。FPGA工程中加入IICE核，会占用一定的资源，资源占用的大小取决于：采样深度，采样信号的个数，采样信号的触发方式等。所以综上，FPGA片上逻辑分析仪需要3个组件：片上的IICE逻辑分析仪核、JTAG下载器、上位机。 pC5Uq6e.png图片 JTAG下载器也就是我们下载程序时使用的FlashPro x下载器，上位机软件也就是Identify工具，这个工具已经在安装Libero SoC时一同安装并注册**了。所以不需要安装其他的工具软件，只需要在已经设计好的FPGA公司中，配置一下IIC逻辑分析仪核就可以了。在已经创建好的Libero工程中，加入IICE逻辑分析仪核，并演示Identify工具的使用。预期效果以Microsemi SmartFusion系列的A2F200M3F芯片为例，其他芯片使用操作方法类似。示例工程功能：led每隔10个clk翻转一次为例，演示identify的使用。 identify添加完成之后，把led设置为上升沿触发，会抓取到类似如下的波形。 pChB2qJ.png图片 0.准备一个创建好的LIBERO工程这里以LED每隔10个时钟周期翻转为例。HDL文件内容： module led_demo( //inputs input clk, input rst_n, //outputs output reg led ); reg [3:0] cnt; always @ (posedge clk) begin if(!rst_n) cnt <= 0; else if(cnt == 10) /* max=10, 0-10 */ cnt <= 0; else cnt <= cnt + 1; end always @ (posedge clk) begin if(!rst_n) led <= 0; else if(cnt == 10) led <= ~led; end endmodule1.新建IDENTIFY工程，并添加想要监测的信号 1.0 先运行Synthesize 1.1 在Synthesize上右键，选择Open Interactively pChr5jO.png图片 1.2 在Synthesis上右键新建一个Identify工程 pChrTDe.png图片 1.3 输入新建的identify工程的名称和保存路径，选择默认的就行。 pChrqUA.png图片 1.4 在新建的identify工程上右键选择identify instrumentor pChsSKS.png图片 1.5 在HDL文件中选择要监测的信号和采样时钟，采样时钟选择Sample Clock，作为触发的信号选择Trigger Only，要监测的信号选择Sample Only，也可以选择Sample and Trigger，这样会占用更多的资源。 pChsG26.png图片 pChsNrD.png图片设置完成的信号会有标注 pChsgsS.png图片 sample clock 表示采样时钟，所有在 IICE 中添加的信号都会在 sample clock 的边沿进行采样，设为 sample clock 的信号前会出现一个时钟状的图标。设置为 sample 和 trigger 的信号都将作为被采样信号，区别在于 sample 信号只能被采样，而 trigger 信号可以作为触发采集的条件，当然你可以把一个信号同时设置为 sample 和 trigger 。 1.6 设置采样深度，选择Instrumentor->IICE pChsWZQ.png图片采样深度最大支持1048576 pChsfaj.png图片输入采样深度，数值越大，采样时间越长，相应的FPGA资源占用也越多。 pChsqLF.png图片 1.7 选择Run->Run pChsOZ4.png图片或者直接点击主界面的Run按钮 pChsjo9.png图片 1.8 编译完成之后，保存退出。 pChsxiR.png图片 2.管脚分配，编译下载 2.1 和正常流程一样，管脚分配，编译下载。可以看到JTAG部分的管脚已经被IICE逻辑分析仪核使用了 pChyiLD.png图片 2.2 在Identify Debug Design上右键，选择Open Interactively，打开identify工具 pChymWt.png图片 3.设置触发类型 3.1 选择要触发的信号，和触发类型，这里我选择的是led，上升沿触发。 pChyYYn.png图片 3.2 连接FlashPro下载器，点击小人图标，启动抓取，满足触发条件自动停止。 pChy6YR.png图片 D:/identify_demo/synthesis$ run -iice {IICE} INFO: run -iice IICE INFO: Info: Attempting to connect to: usb Info: Type: FlashPro4 Info: ID: 08152 Info: Connection: usb2.0 Info: Revision: UndefRev INFO: Checking communication with the Microsemi_BuiltinJTAG cable and the hardware INFO: The hardware is responding correctly INFO: Auto-detecting the device chain INFO: Device at chain position 1 is "A2F200M3F" INFO: IICE 'IICE' configured, waiting for trigger INFO: IICE 'IICE' Trigger detected, downloading samples INFO: notify -notify INFO: waveform viewer INFO: waveform viewer INFO: write vcd -iice IICE -comment {Identify created VCD dump} -gtkwave -noequiv IICE.vcd D:/identify_demo/synthesis$ 3.3 右侧黄色的显示就是触发瞬间时信号的值。右键可以改变数据格式。 pChyO6f.png图片 3.4 选择Debugger preferences可以设置采样时钟的周期，用于后面波形的时间测量 pChyz7Q.png图片 3.5 设置采样时钟的周期 pCh6Chn.png图片 3.6 点击波形按钮，在GTKWave中打开抓取到的波形。 pCh6kcV.png图片 3.7 可以按住左键拖动测量时间差 pCh6uN9.png图片 3.8 还可以给每个通道设置不同的颜色，和显示方式。 pCh6Q91.png图片 4.IICE逻辑分析仪核资源占用 IICE逻辑分析仪核占用的主要是逻辑资源和RAM资源，可以看到资源占用还是很多的。图片图片原文： https://blog.csdn.net/whik1194/article/details/107074187 参考： https://zhuanlan.zhihu.com/p/88314552 https://www.synopsys.com/zh-cn/implementation-and-signoff/fpga-based-design/identify-rtl-debugger.html http://training.eeworld.com.cn/video/1059 https://www.microsemi.com/document-portal/doc_view/132760-synopsys-identify-me-h-2013-03m-sp1-user-guide

嵌入式＆系统 FPGA&ASIC # ASIC/FPGA # 嵌入式

刘航宇 3年前
2 2,884 2
数字锁相环(DPLL)研究与设计前言工程代码下载锁相环的原理和组成数字锁相环的原理和组成数字鉴相器设计DPD 数字振荡器(DCO) 数字缓冲器(DB) 数字锁相环(DPLL)的实现电路硬件与性能评估前言随着数字电路技术的发展，数字锁相环在调制解调、频率合成、FM 立体声解码、彩色副载波同步、图象处理等各个方面得到了广泛的应用。数字锁相环不仅吸收了数字电路可靠性高、体积小、价格低等优点，还解决了模拟锁相环的直流零点漂移、器件饱和及易受电源和环境温度变化等缺点，此外还具有对离散样值的实时处理能力，已成为锁相技术发展的方向。所谓数字PLL，就是指应用于数字系统的PLL，也就是说数字PLL中的各个模块都是以数字器件来实现的，是一个数字的电路。数字锁相环的优点是电路最简单有效,可采用没有压控的晶振,降低了成本,提高了晶振的稳定性。但缺点是和模拟锁相环一样,一旦失去基准频率,输出频率立刻跳回振荡器本身的频率;另外还有一个缺点,就是当进行频率调整的时候，输出频率会产生抖动，频差越大，抖动会越大于密，不利于某些场合的应用。随着大规模、超高速的数字集成电路的发展，为数字锁相环路的研究与应用提供了广阔空间。由于晶体振荡器和数字调整技术的加盟，可以在不降低振荡器的频率稳定度的情况下，加大频率的跟踪范围，从而提高整个环路工作的稳定性与可靠性。简单的说有两个不同来源的信号：一个信号是参考信号，这个信号一般是由芯片的晶振得到的信号，它具有信号的稳定性较好等优点，但是其频率是固定不变的。另一个信号是由芯片或者模块内部的压控振荡器得到的。这种由压控振荡器得到的信号可以是某范围内的任意频率的信号，但是这种信号的稳定型较差，容易受到外界干扰。那么在实际使用过程中，我们需要一种频率能够变化的，同时质量较好的信号；或者对于一块芯片，我们需要不同的模块的内部时钟（这种时钟可以是压控振荡器产生）都能参考一个总的时钟来进行同步，从而避免两个模块内部时钟的差异而产生的数据传输的漂移等问题。因此，如何将压控振荡器得到的信号能够具有晶振信号的信号质量呢？那就是通过PLL锁相环来实现，如图1所示。只要压控振荡器产生的时钟（下称输入信号）是参考信号的整数倍（或者整除倍），那么就能将输入信号先进行分频，后得到与参考信号频率相同的时钟，将分频后的信号和参考信号进行比较，从而使分频后的信号和参考信号保持相同的稳定的频率和相位。被分频后的信号稳定，也就是间接的表示输入信号的稳定。从而我们得到了一个频率在一定范围内可变的稳定的信号。有上述可以看出，锁相环具有以下功能：（1）能够将一个信号和另一参考信号同步；（2）当这个信号是输出信号分频后得到的信号，PLL就能够得到参考信号的倍频信号（实际上倍频器很多都是利用了这个功能）；（3）当输入信号频率可变、分频系数可变时，PLL就能够得到在频率一定范围内稳定信号。图片工程代码下载 DPLL 下载地址：https://wwek.lanzoub.com/iJLd5102ig6j 提取码：锁相环的原理和组成锁相环（PLL）的作用我们已经大概了解了，其最主要功能的实现，是在于如何将两个频率不同、相位差始终在变化的信号，变成两个相同频率、相同相位的信号。这里引入一个概念，首先我们都知道，对于三角函数，只有两个同频率的三角函数才能比较其相位差。但这里的相位差是指两个正弦函数的初始相位差。而实际上根据三角函数的欧拉定义的理解来看，我们可以把三角函数看做是在某个圆上逆时针运动的点到x轴的距离。那么频率就是点在圆上运动的角速度，频率越大，其运动的角速度越大。相位就是点在圆上的位置，而初始相位就是点在圆上开始运动时的位置。当两个点的运动角速度相同时，我们可以得到两个点的初始位置差，就是两个正弦函数频率相同时，得到初始相位差。这个差值在运动过程中一直是不变的。但是当两个点运动角速度不同时，我们去看它的初始位置差是没有意义的，因为两个点的位置差是一直在变的，而初始位置差只是一个开始的位置差，是个不变的量，所以说对于频率不同的三角函数，我们讨论起初始相位差是没有意义的。但是不代表不能比较某一时刻两个点的位置。也就是相位差，相位是存在的。图片现在我们假设两个点在圆上赛跑，如图3所示，我们想让这两个点角速度相等。那么有一个办法就是以一个点为参考，参考点角速度不变，另一个点是速度可变点。每过一段时间，观察另一个点到参考点的位置，是在前，还是在后。如果在前，就让另一个点速度慢一点；如果在后，就让另一个点速度快一点。就这样不断调整另一个点的角速度，直到每次观察两个点都处于相同的位置。这样我们就可以认为这两个点达到了相同的速度。这种方法就是利用反馈调节来实现两个信号的同频同相。也就是锁相环（PLL）的实现原理。首先通过一个鉴相器来得到两个信号之间的相位差。并根据相位差输出电压信号。然后通过滤波器稳压后得到稳定的电压信号，该信号驱动压控振荡器得到新的频率的信号。当两个信号存在相位差时，电压信号就会改变，从而使受控信号不断变化。直到当两个信号没有相位差时，电压信号不再改变，从而使受控信号保持当前频率，这时，受控信号不再变化了，就叫做受控信号被锁定了。由上所述，一个锁相环由鉴相器、滤波器、振荡器三部分组成。外部输入是参考信号，内部输入和总的输出是受控信号。数字锁相环的原理和组成在数字电路中，原来模拟信号正弦波、余弦波的频率和相位变成了0和1的脉冲信号，那么我们如何理解数字信号中的频率和相位呢？对于脉冲信号来说，我们可以把频率理解为在某固定时间内脉冲出现的个数，为了方便表示，我们把上升沿的出现视为脉冲的出现，把相邻两个脉冲出现的时间t求倒数，就得到了该信号在这个时刻处的信号频率。而对于相位，相位差就是指，存在两个脉冲信号，以一个脉冲信号为参考，在其出现脉冲后，到另一个信号出现脉冲之间的时间差就是相位差，当另一个信号脉冲晚于参考信号脉冲出现的时间，称之为另一个信号的相位滞后于参考信号。当另一个信号的脉冲出现在参考信号之前，称之为另一个信号的相位提前于参考信号。上述是一种较为简单的描述方式，适合初识脉冲信号的读者理解。而实际上，对于脉冲信号的频率、相位等问题，严格来说这样理解有一点点问题，但是对于我们来搭建数字锁相环DPLL来说足够了。其实这种三角函数和信号之间的转化，其根本的原理来源于傅里叶变换，从而我们对一个时间域上的信号（例如脉冲信号）可以进行频率域（其代表的三角函数的合成）上的分析。我们知道了在数字电路中，脉冲信号也有了频率和相位的属性。那么我们的参考信号是以来时钟源的固定频率的信号，因为信号的质量比较好，所以该信号两个脉冲之间的时间差均是相同的，误差很小。我们在参考信号出现上升沿时，观察受控信号此时的状态。如果受控信号为高电平，我们就认为此时受控信号超前于参考信号；反之，如果受控信号是低电平，则认为此时的受控信号滞后于参考信号。当出现超前状态时，鉴相器会输出一个超前信号，超前信号会作用于振荡器，使得振荡器发出的受控信号频率降低。而滞后信号会使振荡器发出的受控信号频率升高，从而实现受控信号频率的反馈调节。如图4所示，当参考信号出现上升沿时，受控信号为低电平，此时输出一个滞后信号。（由于模块只在时钟为上升沿时触发，所以超前信号的触发延迟了半个时钟周期）图片由此我们能够大概了解了数字锁相环中如何看待脉冲信号的频率和相位，如何处理得到相位差以及相位差如何在锁相环中起作用来实现信号频率的反馈控制。同模拟的锁相环（PLL）类似，数字锁相环（DPLL）也是由：数字鉴相器（Digital Phase Detector）、数字缓冲器（Digital Buffer）、数字振荡器（Digital Controlled Oscillator）三个模块构成，其外部输入为参考信号，内部输入和输出为受控信号。下面我们就来具体讨论如何用verilog实现各个模块。数字鉴相器设计DPD 实现一个数字锁相环（DPLL），最重要的部分就是实现数字鉴相器（DPD）和数字振荡器（DF）。并且，这两个模块并不是独立存在的，而是说，数字振荡器的实现方式和数字振荡器的实现方式相互影响。所以只有两个模块共同设计，才能较好的实现一个数字锁相环的功能。首先我们来具体讨论一下一个数字鉴相器应该具有那些功能和特性：顾名思义，数字鉴相器就是能够鉴别两个数字信号相位的差别，并通过信号将这种差别表示出来。由上文我们已经知道了，对于两个矩形方波信号，其相位差可以看做是两个信号先后出现上升沿（或下降沿）之间的时间差。为了方便表示，假设以其中一个信号作为参考信号，另一个信号为受控信号，当参考信号出现上升沿（或下降沿）时，观察另一个信号是否已经出现了上升沿（或下降沿）。如果还未出现上升沿（或下降沿），则叫做“受控信号滞后于参考信号”，或者简称“滞后”；如果已经出现了上升沿（或下降沿），则叫做“受控信号提前于参考信号”，或者简称“提前”。而判断上升沿（或下降沿）是否已经出现，方法就是看当参考信号出现上升沿时，受控信号是1还是0：当受控信号为0，表示上升沿还没出现，所以是“滞后”；当受控信号为1，表示上升沿已经出现，所以是“提前”。对于下降沿也是按照同样的方法考虑。图片目前为止，我们已经有两个输入，参考信号和受控信号；两个输出，滞后信号和提前信号。如何通过verilog实现上述的输入输出关系呢？首先先讲异或与门，通过图4的描述，我们可以很容易看出来：滞后信号是参考信号与受控信号先异或，异或的结果和受控信号相与得到；提前信号是参考信号与受控信号先异或，异或的结果和参考信号相与得到。再加上一个RST的复位信号，我们可以得到如下图5电路：图片根据这个关系，来调节受控信号的频率，从而使受控信号的频率和参考信号最终相同。再考虑，如果按照上述方法调节，当受控信号和参考信号频率相差很大时，就会出现刚开始有一段时间，受控信号的频率是不断变化，不可预知的。这样的调节效果实时性并不好，需要时间来稳定。因此读者想到，如果能够在参考信号出现上升沿时，就让受控信号也出现上升沿，相当于两个人在赛跑时，当一个人从起点出发时，无论另一个人在哪，强制让另一个人也回到原点，两个人一起从原点出发。这样就能使受控信号和参考信号强制达到相同的频率，只是此时受控信号的占空比不是50%。然后再根据滞后和提前信号，调节受控信号的占空比，从而最终达到50%的占空比。按照这种方法，鉴相器就需要一个信号输出来表示上升沿的出现。再考虑到电路中的总的时钟源，我们这里采用触发的方法来实现。同时将上述的异或与门加入到代码中可以得到数字鉴相器的代码。但是在实际运用过程中发现，可能存在着受控信号先出现上升沿，从而过早的出现了提前或者滞后信号，导致数字振荡器的计数器上限呈现一个周期变化的不可控的数值的情况。为了避免这种情况，需要仔细考虑参考信号和受控信号如何生成提前和滞后信号这个问题，而不是简单的用异或来实现。如图6表示这种关系。图片按照上述代码写出来的数字鉴相器，具有更好的性能。根据这个表格，通过类似状态机的方法，来实现提前信号和滞后信号的输出。数字振荡器(DCO) 现在我们已经构造出来了一个数字鉴相器，接下来我们将继续探讨如何实现一个数字振荡器（DCO）。实现一个固定脉冲频率的信号，我们可以通过已知的时钟源，分频得到一定频率范围内的脉冲。具体实现方法就是通过计数器的方式，当出现时钟脉冲时，计数器+1，计数器上限就是分频系数，当计数器的数小于上限的1/2时，输出1，当计数器的数大于上限的1/2时，输出0，当计数器的数超过上限时，计数器归零。这样就能实现对时钟源的分频。根据上述方法，只要改变计数器的上下限，就能改变分频系数，从而改变输出信号的频率。再参考上文受控信号和滞后提前信号的关系，我们就能通过根据滞后提前信号，改变计数器上下限，来实现对受控信号频率的控制。当计数器上限增加时，分频系数增加，频率减小；当计数器上限减小时，分频系数减小，频率增加；因此有：滞后信号——>受控信号的频率小——>增加受控信号的频率——>计数器上限减小提前信号——>受控信号的频率大——>减小受控信号的频率——>计数器上限增加此外根据上述对上升沿触发同步的说法，当出现上升沿触发信号时，受控信号应强制产生上升沿，即受控信号强制从该脉冲周期的开始处开始，即计数器的数回到0从新开始计数。综上所述，再加上复位信号，一个数字振荡器的所有构成就有了。到这里，一个数字锁相环（DPLL）其实就已经能够实现了，因为数字滤波器（DB）只是让受控信号的抗干扰能力更强，如图所示是仿真后的结果：图片数字缓冲器(DB) 下面再介绍一下数字缓冲器，来使受控信号的抗干扰能力更强。前面我们知道了，持续一个时钟周期的提前信号或者滞后信号能够使数字振荡器的计数器上限加一或者减一。当我的预设的数字振荡器的计数器上限与实际的参考信号的频率对应的计数器上限两个数值相差很大时，就有可能出现锁相环调节时间过长等现象。为了解决这种情况，如果能够让原来持续一个周期的提前信号或滞后信号成倍数的增加，变成持续n个周期的提前信号或者滞后信号，就能够使数字振荡器的计数器上限修改更快，从而更快的到达参考频率附近。但是相应的，受控信号的频率精度就会降低。也就是说，牺牲精度，追求速度。同时考虑另外一种情况，如果我对速度要求不高，但是对于精度要求较高，同时在信号传输过程中可能存在干扰，导致接收到的提前信号或滞后信号不是完全真实的信号，此时就可以通过一个累加器，只有接受到n个周期的提前信号，或者滞后信号，才对数字振荡器输出一个进位信号或者借位信号，此时数字振荡器的计数器上限才只加减1，这样就能有效的提高精度，减少信号干扰带来的影响。但是这种做法牺牲了数字锁相换锁定的时间。综上所述，一个时钟周期的提前或滞后信号，对应n个时钟周期的借位或进位信号，是提高锁定速度，降低锁定精度。想法，n个时钟周期的提前或滞后信号，对应一个时钟周期的借位或进位信号，是提高锁定精度，降低锁定速度。因此在实际运用中，应该按照自己的工程需要，合理选择比值。上述过程的实现方法，是通过一个计数器，当接收到一个提前或滞后信号时，计数器加a，当输出一个进位或借位信号时，计数器减b，调节a和b的比值，就能实现上述过程。数字缓冲器的仿真效果： 1、分时效果图片 2、倍时效果图片数字锁相环(DPLL)的实现所有的子模块都已经实现了，剩下的数字锁相环的实现，根据实际的要求，将上述几个模块进行例化就行。例化后的测试结果如图9所示，可以看到受控信号逐渐与参考信号对齐达到锁相环效果。图片为了方便起见，对输出信号进行2分频，再次观察输出结果，输出相当于2倍频了，成功完成PD、DCO、Divider等模块正确设计。图片电路硬件与性能评估图11为电路硬件图从图中可以看出各模块的连接关系，每个模块由基本门电路构成。通过性能优化后的的电路如图12所示。图片利用SMIC180nm工艺进行电路综合，时序报告：周期2ns 图片面积报告：2119um2 图片功耗报告：uw级别图片

FPGA&ASIC # ASIC/FPGA

刘航宇 3年前
1 3,554 3
2023-06-20
Microsemi Libero SOC常见问题-FPGA全局网络的设置问题描述最近在一个FPGA工程中分配rst_n引脚时，发现rst_n引脚类型为CLKBUF，而不是常用的INBUF，在分配完引脚commit检查报错，提示需要连接到全局网络引脚上。 Running Global Checker... Error:PLC002:No legal assignment exists for global net rst.n_c. Info:Uhlocking the driver or removing the region constraint for net rst nc may help to satisfy Error:PLC005:Automat ic global net placement failed. 尝试忽略这个错误，直接进行编译，在布局布线时又报错。 Error: PLC002: No legal assignment exists for global net rst_n_c. Error: PLC005: Automatic global net placement failed. Error: Failure when executing Tcl script. [ Line 18 ] 尝试取消引脚锁定LOCK，再次commit检查成功，编译下载正常，但是功能不对，再次打开引脚分配界面，发现是rst_n对应的引脚并不是我设置的那个，看来是CLKBUF的原因。问题分析网络上搜索一些资料后，发现是在一些工程中会出现这个问题，如果rst_n信号连接了许多IP核，和很多自己写的模块，这样rst_n就需要很强的驱动能力，即扇出能力(Fan Out)，而且布线会很长，所以在分配管脚时，IDE自动添加了CLKBUF，来提供更大的驱动能力和更小的延时。那么什么是FPGA的全局时钟网络资源呢？ FPGA全局布线资源简介我们知道FPGA的资源主要由以下几部分组成：可编程输入输出单元（IOB）基本可编程逻辑单元（CLB）数字时钟管理模块（DCM）嵌入块式RAM（BRAM）丰富的布线资源内嵌专用硬件模块。我们重点介绍布线资源，FPGA中布线的长度和工艺决定着信号在的驱动能力和传输速度。FPGA的布线资源可大概分为4类：全局布线资源：芯片内部全局时钟和全局复位/置位的布线长线资源：完成芯片Bank间的高速信号和第二全局时钟信号的布线短线资源：完成基本逻辑单元之间的逻辑互连和布线分布式布线资源：用于专有时钟、复位等控制信号线。一般设计中，我们不需要直接参与布线资源的分配，IDE中的布局布线器（Place and Route）可以根据输入逻辑网表的拓扑结构，和用户设定的约束条件来自动的选择布线资源。其中全局布线资源具有最强的驱动能力和最小的延时，但是只能限制在全局管脚上，厂商会特殊设计这部分资源，如Xilinx FPGA中的全局时钟资源一般使用全铜层工艺实现，并设计了专门时钟缓冲和驱动结构，从而使全局时钟到达芯片内部的所有可配置逻辑单元（CLB）、I/O单元（IOB）和选择性块RAM（Block Select ROM）的时延和抖动都为最小。一般全局布线资源都是针对输入信号来说的，如果IDE自动把rst_n引脚优化为了全局网络，而硬件电路设计上却把rst_n分配到了普通管脚上，那么就很麻烦了，要么牺牲全局网络的优势，手动将全局网络改为普通网络，要么为了利用全局网络的优势，修改电路，重新分配硬件引脚。所以如果一些关键的信号确定了，如时钟、复位等，产品迭代修改电路时，不要轻易调整这些关键引脚。 Microsemi FPGA的全局布线资源 Microsemi FPGA的全局时钟管脚编号，我们可以通过官方Datasheet来找到，在手册中关于全局IO的命名规则上，有如下介绍：即只有管脚名称为GFA0/1/2，GFB0/1/2，GFC0/1/2，GCA0/1/2，GCB0/1/2，GCC0/1/2（共18个）才支持全局网络分配，而且，如果使用了GFA0引脚作为全局输入引脚，那么GFA1和GFA2都不能再作为全局网络了，其他GFC等同理，这一点在设计电路时要特别注意。对于Microsemi SmartFusion系列FPGA芯片A2F200M3F-PQ208来说，只有7个，分别是：GFA0-15、GFA1-14、GFA2-13、GCA0-145、GCA1-146、GCC2-151、GCA2-153，引脚分配如下图所示：所以在设计A2F200M3F-PQ208硬件电路时，时钟和复位信号尽量分配在这些管脚上，以获得硬件性能的最大效率。这些全局引脚的延时时间都是非常小的，具体的时间参数可以从数据手册上获得。全局网络改为普通输入像文章开头介绍的情况，IDE自动把rst_n设置为全局网络，而实际硬件却不是全局引脚，应该怎么修改为普通输入呢？即CLKBUF改为普通的INBUF？网络上zlg的教程中使用的是版本较低的Libero IDE 8.0，新版的Libero SoC改动非常大，文中介绍的修改sdc文件的方法已经不能使用了，这里提供新的修改方法——调用INBUF IP Core的方式。这里官方已经考虑到了，在官方提供的INBUF IP Core可以把CLKBUF改为INBUF。在Catalog搜索框中输入：INBUF，可以看到这里也提供了LVDS信号专用的IP Core。拖动到SmartDesign中进行连接或者在源文件中直接例化的方式调用INBUF Core： INBUF INBUF_0( // Inputs .PAD ( rst_n ), // Outputs .Y ( rst_n_Y ) );这两种方法都是一样的。添加完成之后，再进行管脚分配，可以看到rst_n已经是普通的INBUF类型了，可以进行普通管脚的分配，而且commit检查也是没有错误的。普通输入上全局网络如果布局布线器没有把我们要的信号上全局网络，如本工程的CLK信号，IDE自动生成的是INBUF类型，我们想让他变成CLKBUF，即全局网络，来获取最大的驱动能力和最小的延时。那么应该怎么办呢？这里同样要使用到一个IP Core，和INBUF类似，这个IP Core的名称是CLKBUF，同样是在Catalog目录中搜索：CLKBUF，可以看到有CLKBUF开头的很多Core，这里同样也提供了LVDS信号专用的IP Core。可以直接拖动Core到SmartDesign图形编辑窗口：或者是在源文件中以直接例化的方式调用： CLKBUF CLKBUF_0( // Inputs .PAD ( CLKA ), // Outputs .Y ( CLKA_Y ) );这两种方式都是一样的，添加完成之后，再进行管脚分配，可以看到CLKA已经是全局网络了，只能分配在全局管脚上。总结对于不同厂家的FPGA，让某个信号上全局网络的方法都不尽相同，如Xilinx的FPGA是通过BUFG Core来让信号上全局网络，而且还有带使能端的全局缓冲 BUFGCE ， BUFGMUX 的应用更为灵活，有2个输入，可通过选择端选择输出哪一个。所以，信号的全局缓冲设置要根据不同厂商Core的不同来使用。

嵌入式＆系统 FPGA&ASIC IP&SOC设计 # 嵌入式

刘航宇 3年前
0 1,473 3
Microsemi Libero SOC使用示例—建立点灯工程嵌入式开发中的Hello World，点灯是再也基础不过的实验了，通过点灯实验，可以了解芯片GPIO的控制和开发环境IDE新建工程的流程，对于FPGA来说，每个IO口几乎一样，所以本篇文章主要学习一下如何基于Microsemi Libero集成开发环境建立一个示例工程，让一个LED以500ms的频率闪烁，以Microsemi SmartFusion系列FPGA——A2F200M3F为例，Microsemi其他系列FPGA芯片过程类似。准备工作软件准备：硬件准备：新建工程的主要步骤1.新建工程 2.添加设计文件 3.仿真验证 4.管脚分配 5.程序下载 Microsemi FPGA的Flash结构准备工作工欲利其事，必先利其器，充分的准备工作很有必要。软件准备： Microsemi Libero SoC集成开发环境，并已经成功注册，软件版本推荐V11.8或更高版本。硬件准备： Microsemi FPGA开发板，主控芯片A2F200M3F-PQ208，其他型号芯片类似。 Flash Pro 4或Flash Pro5下载器，用于给FPGA芯片下载程序和调试。新建工程的主要步骤新建工程，选择芯片型号等新建设计，使用Verilog编写点灯模块。仿真验证，对编写的点灯模块进行时序仿真，来验证是否满足设计需求。综合、管脚分配、布局、布线。生成程序文件，连接开发板，使用FlashPro下载程序到芯片内，观察现象是否和设计的一致。 1.新建工程和大多数IDE一样，选择Project -> New Project，新建一个工程。 image.png图片输入工程名称LED_Blink，选择工程存放的路径，工程名称和路径不要有中文字符和空格，选择源文件的类型Verilog或者VHDL。 image.png图片选择芯片型号，这里选择Microsemi SmartFusion系列下的A2F200M3F芯片，PQ208封装，把鼠标放在所选芯片上，可以查看芯片的详细参数：封装、速度等级、温度范围，内核电压、Flash ROM大小、用户IO数目、RAM大小、Flash ROM大小，ARM Cortex-M3 SoC的外设配置等详细的参数。图片选择IO的电平标准，不同的电平标准，高低电平的电压范围是不同的，这里选择默认的LVTTL。图片是否创建MSS模块，MSS里有PLL和ARM Cortex-M3的使用，以后用到PLL和ARM核时再添加，这里先不选择，以后需要也可以再创建。图片是否导入已经存在的HDL文件，如果已经有一些写好的模块，可以在这里直接导入。图片是否导入已经存在的管脚约束文件，这里选择不添加，我们会在后面通过图形化工具来指定管脚。图片到这里，工程就创建完成了，然后会在存储路径下生成一个和工程名称一样的文件夹，工程相关的所以文件都存放在这里。主要包括以下几个文件夹：图片具体每个文件夹存放的是什么文件，我们在以后的文章再详细介绍。以上的工程配置在创建完工程之后，也可以再次更改，可以通过Project->Project Setting查看或更改配置：图片或者通过点击如下图标来进入配置界面：图片弹出如下窗口，和新建工程是一样的，可以更改FPGA的型号，但只限于同一个系列内。 2.添加设计文件 Microsemi Libero开发环境支持HDL方式和SmarDesign方式来创建设计，HDL方式支持VerilogHDL和VHDL两种硬件描述语言，而SmartDesign方式和Xilinx的Schematic原理图方式是一样的，是通过图形化的方式来对各个模块之间的连接方式进行编辑，两种方式都可以完成设计。由于本实验功能简单，所以以使用Verilog文件为例。创建Verilog文件创建Verilog文件有多种方式，可以直接双击左侧菜单中的Create Design->Create HDL 图片或者点击File->New->HDL，这两种方式都可以创建一个Verilog设计文件，这里选择Verilog文件。图片输入模块名称：led_driver，不用添加.v后缀名，Libero软件会自动添加。源代码： module led_driver( //input input clk, //clk=2MHz input rst_n, //0=reset //output output reg led ); parameter T_500MS = 999999; //1M reg [31:0] cnt; always @ (posedge clk) begin if(!rst_n) cnt <= 32'b0; else if(cnt >= T_500MS) cnt <= 32'b0; else //cnt < T_500MS cnt <= cnt + 32'b1; end always @ (posedge clk) begin if(!rst_n) led <= 1'b1; else if(cnt >= T_500MS) led <= ~led; end endmodule可以看到，代码非常的简单，定义一个计数器，系统时钟为2MHz=500ns，500ms=1M个时钟周期，当计数到500ms时，LED翻转闪烁。 3.仿真验证编写完成，之后，点击对号进行语法检查，如果没有语法错误就可以进行时序仿真了。新建Testbench文件底部切换到Design Hierarchy选项卡，在led模块上右键选择Create Testbechch创建仿真文件，选择HDL格式。图片给创建的testbench文件名一般为模块名后加_tb，这里为：led_driver_tb，因为我们的板子外部晶体为2M，所以这里系统时钟周期为500ns，这个也可以在文件中更改。图片点击OK之后，可以看到，Libero软件已经为我们生成了一些基本代码，包括输入端口的定义，系统时钟的产生，输入信号的初始化等等。我们只需要再增加几行即可。 `timescale 1ns/100ps module led_driver_tb; parameter SYSCLK_PERIOD = 500;// 2MHZ reg SYSCLK; reg NSYSRESET; wire led; //add output reg initial begin SYSCLK = 1'b0; NSYSRESET = 1'b0; end initial begin #(SYSCLK_PERIOD * 10 ) NSYSRESET = 1'b0; //add system reset #(SYSCLK_PERIOD * 100 ) NSYSRESET = 1'b1; //add system set end always @(SYSCLK) //generate system clock #(SYSCLK_PERIOD / 2.0) SYSCLK <= !SYSCLK; led_driver led_driver_0 ( // Inputs .clk(SYSCLK), .rst_n(NSYSRESET), // Outputs .led(led ) //add port // Inouts ); endmodule仿真代码也非常简单，输入信号初始化，NSYSRESET在10个时钟周期之后拉低，100个时钟周期之后拉高。使用ModelSim进行时序仿真仿真代码语法检查无误后，可以进行ModelSim自动仿真，在安装Libero时，已经默认安装了ModelSim仿真软件，并和Libero进行了关联。直接双击Simulate，Libero会自动打开ModelSim。图片可以看到输入输出信号，已经为我们添加好了：图片先点击复位按钮，复位系统，然后设置要运行的时间，由于设计的是500ms闪烁一次，这里我们先运行2s，即2000ms，在ModelSim中2秒已经算是很长的时间了，然后点击时间右边的运行按钮，耐心等待，停止之后就会看到led按500ms变化一次的波形了，如下图所示，可以再添加一个cnt信号到波形观察窗口，可以看到cnt周期性的变化。图片使用2个光标的精确测量，可以看出，led每隔500ms翻转一次，说明程序功能是正确的。 4.管脚分配与STM32等MCU不同，FPGA的引脚配置非常灵活，如STM32只有固定的几个引脚才能作为定时器PWM输出，而FPGA通过管脚分配可以设置任意一个IO口输出PWM，而且使用起来非常灵活，这也是FPGA和MCU的一个区别，当然其他的功能，如串口外设，SPI外设等等，都可以根据需要自己用HDL代码来实现，非常方便。时序仿真正常之后，就可以进行管脚分配了，即把模块的输入输出端口，真正的分配到芯片实际的引脚上，毕竟我们的代码是要运行在真正的芯片上的。打开引脚配置图形化界面双击Create/Edit I/O Attributes，打开图形化配置界面，在打开之前，Libero会先进行综合(Synthesize)、编译(Complie)，当都运行通过时，才会打开配置界面。图片分配管脚管脚可视化配置工具使用起来非常简单：引脚号指定、IO的电平标准，内部上下拉等等，非常直观。把时钟、复位、LED这些管脚分配到开发板原理图中对应的引脚，在分配完成之后，可以点击左上角的commit and check进行检查。图片在分配完成之后，为了以后方便查看已经分配的引脚，可以导出一个pdc引脚约束文件，选择Designer窗口下的File->Export->Constraint File，会导出一个led_driver.pdc文件，保存在工程目录下的constraint文件夹。图片一些特殊管脚的处理 SmartFusion系列的FPGA芯片，在分配个别引脚，如35-39、43-47这些引脚时，直接不能分配，这些引脚属于MSS_FIO特殊引脚，具体怎么配置为通用IO，可以查看下一篇文章。而新一代的SmartFusion 2系列的FPGA芯片则没有这种情况。 5.程序下载管脚分配完成之后，连接FlashPro下载器和开发板的JTAG接口，关闭Designer窗口，选择Program Device，耐心等待几分钟，如果连接正常，会在右侧输出编程信息：擦除、验证、编程等操作，下载完成之后，就会看到板子上的LED闪烁起来了。 Microsemi FPGA的Flash结构和Altera、Xilinx不同，Microsemi FPGA在下载程序时，并不是下载程序到SPI Flash，而是直接下载到FPGA内部的。目前，FPGA 市场占有率最高的两大公司Xilinx和Altera 生产的 FPGA 都是基于 SRAM 工艺的，需要在使用时外接一个片外存储器以保存程序。上电时，FPGA 将外部存储器中的数据读入片内 RAM，完成配置后，进入工作状态；掉电后 FPGA 恢复为白片，内部逻辑消失。这样 FPGA 不仅能反复使用，还无需专门的 FPGA编程器，只需通用的 EPROM、PROM 编程器即可。而Microsemi的SmartFusion、SmartFusion2、ProASICS3、ProASIC3E系列基于Flash结构，具备反复擦写和掉电后内容非易失性，因此基于Flash结构的FPGA同时具备了SRAM结构的灵活性和反熔丝结构的可靠性，这种技术是最近几年发展起来的新型FPGA实现工艺，目前实现的成本还偏高，没有得到大规模的应用。示例工程下载基于Libero V11.8.2.4的工程下载： LED_Blink.rar 下载地址：https://wcc-blog.oss-cn-beijing.aliyuncs.com/Libero/Libero-2/LED_Blink.rar 提取码：

嵌入式＆系统 FPGA&ASIC IP&SOC设计 # ASIC/FPGA # 嵌入式 # SOC设计

刘航宇 3年前
0 1,775 2

1
2
...
7
下一页

304 文章数

548 评论量

人生倒计时

坚持每天来逛逛，学到更多知识

本站欢迎您的来访！

电子与计算机技术

FPGA&数字IC

通信&嵌入式系统

明天你好！

祝工作轻松！身体健康

ee.ac.cn欢迎各位亲爱的读者

最新回复

无名氏
2026-01-04

最后一个例子：［如图所示，clk_a时钟域中连续1920个16bit的数据通过data_valid标记，有效数据之后，紧接着720个无效数据时钟周期。］这种描述应该不会有背靠背的情况出现吧，。valid 高低应该是交替的，不会出现1920个valid高后再紧跟着1920个valid 高的情况了。
卢林勋
2025-12-02

很有辛读到学长的文章，写得很好，我本科是西大的。最进在学ZYNQ,想问一下，对地址分配有点不太清楚，直接在address editor填写的地址分配是访问的边界条件吗？
案发当时
2025-10-17

更新一下吧

标签云

嵌入式 ASIC/FPGA VLSI SOC设计机器学习天线设计 C/C++EDA&虚拟机软件算法小实验信号处理电子线路通信&射频随笔笔试面试硬件算法 Verilog 软件无线电 Python DL/ML

EE学术：专注电子信息领域技术分享，域名解释：EE.AC.CN = Electronic Engineering Academic
RSS MAP 陕ICP备2021016790号皖公网安备34050402000554号
Copyright © 2020 - 2025 · EE学术-刘航宇博客

已运行 00 天 00 时 00 分 00 秒
扫码加公众号

扫码加微信