2009 International Conference on Field Programmable Logic and Applications 2009
DOI: 10.1109/fpl.2009.5272559
|View full text |Cite
|
Sign up to set email alerts
|

CNP: An FPGA-based processor for Convolutional Networks

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
1
1

Citation Types

0
149
0
1

Year Published

2016
2016
2022
2022

Publication Types

Select...
4
3
2

Relationship

0
9

Authors

Journals

citations
Cited by 305 publications
(157 citation statements)
references
References 10 publications
0
149
0
1
Order By: Relevance
“…그러나 반복적인 학습이 진행 될 경우에는 많은 데이터 연산처리로 인한 시스템 자원의 부족으로 학습 시간이 오래 걸리는 단점이 있다 [3]. 이를 극복하기 위해 합성곱(convolution) 처리를 위한 특별한 프로세서 연구개발이 진행 중이다 [4]. 그 가운데 구글의 TPU(Tensor Processing Unit)에서는 특정 기능만을 수행하여 연 산 속도를 개선시킨 것에 대한 연구결과를 발표했다 [5] [6].…”
Section: 서론 기계학습 분야에서 Cnn 알고리즘은 이미지 인식 및 분류에 있어서 높은 인식률을 자랑한다unclassified
“…그러나 반복적인 학습이 진행 될 경우에는 많은 데이터 연산처리로 인한 시스템 자원의 부족으로 학습 시간이 오래 걸리는 단점이 있다 [3]. 이를 극복하기 위해 합성곱(convolution) 처리를 위한 특별한 프로세서 연구개발이 진행 중이다 [4]. 그 가운데 구글의 TPU(Tensor Processing Unit)에서는 특정 기능만을 수행하여 연 산 속도를 개선시킨 것에 대한 연구결과를 발표했다 [5] [6].…”
Section: 서론 기계학습 분야에서 Cnn 알고리즘은 이미지 인식 및 분류에 있어서 높은 인식률을 자랑한다unclassified
“…The proposed design consists of a systolic 2D array of programmable processing tiles which operates under the control of a CPU. The original work [4] achieved an average throughput of around 4 GOp/s at 15W on a Xilinx Spartan-3A DSP 3400 FPGA. An improved version of this architecture was presented in [5], named NeuFlow.…”
Section: Related Workmentioning
confidence: 99%
“…A common element of all these works is the assumption that the training phase has been performed offline by software and hence they concentrate on the classification task, similarly to fpgaConvNet. One of the earliest works is the one which started under the name CNP [4]. The proposed design consists of a systolic 2D array of programmable processing tiles which operates under the control of a CPU.…”
Section: Related Workmentioning
confidence: 99%
“…Tanomoto et al implemented EMAX [10], a CNN on the CGRA with multiple local memory banks; the main difference from our work is the data stationary. FPGA implementations of CNN coprocessors using DSP blocks were also proposed [11] [12]. LUT-based FPGA implementation [13] was proposed; this transforms the weight values using a mathematical techniques to replace the multipliers with the LUT and the adders.…”
Section: Related Workmentioning
confidence: 99%