Category Archives: Artificial Intelligence

Stock trading with reinforcement learning

Hi, now is the time that AI will conquer the world. So, today I will introduce you a method to trade stock using AI (Simple technique, so you understand it easily — I hope). For this post, the information is for study and experiment purpose only. I don’t recommend you to buy or sell using this algorithm and if you do, please don’t blame me about that, haha. We will follow this paper and all the code that used in this experiment are in this repository (within stock_trading branch).

The reinforcement learning is teaching agent to predict the reward of the action and take the good action from the reward. By define the reward function and state space of game and using linear regression or others algorithm to calculate reward.

Let’s start. First, we will start with select a graph price of stock (in my case, I use ABICO — stock from Stock Exchange Thailand: SET — because I live in Thailand). In this experiment, I use all of data such as open, closed, high, low and volume of one day. You can see in the picture that shown graph price of ABICO (from 1990 to 1998).

Because reinforcement learning mostly use with game criteria, so I program a game from stock data. This game consist of 4 action (buy, waiting for buy, sell, waiting for sell). The game start with 5000 unit of money and when you take action buy or sell, it mean buy or sell all of your asset that you have. For evaluate the algorithm, we need a comparison algorithm which we used random action. We random each action equally and we running trading for 50,000 times of game. The result of random action is shown below, so you can see that the average is about ~2500 unit asset left (Actually,the price in this period is downside, to win the game is to wait and don’t buy anything, you will get 5000 unit left).

Distribution Money of Random Action

To use reinforcement learning, we must define the reward for the agent to understand that is it good action ?. For this game, I used the percent of profit when selling as reward, positive number for good profit and negative for loss. Also the sell action is terminal state for each buy. You can see the following algorithm which come from paper. For the Ø function, I used the history data — previous 60 days data. And to optimize computation time, I define 4 function to do a gradient descent for each action. The different is I didn’t use Deep Learning Structure but I use normal neural network with 4 output for each action, instead.

The result of this experiment is stunning, because the agent try to buy and sell continuously and a little of waiting. But finally the agent finish with around ~5000 unit left. My algorithm need a lot of improvement but I proud of it that it beat random action strategy. I think if it have more patient to wait for buy or sell, it will be smarter.

Finally, thank you for reading. I wish some of you to stand up and program AI, so we will have the best AI in this century. And please wish me for better agent maybe next time it will be better as I expect. If you have any suggestion please leave the comment.

Advertisements

ใช้ AI เล่นหุ้น

สำหรับวันนี้วันที่สิบ เดือนสิบ อันที่จริงก็ไม่เกี่ยวกับเรื่องที่เขียนหรอกแต่อยากบอกเพื่อความเท่และเพื่อเรียกยอดวิว เนื้อหาเลยต้องมีการดึงเรื่องต่างๆ มาเกี่ยวโยงด้วย เข้าเรื่องเลยดีกว่า วันนี้จะมาเสนอการใช้ AI เล่นหุ้นเพื่อเป็นการจุดประกายไฟผู้อ่านว่าต้องหันมาสนใจ AI ได้แล้วนะ ไม่งั้นท่านทั้งหลายอาจตกงานได้ง่ายๆ ซึ่งผลสรุปยังไม่เวิร์คเท่าไหร่ คือแค่จะมาจุดประกายและเพื่อเป็นกรณีศึกษา ไม่ได้เป็นการแนะนำให้ลงทุนใดๆทั้งสิ้น ผู้เขียนไม่ได้มีส่วนเกี่ยวข้องผลลัพธ์อันเกิดจากโค้ดที่แจกจ่ายใดๆ ทั้งสิ้น (ต้องเขียนไว้ก่อนเผื่อมีปัญหาตามมาทีหลัง ไม่เกี่ยวกับกระผมนะขอรับ)

สำหรับเนื้อหานั้นไปอ่านมาจากบล็อคของต่างชาติบล็อคหนึ่งซึ่งพยายามหาลิงก์แล้วแต่ก็หาไม่เจอ ทำให้เนื้อหาอาจจะไม่ครบถูกต้องหรือมีใจความเหมือนกับต้นฉบับเท่าไหร่ โดยเริ่มต้นจากการนำกราฟของหุ้นสักตัว (ในที่นี้ใช้หุ้น ABICO ปี 1990 – 1998) จากนั้นลองให้โปรแกรมสุ่มซื้อขายแบบทุกการกระทำมีความน่าจะเป็นเท่ากัน จากนั้นดูค่าเฉลี่ยของมูลค่าเงินที่เหลืออยู่ เมื่อสิ้นการทำงาน

Distribution Money of Random Action

โดยเราจะมองเป็นการเล่นเกมนะครับ โดยให้เงินเริ่มต้น 5000 สามารถทำได้สี่อย่างคือ ซื้อ ขาย รอซื้อ และรอขาย ซึ่งถ้าซื้อคือซื้อทั้งหมดเงินที่มีเลย ขายก็ขายหมดหน่วยที่มีเลยเช่นกัน ซึ่งจะเห็นว่ากราฟค่อนข้างเป็นขาลง เราสุ่มทั้งหมด 50,000 รอบ ซึ่งค่าเฉลี่ยของการสุ่มเล่นออกมาประมาณ 2,500 ซึ่งน้อยกว่าเงินตั้งต้น นั่นคือ ทางที่รักษาเงินได้ดีคือไม่ซื้อเลยเราจะมีเงิน 5000 ชนะค่าเฉลี่ยการเล่นซะอีก เพราะฉะนั้นอย่าเล่นเลยครับหุ้น (ไม่ใช่อย่างนั้นสิ เราอยากสร้าง AI ที่ชนะค่าเฉลี่ยสิถึงจะถูก)

ในที่นี้เราจะใช้อัลกอริทึมตามงานวิจัยนี้ โดยเค้าใช้ Neural Network ผสมกับ Reinforcement Learning ในการวิเคราะห์หาค่ารางวัลของการกระทำต่างๆ เราจะมาลงรายละเอียดของการทำงานกันวันหลังนะครับ วันนี้จะมาแนะนำไอเดีย คร่าวๆก่อน ในงานวิจัยใช้ Machine learning ในการเรียนรู้การเล่นเกม Atari โดยใช้คะแนนของการเล่นเกมเป็นการตัดสิน

ส่วนของเราจะเปลี่ยนค่า reward function ให้เข้ากับเกมของเราซึ่งในที่นี้คือกำไรจากการขายหุ้นโดยคิดเป็นเปอร์เซนต์ ถ้าขาดทุนก็จะได้คะแนนติดลบ โดยนับการขายหุ้นเป็น terminal state และจากการทดลองได้ผลว่าตัว AI สามารถทำเงินได้มากกว่าค่าเฉลี่ยนั่นคือประมาณ 5000 ซึ่งเรียกได้ว่าเท่ากับไม่ซื้อเลย แต่ AI ที่ทดลองได้เป็นการซื้อขายแบบสลับกัน อาจจะมีการรอซื้อหรือขายอยู่บ้างแต่น้อย แต่ก็ทำให้เห็นว่า AI มีความฉลาดในระดับหนึ่ง ซึ่งสามารถไปทดลองเล่นได้ ที่ repository นี้ครับ (Branch : stock_trading)

บทสรุปคือ AI ที่ได้จากการทดลองยังไม่สามารถนำไปใช้จริงได้แต่ก็เป็นจุดเริ่มต้นให้หลายๆคนได้นำไปประยุกต์ใช้และศึกษาเพื่อร่วมกันพัฒนาให้ AI ฉลาดกว่านี้ได้ ในการทดลองนี้ยังไม่เคยนำไปใช้กับกราฟแบบอื่นทั้งยังไม่ได้นับรวมข้อมูลข่าวสาร ข้อมูลพื้นฐานของหุ้นลงไป ต้องขอขอบคุณบล็อคของต่างชาติคนนั้นด้วย ถ้าหาเจอจะนำมาแปะไว้เป็น reference นะครับ หวังว่าจะจุดประกายคนที่อยากพัฒนา AI กันมากขึ้น สำหรับใครมีความคิดเห็นหรือแนวทางใดๆสามารถมาแสดงความคิดเห็นไว้ได้นะครับ ลาไปก่อนพบกันใหม่ครับ

Switch to Conjugate Gradient

Since I posted about autoencoder neural network on my blog (2 years ago), there are many people visit my Github for that code, Hooray !! Thank you very much everyone. And again I have a new update for that code. I switch to use Conjugate Gradient instead of generative back-propagation. Someone may think is that take 2 years to update it, NO but i’m too lazy.

While I posting autoencoder article, I realize that we need better than normal backpropagation. So I try to explore “What is the easy way to change and what algorithm to swiched to?”. Then I found that in scipy library, it contains optimization algorithm in scipy.optimize module. So you can change the optimization algorithm whatever you want that build within scipy.optimize module. This link is refer to Github page of old autoencoder but the Conjugate Gradient is on conjugate branch.

Why do I switch to Conjugate Gradient? After I study UFLDL lesson within advance optimization part. There is a phrase say that Conjugate Gradient is better than Gradient Descent (Classic Back-propagation). So I started to study about Conjugate Descent and other advance optimization, but I don’t understand them. Finally, I found out the workaround to improve my implementation by using scipy library. If anyone have any suggestion, please comment. Thanks.

Uber Dynamic Pricing Model

คราวนี้มาเป็นเรื่องแปลเหมือนกันหลายคนคงเบื่อ อย่าพึ่งเบื่อลองอ่านดูก่อน ปกติผู้เขียนเป็นคนที่ใช้บริการ Uber ระดับหนึ่งคือเปิด Uber ดูก่อนว่ามีรถใกล้ๆ มั้ย ถ้าใกล้ก็เรียกถ้าไกลก็ออกไปโบกแท๊กซี่แทน และแล้วก็ได้มีโอกาสคุยกับคนขับ ถามว่าได้เงินดีมั้ย คนขับบอกว่า ดีนะตอนแรกก็รู้สึกว่าไม่คุ้มตอนที่รับผู้โดยสาร แต่ตอนที่บิลจ่ายเงินมานั้น Uber จะมีการประกันรายได้อยู่ว่าถ้าช่วงนี้ทำไม่ได้ตามเป้าจะมีการจ่ายให้ตามเป้าด้วย เมื่อได้ฟังดังนั้นจึงเกิดการสงสัยขึ้นทันทีว่า ห๊ะ ประกันรายได้ แล้วบริษัทเอาเงินจากไหนมาจ่ายหล่ะ จึงลองไปหาดู

ปรากฎว่า ไม่ได้มีการประกันรายได้ทุกคน (ไม่รู้จริงเปล่า) ต้องเป็นคนที่ทำเควสของ Uber ได้ เท่านั้นก็เก็ทเลย จึงทำให้สงสัยขึ้นมาทันทีว่าแล้วใครคิดเควสหล่ะ แล้วรู้ได้ไงว่าจะต้องมอบเควสให้กับใคร พอลองศึกษาเพิ่มก็พบกับคำๆหนึ่งคือ Gamification เป็นเรื่องของการที่เอาองค์ประกอบของเกม มาใช้กับชีวิตประจำวันให้สนุกและท้าทายขึ้น เช่น มีระบบ Point ระบบ Level เพื่อเพิ่มความสนุกและสร้างฐานผู้ใช้ที่ดีเลยทีเดียว เพราะงั้น Uber ใช้ระบบจัดการแบบออโต้เพื่อจัดการทุกอย่างเลย อย่างโหด

Uber ยังไม่มีการเปิดเผยใดๆ เรื่องของเควส (จริงๆ แล้วหาไม่เจอแหละแฮะๆ) เนื่องจากเป็นคนชื่นชอบเรื่องอัลกอริทึม เลยลองหาดูว่าแล้วมีอย่างอื่นที่ Uber ทำหรือไม่ ปรากฎเจอเรื่อง Dynamic Pricing Model คือการปรับราคาตามความต้องการของตลาด ถ้าพูดให้ถูกภาษาเศรฐศาสตร์ คือ Supply & Demand เช่น ผู้โดยสารต้องการเยอะ Uber จะขึ้นราคาเพื่อให้คนที่ต้องการใช้บริการ Uber จริงๆ เพราะคนขับมีจำกัด เมื่อหมดช่วงเวลาเร่วด่วนก็ปรับราคากลับมาเท่าเดิม ดูเหมือนง่ายเลย แต่มีส่วนผสมในรายละเอียดของ Dynamic Pricing Model อีกมาก เช่น ต้องคาดเดาให้ได้ก่อนเกิดชั่วโมงเร่งด่วนจากนั้นจะมี notification ไปบอกคนขับว่าออกมาขับได้แล้วได้เงินเพิ่มนะ หรือการเตือนผู้โดยสารอย่างไรเพื่อไม่ให้ผู้โดยสารโมโหว่าทำไมขึ้นราคาแพงจังเลย

นอกจากนั้น Uber ยังมีการให้ผู้โดยสารให้คะแนนคนขับ และให้คนขับให้คะแนนผู้โดยสารเพื่อดูพฤติกรรมอีกด้วย นอกจากนั้นยังมีการดูว่าคนขับปฎิเสธผู้โดยสารบ่อยรึเปล่าและอื่นๆอีก ซึ่งระบบ Dynamic Pricing Model ไม่ได้มีแต่ใน Uber นะ โรงแรม สายการบินและอื่นๆ ก็ใช้ระบบนี้กันทั้งนั้น สุดท้าย Uber บอกว่าการปรับราคาตามความต้องการของตลาดนั้นไม่มีผลต่อผู้ใช้มากเท่าไหร่เพราะเมื่อผู้ใช้รู้สึกว่าแพงเกินไปไม่อยากจ่าย ก็จะพบว่าแท๊กซี่ช่วงนั้นก็หายากเช่นกัน (มันเลยแพงไง ก็ชั่วโมงเร่งด่วนหนิ) ทำให้ผู้โดยสารไม่ค่อยติมากเท่าใด

ใครสนใจลองไปอ่านต่อเพิ่มเติมได้นะจาก Reference ข้างล่าง ยังไงคราวหน้าจะเตรียมเนื้อหาให้ดีกว่านี้นะ และจะใส่รูปเพิ่มขึ้นด้วยนะ ยังไงก็ติดตามกันนะ สุดท้ายนี้อยากบอกว่าไม่ได้ค่าโฆษณาจาก Uber แต่อย่างใด ขอบคุณครับ

Deep learning with Autoencoder

In past 10 years, machine learning is the most attractive subject, especially deep learning. Deep learning is the novel method to understand what ours brain think and percept. It begins in 1959, researchers found that cat’s brain can recognize picture by extract edges first, then lines, then surfaces, and objects. From this hypothesis, machine learning researchers adapt this idea to theirs algorithm and made its similar to real brain. At this time, there are several hardware that provide for deep learning algorithm, such as, Nervana Systems and Drive Px.

I am one of students that interested in this area, so I search for material to learn and practice about deep learning. And I found Machine Learning course from Coursera for beginner and deep learning website for expert. From a lot of articles about deep learning, I selected UFLDL tutorial to begin studying. First, I am not being expert in MATLAB that suggests in this tutorial. So I decide to use Theano python library which is my frequent programming language.

Autoencoder is the simple technique which I chose. Because it is easy to understand and can solve by simple neural network algorithm. Code of autoencoder that follows tutorial, neural network with regularization and sparsity penalty, is given.(https://github.com/chaiso-krit/autoencoder) Dataset that used in this code are 8×8 patch images and come from whiten images, provided by tutorial.

After running code for ~20 minutes, it will show what feature that autoencoder recognize, similar to following picture.

Autoencoder recognized feature