# Stock trading with reinforcement learning

Hi, now is the time that AI will conquer the world. So, today I will introduce you a method to trade stock using AI (Simple technique, so you understand it easily — I hope). For this post, the information is for study and experiment purpose only. I don’t recommend you to buy or sell using this algorithm and if you do, please don’t blame me about that, haha. We will follow this paper and all the code that used in this experiment are in this repository (within stock_trading branch).

The reinforcement learning is teaching agent to predict the reward of the action and take the good action from the reward. By define the reward function and state space of game and using linear regression or others algorithm to calculate reward.

Let’s start. First, we will start with select a graph price of stock (in my case, I use ABICO — stock from Stock Exchange Thailand: SET — because I live in Thailand). In this experiment, I use all of data such as open, closed, high, low and volume of one day. You can see in the picture that shown graph price of ABICO (from 1990 to 1998).

Because reinforcement learning mostly use with game criteria, so I program a game from stock data. This game consist of 4 action (buy, waiting for buy, sell, waiting for sell). The game start with 5000 unit of money and when you take action buy or sell, it mean buy or sell all of your asset that you have. For evaluate the algorithm, we need a comparison algorithm which we used random action. We random each action equally and we running trading for 50,000 times of game. The result of random action is shown below, so you can see that the average is about ~2500 unit asset left (Actually,the price in this period is downside, to win the game is to wait and don’t buy anything, you will get 5000 unit left).

Distribution Money of Random Action

To use reinforcement learning, we must define the reward for the agent to understand that is it good action ?. For this game, I used the percent of profit when selling as reward, positive number for good profit and negative for loss. Also the sell action is terminal state for each buy. You can see the following algorithm which come from paper. For the Ø function, I used the history data — previous 60 days data. And to optimize computation time, I define 4 function to do a gradient descent for each action. The different is I didn’t use Deep Learning Structure but I use normal neural network with 4 output for each action, instead.

The result of this experiment is stunning, because the agent try to buy and sell continuously and a little of waiting. But finally the agent finish with around ~5000 unit left. My algorithm need a lot of improvement but I proud of it that it beat random action strategy. I think if it have more patient to wait for buy or sell, it will be smarter.

Finally, thank you for reading. I wish some of you to stand up and program AI, so we will have the best AI in this century. And please wish me for better agent maybe next time it will be better as I expect. If you have any suggestion please leave the comment.

# ใช้ AI เล่นหุ้น

สำหรับวันนี้วันที่สิบ เดือนสิบ อันที่จริงก็ไม่เกี่ยวกับเรื่องที่เขียนหรอกแต่อยากบอกเพื่อความเท่และเพื่อเรียกยอดวิว เนื้อหาเลยต้องมีการดึงเรื่องต่างๆ มาเกี่ยวโยงด้วย เข้าเรื่องเลยดีกว่า วันนี้จะมาเสนอการใช้ AI เล่นหุ้นเพื่อเป็นการจุดประกายไฟผู้อ่านว่าต้องหันมาสนใจ AI ได้แล้วนะ ไม่งั้นท่านทั้งหลายอาจตกงานได้ง่ายๆ ซึ่งผลสรุปยังไม่เวิร์คเท่าไหร่ คือแค่จะมาจุดประกายและเพื่อเป็นกรณีศึกษา ไม่ได้เป็นการแนะนำให้ลงทุนใดๆทั้งสิ้น ผู้เขียนไม่ได้มีส่วนเกี่ยวข้องผลลัพธ์อันเกิดจากโค้ดที่แจกจ่ายใดๆ ทั้งสิ้น (ต้องเขียนไว้ก่อนเผื่อมีปัญหาตามมาทีหลัง ไม่เกี่ยวกับกระผมนะขอรับ)

สำหรับเนื้อหานั้นไปอ่านมาจากบล็อคของต่างชาติบล็อคหนึ่งซึ่งพยายามหาลิงก์แล้วแต่ก็หาไม่เจอ ทำให้เนื้อหาอาจจะไม่ครบถูกต้องหรือมีใจความเหมือนกับต้นฉบับเท่าไหร่ โดยเริ่มต้นจากการนำกราฟของหุ้นสักตัว (ในที่นี้ใช้หุ้น ABICO ปี 1990 – 1998) จากนั้นลองให้โปรแกรมสุ่มซื้อขายแบบทุกการกระทำมีความน่าจะเป็นเท่ากัน จากนั้นดูค่าเฉลี่ยของมูลค่าเงินที่เหลืออยู่ เมื่อสิ้นการทำงาน

Distribution Money of Random Action

โดยเราจะมองเป็นการเล่นเกมนะครับ โดยให้เงินเริ่มต้น 5000 สามารถทำได้สี่อย่างคือ ซื้อ ขาย รอซื้อ และรอขาย ซึ่งถ้าซื้อคือซื้อทั้งหมดเงินที่มีเลย ขายก็ขายหมดหน่วยที่มีเลยเช่นกัน ซึ่งจะเห็นว่ากราฟค่อนข้างเป็นขาลง เราสุ่มทั้งหมด 50,000 รอบ ซึ่งค่าเฉลี่ยของการสุ่มเล่นออกมาประมาณ 2,500 ซึ่งน้อยกว่าเงินตั้งต้น นั่นคือ ทางที่รักษาเงินได้ดีคือไม่ซื้อเลยเราจะมีเงิน 5000 ชนะค่าเฉลี่ยการเล่นซะอีก เพราะฉะนั้นอย่าเล่นเลยครับหุ้น (ไม่ใช่อย่างนั้นสิ เราอยากสร้าง AI ที่ชนะค่าเฉลี่ยสิถึงจะถูก)

ในที่นี้เราจะใช้อัลกอริทึมตามงานวิจัยนี้ โดยเค้าใช้ Neural Network ผสมกับ Reinforcement Learning ในการวิเคราะห์หาค่ารางวัลของการกระทำต่างๆ เราจะมาลงรายละเอียดของการทำงานกันวันหลังนะครับ วันนี้จะมาแนะนำไอเดีย คร่าวๆก่อน ในงานวิจัยใช้ Machine learning ในการเรียนรู้การเล่นเกม Atari โดยใช้คะแนนของการเล่นเกมเป็นการตัดสิน

ส่วนของเราจะเปลี่ยนค่า reward function ให้เข้ากับเกมของเราซึ่งในที่นี้คือกำไรจากการขายหุ้นโดยคิดเป็นเปอร์เซนต์ ถ้าขาดทุนก็จะได้คะแนนติดลบ โดยนับการขายหุ้นเป็น terminal state และจากการทดลองได้ผลว่าตัว AI สามารถทำเงินได้มากกว่าค่าเฉลี่ยนั่นคือประมาณ 5000 ซึ่งเรียกได้ว่าเท่ากับไม่ซื้อเลย แต่ AI ที่ทดลองได้เป็นการซื้อขายแบบสลับกัน อาจจะมีการรอซื้อหรือขายอยู่บ้างแต่น้อย แต่ก็ทำให้เห็นว่า AI มีความฉลาดในระดับหนึ่ง ซึ่งสามารถไปทดลองเล่นได้ ที่ repository นี้ครับ (Branch : stock_trading)

บทสรุปคือ AI ที่ได้จากการทดลองยังไม่สามารถนำไปใช้จริงได้แต่ก็เป็นจุดเริ่มต้นให้หลายๆคนได้นำไปประยุกต์ใช้และศึกษาเพื่อร่วมกันพัฒนาให้ AI ฉลาดกว่านี้ได้ ในการทดลองนี้ยังไม่เคยนำไปใช้กับกราฟแบบอื่นทั้งยังไม่ได้นับรวมข้อมูลข่าวสาร ข้อมูลพื้นฐานของหุ้นลงไป ต้องขอขอบคุณบล็อคของต่างชาติคนนั้นด้วย ถ้าหาเจอจะนำมาแปะไว้เป็น reference นะครับ หวังว่าจะจุดประกายคนที่อยากพัฒนา AI กันมากขึ้น สำหรับใครมีความคิดเห็นหรือแนวทางใดๆสามารถมาแสดงความคิดเห็นไว้ได้นะครับ ลาไปก่อนพบกันใหม่ครับ